Testo italiano
MODELLI STATISTICI DI CLASSIFICAZIONE E DI SEGMENTAZIONE PER L'ANALISI DI DATI STRUTTURATI IN FORMA COMPLESSA: METODOLOGIE, SOFTWARE E APPLICAZIONITesto inglese
STATISTICAL MODELS FOR CLASSIFICATION AND SEGMENTATION OF COMPLEX DATA STRUCTURES: METHODOLOGIES, SOFTWARE AND APPLICATIONS
SICILIANO | ROBERTA | |
---|---|---|
(cognome) | (nome) | |
Università degli Studi di NAPOLI "Federico II" | Facoltà di ECONOMIA | |
(università) | (facoltà) | |
S01A | Dipartimento di MATEMATICO-STATISTICO | |
(settore scient.discipl.) | (Dipartimento/Istituto) |
r.sic@dmsna.dms.unina.it |
---|
(E-mail) |
VICHI | MAURIZIO | |
---|---|---|
(cognome) | (nome) |
Professore associato | 13/09/1959 | VCHMRZ59P13H501X |
---|---|---|
(qualifica) | (data di nascita) | (codice di identificazione personale) |
Università degli Studi G.D'Annunzio di CHIETI | Facoltà di ECONOMIA |
---|---|
(università) | (facoltà) |
S01A | Dipartimento di METODI QUANTITATIVI E TEORIA ECONOMICA |
(settore scient.discipl.) | (Dipartimento/Istituto) |
085/4537531 | 085/4537542 | vichi@dmqte.unich.it |
---|---|---|
(prefisso e telefono) | (numero fax) | (E-mail) |
S01A |
Testo italiano
CLASSIFICAZIONE ; CLASSIFICAZIONE CONSENSO ; PARTIZIONI FUZZY ; MINIMI QUADRATI ALTERNATI
Testo inglese
CLASSIFICATION ; CONSENSUS CLASSIFICATION ; ALTERNATING LEAST-SQUARES ; MULTIWAY-DATA
Testo italiano
Maurizio Vichi è ProfessoreAassociato di statistica all'Università "G.D'Annunzio" di Chieti, dal 1992.
Nel 1985 è stato research fellow all'Università di St Andrews (Scozia) e nel 1986 presso la Rutgers University, NJ., (USA). ù
E' stato ricercatore presso il Dipartimento di Statistica Probabilità e Statistiche Applicate dell'Universitò di Roma "La Sapienza".
Dal 1998 è Segretario generale della Società Italiana di Statistica.
E' autore di numerose pubblicazioni in ambito di classificazione e consenso di classificazioni, su riviste internazionali. E' stato editore di due volumi della Springer-Verlag, di Heidelberg, nella serie: Classification, Data Analysis and Knowledge Organization.Testo inglese
Maurizio Vichi is Associate professor of Statistics at the University "G.D'Annunzio" of Chieti, since 1992.
He has been researcher at the University of Rome "La Sapienza" (1990-1992). In 1985 was research fellow at St. Andrews University (Scotland), and in 1996 at Rutgers University, NJ, (USA).
He is the Sevretary-General of the Italian Statistical Society.
He is author of several papers on classification and consensus classification, published on international journals.
He was editor of two volumes in the series:
Classification, Data Analysis and Knowledge Organization,Springer-Verlag, Heidelberg.
Nº | Cognome | Nome | Dipart./Istituto | Qualifica | Settore scient. |
Mesi uomo |
|
---|---|---|---|---|---|---|---|
1999 | 2000 | ||||||
1 | VICHI | MAURIZIO | METODI QUANTITATIVI E TEORIA ECONOMICA | Prof. associato | S01A | 4 | 4 |
1.10.2 Personale universitario di altre Università
Nº | Cognome | Nome | Università | Dipart./Istituto | Qualifica | Settore scient. |
Mesi uomo |
|
---|---|---|---|---|---|---|---|---|
1999 | 2000 | |||||||
1.10.3 Titolari di assegni di ricerca
Nº | Cognome | Nome | Dipart./Istituto | Anno del titolo | Mesi uomo |
---|
Nº | Cognome | Nome | Dipart./Istituto | Anno del titolo | Mesi uomo |
---|---|---|---|---|---|
1. | DI MARZIO | MARCO | METODI QUANTITATIVI E TEORIA ECONOMICA | 1997 | 3 |
2. | FRANCESCHINI | CINZIA | METODI QUANTITATIVI E TEORIA ECONOMICA | 2000 | 4 |
3. | IEZZI | STELLA | METODI QUANTITATIVI E TEORIA ECONOMICA | 1998 | 6 |
4. | SALVATORE | MIRELLA | METODI QUANTITATIVI E TEORIA ECONOMICA | 2001 | 4 |
Nº | Qualifica | Costo previsto | Mesi uomo |
---|---|---|---|
1. | PROGRAMMATORE VISUAL BASIC | 6 | 3 |
2. | PROGRAMMATORE MATLAB/METALING. | 6 | 3 |
Nº | Cognome | Nome | Dipart./Istituto | Qualifica | Mesi uomo |
---|---|---|---|---|---|
1. | TURRINI | AIDA | Istituto Nazionale della Nutrizione | ricercatore | 2 |
Testo italiano
Modelli di classificazione e consenso per l'analisi di dati strutturati in forma complessaTesto inglese
Classification and consensus models for the analysis of data sets with complex structure.
Testo italiano
Quando si osservano fenomeni multivariati in differenti occasioni, gli elementi dell'insieme di dati rilevato sono identificati da tre modi (vie): unità (righe), variabili (colonne), e occasioni (livelli), e sono organizzati in un array a tre indici X (multiway). In questa ricerca le occasioni sono relative a diversi tempi di rilevazione dei dati e le unità rimangono le stesse al variare del tempo, in modo da definire un insieme longitudinale di dati o panel. Strutture complesse di dati come queste spesso sono di grandi dimensioni e sono difficili da comprendere. Per questo sono necessari appositi metodi statistici che permettano di estrarre e sintetizzare l'informazione rilevante contenuta in insiemi di dati strutturati in questo modo. Di frequente è utile classificare gli elementi di un modo, gerarchicamente o non gerarchicamente sulla base degli altri due. Questo approccio, per dati mutiway, è denominato di classificazione ad un modo (OMC) dell'insieme X. Tre tipi di OMC possono essere considerati: (a) OMC delle unità secondo le variabili e le occasioni, (b) OMC della variabili secondo le unità e le occasioni, e (c) OMC delle occasioni sulla base delle unità e variabili. OMC può essere visto come una sintesi o consenso dell'insieme D di classificazioni gerarchiche o non gerarchiche ottenute da X. Per esempio, OMC delle unità di X è un una sintesi dell'insieme di classificazioni ottenute classificando le unità di X sulla base delle variabili e ripetendo questa classificazione separatamente per ciascun periodo distinto di tempo.
Una primo semplice procedura per ottenere l'OMC delle unità si realizza riorganizzando i dati di X in una matrice a due indici (affiancando le matrici dei dati componenti X) e applicando a questa matrice una tecnica di classificazione. Con questa procedura, però, l'informazione rilevante sulla dinamica delle unità rispetto al tempo è definitivamente persa, così come non è più possibile sapere se ciascuna unità rimane stabile nello stesso gruppo o cambia appartenenza.
Si perde meno informazione quando si usano più sintesi per riassumere i dati in D . Per questa ragione le tecniche di classificazione per X dovrebbero poter determinare più di una classificazione consenso, ciascuna delle quali deve riassumere una differente struttura di classificazione presente nell'array X.
La maggior parte delle tecniche di classificazione per un array X identificano una sola classificazione consenso. Carrol e Arabie [1] hanno sviluppato INDCLUS, una tecnica non gerarchica che individua classi parzialmente sovrapposte e che assume esista un insieme comune di classi i cui pesi variano congiuntamente ai cluster e ai dati considerati [2]. Carrol, Clark e De Sarbo [3] hanno proposto IDTRESS, una tecnica gerarchica, che identifica una unica famiglia di alberi per le occasioni permettendo diversi pesi tra i nodi interni. Basford e McLachlan [4] hanno adottato il metodo di classificazione denominato mixture maximum likelihood, che permette di partizionare un modo simultaneamente sulla base degli altri due. Vichi [5] definisce la classificazione gerarchica consenso dei minimi quadrati di un insieme di classificazioni gerarchiche. Gaul e Schader [6] hanno studiato il problema di trovare relazioni centrali su un insieme di oggetti che interpolano nel miglior modo l'informazione contenuta in un numero finito di relazioni sull'insieme. Vichi [7] definisce le classificazione principali che sono classificazioni gerarchiche ottenute come combinazioni lineari di matrici ultrametriche di un insieme di classificazioni gerarchiche.Testo inglese
When a multivariate phenomenon is observed on different occasions, elements of the data set collected are identified according to three modes: units (rows), variables (columns), and occasions (layers), and then arranged into a three-way array (matrix) X. In this research occasions are considered different times when the data are collected, and units remain the same over time, defining a three-way longitudinal data set. Large data structures of this kind can be difficult to comprehend, and methods of synthesizing and extracting relevant information are necessary. It is often useful to classify elements of one mode hierarchically or non hierarchically on the basis of the other two. This approach is referred to as One-Mode Classification (OMC) of a three-way data set. Three types of OMC can be considered: (a) OMC of units according to variables and occasions, (b) OMC of variables according to units and occasions, and (c) OMC of occasions on the basis of units and variables. OMC may be seen as a consensus (synthesis) of a set of hierarchical or non hierarchical classifications D obtained by the three-way data set. For example, OMC of units of X is a synthesis of the set of classifications obtained by clustering units of X according to variables and repeating this classification separately for each distinct time period (i.e., by clustering units starting from frontal slices of X). This research will emphasize (a) the OMC of units.
A first and simple way to achieve OMC of units is to rearrange adjacent layers of the three-way matrix into a large pooled two-way matrix and to analyze it with a clustering technique. However, the relevant information on the dynamics of units over different times is thus lost. Furthermore, such an analysis cannot reveal if units remain stable in the same group over different times or even whether and how many times units change cluster membership.
Less information is lost when more than one consensus classification is used to summarize D. For this reason classification techniques for three-way data sets should be able to determine more than one consensus classification, each one summarizing one of the different classification structures present in the three-way data set.
Most classification techniques for three-way data sets detect only a single consensus classification. Carroll and Arabie [1] developed a non-hierarchical overlapping clustering method INDCLUS, that assumes a common set of clusters, whose numerical weights vary as a joint function of clusters and source of data being considered [2]. Carrol, Clark, and De Sarbo [3] proposed INDTREES, a hierarchical clustering procedure in which a unique family of trees (a classification type) for occasions is found allowing different heights between internal nodes. Basford and McLachlan [4] adopted the mixture maximum likelihood method of clustering for partitioning one mode on the basis of the other two simultaneously. Vichi [5] proposed a hierarchical classification least squares fitting a set of hierarchical classifications. Gaul and Schader [6] handled the problem of finding central relations on a set of objects which best fit the information contained in a finite number of given relations on that set. Vichi [7] defined Principal classifications that are hierarchical classification linear combination of ultrametric matrices associated to the given set of hierarchcial classifications.
Riferimenti essenziali:
[1] CARROLL, J. D., and ARABIE P. (1983), "INDCLUS: An individual differencies generalization
of the ADCLUS model and MAPCLUS algorithm," Psychometrika, 48, 157-169.
[2] ARABIE, P., CARROLL, J. D., and DESARBO, W. S. (1987), "Three-way scaling and clustering," Newbury Park,CA: Sage publications.
[3] CARROLL, J. D., CLARK, L A., and DESARBO, W.S. (1984), "The representation of three-way proximity data by single and multiple tree structure models," Journal of Classification, 1, 24-74.
[4] BASFORD, K. E., and MCLACHLAN, G., J., (1985), "The Mixture Method of Clustering Applied to Three-Way Data," Journal of Classification, 2, 109-125.
[5] VICHI, M., (1993). Least squares fitting of a hierarchical classification to a set of hierarchical classifications., Metron 51, n. 3-4, 139-163.
[6] GAUL, W., and SCHADER, M. (1988), "Clusterwise Aggregation of Relations," Applied Stochastic Models and Data Analysis, 4, 273-282.
[7] VICHI, M, (1997), "Principal classification analysis: a method for generating consensus dendrograms and its application to three-way data, " Computational Statistics and Data Analysis, 27, 311- 331.
Testo italiano
L'unità di Pescara analizzerà il problema di definire modelli di classificazioni consenso che permettono di interpolare un insieme di dati a struttura complessa, formato da insieme di partizioni, ricoprimenti (clumps), classificazioni gerarchiche o partizioni sfocate. Recentemente è stato studiato [1] un problema simile di consenso limitatamente al caso di interpolazione di partizioni. A partire da questa prima importante esperienza di studio l'unità di Pescara intende discutere un modello di classificazione fuzzy per interpolare un insieme di dati con struttura complessa come quello prima descritto.
[1] A. D. Gordon & M. Vichi (1998). Partitions of Partitions, Journal of Classification, 15, 265-285.
Fasi della Ricerca
La prima fase del progetto riguarderà una approfondita ricerca bibliografica sulle più recenti tecniche di classificazione per insieme di dati a struttura complessa come sono i dati a tre indici con vincoli discreti che definiscono alberi di classificazione o altri insieme di strutture di classificazione. In questa fase il Prof. Vichi, coordinatore dell'unità locale, visiterà il prof. Allan Gordon dell'Università di St. Andrews, che è uno dei massimi esperti mondiali di classificazione e recentemente al convegno dell'International Federation of Classification Societies ha organizzato una sessione di classificazione per dati a struttura complessa. E' anche prevista una visita alla Rutger University e in particolare ai proff. Arabie P. e Carroll, D. che sono tra i più noti esperti di analisi di dati e classificazione di dati multiway.
La seconda fase del progetto si concentra sulla definizione di algoritmi dei minimi quadrati alternati che possano essere utilizzati per determinare la migliore interpolazione dei modelli proposti. Si intendono anche studiare i metodi di programmazione quadratica sequenziale che si sono rilevati particolarmente adatti per risolvere problemi quadratici con vincoli lineari e non lineari come sono i problemi di classificazione per matrici multiway.
La terza fase della ricerca riguarda l'implementazione del software necessario. Questa rappresenta una fase costosa del progetto poiché è necessario destinare una persona esperta, seguita strettamente dal coordinatore del progetto, con capacità di programmazione in un linguaggio avanzato.
Nella quarta fase si intendono sperimentare le metodologie proposte su insiemi di dati reali e su insiemi di dati simulati, al fine di valutare l'efficienza dei metodi e procedere ad una loro validazione.Testo inglese
The research Unit of Pescara will analyze the problem of fitting consensus classifications model to complex data sets formed by sets of partitions, clumps, hierarchical classifications or fuzzy partitions. Recently a consensus problem limited to the case of fitting partitions has been successfully studied [1]. Starting from this experience the first aim of this unit is to propose, discuss, and experiment models for fitting one or more fuzzy partitions to complex data sets as we have defined above.
[1] A. D. Gordon & M. Vichi (1998). Partitions of Partitions, Journal of Classification, 15, 265-285.
Research Phases
The first Phase of the project focuses on the analysis of the recent literature on the classification for complex data sets such as three-way data with discrete constraints and then the definition of the model used for fitting a fuzzy partition to a set of partitions. The coordinator of the project will visit prof. Allan Gordon, at St. Andrews University. A. Gordon is one of the most well-known experts in classification. Recently he has organized a session to IFCS98 regarding classification of complex data sets. It is planne to visit proff. P. Arabie e D. Carroll who are experts in classification of multiway data.
The second Phase of the project concentrates on the definition of alternating least squares procedures that can be used to determine the best fitting of the proposed models. Other optimization tools may also be necessary. In particular, it will be experimented the use of variable metric methods such as sequential quadratic programming algorithms that have been found very efficient in solving quadratic problems with linear but also non linear constraints.
The third Phase regards the implementation of the software necessary. This represents an expensive phase since an expert in software development, strictly supervised by the responsible of the project, is necessary.
The fourth Phase is dedicated to the analysis of results and experimentation of the proposed methodology on a set of read data, and on several simulated data sets to evaluate efficiency of the methods and validate procedures.
Nº | Anno di acquisizione | Descrizione | |
---|---|---|---|
Testo italiano | Testo inglese |
Attrezzatura I
Descrizione
valore presunto (milioni) percentuale di utilizzo per il programma
Attrezzatura II
Descrizione
valore presunto (milioni) percentuale di utilizzo per il programma
Voce di spesa | Spesa | Descrizione | ||
---|---|---|---|---|
M£ | Euro | Testo italiano | Testo inglese | |
Materiale inventariabile | 7 | 3.615 | Acquisto di libri inerenti al progetto. Acquisto di software (Visual Basic, Optimization tool di Matlab) Acqisto di un Personal Computer. | Purchasevof books, software and a personal computer |
Grandi Attrezzature | ||||
Materiale di consumo e funzionamento | 2 | 1.033 | Acquito di dischetti, cartucce stampante, fotocopie, cancelleria, manutenzione macchine. | Purchase of paper, diskettes, etc, Photocopies. Machine maintenance |
Spese per calcolo ed elaborazione dati | 2 | 1.033 | Immissione dati reali per la fase di sperimentazione dei modelli proposti. | Inputing data for the experimentation of the proposed models |
Personale a contratto | 12 | 6.197 | per lo sviluppo di software per la classificazione di dati complessi | Development of software for classification of multiway data |
Servizi esterni | ||||
Missioni | 13 | 6.714 | per partecipare a convegni, workshops, e per visitare esperti di classificazione di dati complessi | for meetings and for visiting experts in classification of complex data. |
Altro |
M£ | Euro | |
---|---|---|
Costo complessivo del Programma dell'Unità di Ricerca | 36 | 18.592 |
Costo minimo per garantire la possibilità di verifica dei risultati | 35 | 18.076 |
Fondi disponibili (RD) | 11 | 5.681 |
Fondi acquisibili (RA) | 0 | |
Cofinanziamento richiesto al MURST | 25 | 12.911 |
QUADRO RD
Provenienza | Anno | Importo disponibile | nome Resp. Naz. | Note | |
---|---|---|---|---|---|
M£ | Euro | ||||
Università | 1998 | 6 | 3.099 | ||
Dipartimento | |||||
MURST (ex 40%) | |||||
CNR | 1998 | 5 | 2.582 | ||
Unione Europea | |||||
Altro | |||||
TOTAL | 11 | 5.681 |
4.1.1 Altro
QUADRO RA
Provenienza | Anno della domanda o stipula del contratto | Stato di approvazione | Quota disponibile per il programma | Note | |
---|---|---|---|---|---|
M£ | Euro | ||||
Università | |||||
Dipartimento | |||||
CNR | |||||
Unione Europea | |||||
Altro | |||||
TOTAL | 0 |
4.2.1 Altro
Firma ____________________________________________ |
---|
Firma ____________________________________________ | 25/03/1999 19:36:20 |
---|