MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 811 del 3 dicembre 1998)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 1999 - prot. 9913182289_004


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Scienze economiche e statistiche

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

MODELLI STATISTICI DI CLASSIFICAZIONE E DI SEGMENTAZIONE PER L'ANALISI DI DATI STRUTTURATI IN FORMA COMPLESSA: METODOLOGIE, SOFTWARE E APPLICAZIONI

Testo inglese

STATISTICAL MODELS FOR CLASSIFICATION AND SEGMENTATION OF COMPLEX DATA STRUCTURES: METHODOLOGIES, SOFTWARE AND APPLICATIONS

1.4 Coordinatore Scientifico del Programma di Ricerca

SICILIANO ROBERTA  
(cognome) (nome)  
Università degli Studi di NAPOLI "Federico II" Facoltà di ECONOMIA
(università) (facoltà)
S01A Dipartimento di MATEMATICO-STATISTICO
(settore scient.discipl.) (Dipartimento/Istituto)


r.sic@dmsna.dms.unina.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

VICHI MAURIZIO  
(cognome) (nome)  


Professore associato 13/09/1959 VCHMRZ59P13H501X
(qualifica) (data di nascita) (codice di identificazione personale)

Università degli Studi G.D'Annunzio di CHIETI Facoltà di ECONOMIA
(università) (facoltà)
S01A Dipartimento di METODI QUANTITATIVI E TEORIA ECONOMICA
(settore scient.discipl.) (Dipartimento/Istituto)


085/4537531 085/4537542 vichi@dmqte.unich.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

S01A


1.7 Parole chiave

Testo italiano
CLASSIFICAZIONE ; CLASSIFICAZIONE CONSENSO ; PARTIZIONI FUZZY ; MINIMI QUADRATI ALTERNATI

Testo inglese
CLASSIFICATION ; CONSENSUS CLASSIFICATION ; ALTERNATING LEAST-SQUARES ; MULTIWAY-DATA


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Maurizio Vichi è ProfessoreAassociato di statistica all'Università "G.D'Annunzio" di Chieti, dal 1992.
Nel 1985 è stato research fellow all'Università di St Andrews (Scozia) e nel 1986 presso la Rutgers University, NJ., (USA). ù
E' stato ricercatore presso il Dipartimento di Statistica Probabilità e Statistiche Applicate dell'Universitò di Roma "La Sapienza".
Dal 1998 è Segretario generale della Società Italiana di Statistica.
E' autore di numerose pubblicazioni in ambito di classificazione e consenso di classificazioni, su riviste internazionali. E' stato editore di due volumi della Springer-Verlag, di Heidelberg, nella serie: Classification, Data Analysis and Knowledge Organization.

Testo inglese

Maurizio Vichi is Associate professor of Statistics at the University "G.D'Annunzio" of Chieti, since 1992.
He has been researcher at the University of Rome "La Sapienza" (1990-1992). In 1985 was research fellow at St. Andrews University (Scotland), and in 1996 at Rutgers University, NJ, (USA).
He is the Sevretary-General of the Italian Statistical Society.
He is author of several papers on classification and consensus classification, published on international journals.
He was editor of two volumes in the series:
Classification, Data Analysis and Knowledge Organization,Springer-Verlag, Heidelberg.

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. GORDON A.D., VICHI M., "Partitions of Partitions" , Rivista: Journal of Classification , Volume: 15 , pp.: 255-276 , (1998) .
  2. VICHI M., "Principal Classification Analysis: a method for generating consensus dendrograms and its application to three-way data" , Rivista: Caomputational Statistics and Data Analysis , Volume: 27 , pp.: 311-331 , (1997) .
  3. VICHI M., "One Mode Classification of a Three-Way Data Set" , Rivista: Journal of Classification , (1999) to appear in the next issue .
  4. VICHI M., "Fitting L2 norm classification models to complex data sets" , Rivista: Student , Volume: 2 , pp.: 203-213 , (1997) .
  5. SIMEONE B., VICHI M., "Consensus of Hierarchical Classifications" , Rivista: Proceedings of the International Federation of Classification Societies , pp.: 170-181 , (1996) in the series Classification, Data Analysis and Knowledge Oranization, Springer, Heidelberg .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  VICHI  MAURIZIO  METODI QUANTITATIVI E TEORIA ECONOMICA  Prof. associato  S01A  4  4
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
 

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. DI MARZIO  MARCO  METODI QUANTITATIVI E TEORIA ECONOMICA  1997 
2. FRANCESCHINI  CINZIA  METODI QUANTITATIVI E TEORIA ECONOMICA  2000 
3. IEZZI  STELLA  METODI QUANTITATIVI E TEORIA ECONOMICA  1998 
4. SALVATORE  MIRELLA  METODI QUANTITATIVI E TEORIA ECONOMICA  2001 

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo
1. PROGRAMMATORE VISUAL BASIC 
2. PROGRAMMATORE MATLAB/METALING. 

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. TURRINI  AIDA  Istituto Nazionale della Nutrizione  ricercatore 


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

Modelli di classificazione e consenso per l'analisi di dati strutturati in forma complessa

Testo inglese

Classification and consensus models for the analysis of data sets with complex structure.

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

Quando si osservano fenomeni multivariati in differenti occasioni, gli elementi dell'insieme di dati rilevato sono identificati da tre modi (vie): unità (righe), variabili (colonne), e occasioni (livelli), e sono organizzati in un array a tre indici X (multiway). In questa ricerca le occasioni sono relative a diversi tempi di rilevazione dei dati e le unità rimangono le stesse al variare del tempo, in modo da definire un insieme longitudinale di dati o panel. Strutture complesse di dati come queste spesso sono di grandi dimensioni e sono difficili da comprendere. Per questo sono necessari appositi metodi statistici che permettano di estrarre e sintetizzare l'informazione rilevante contenuta in insiemi di dati strutturati in questo modo. Di frequente è utile classificare gli elementi di un modo, gerarchicamente o non gerarchicamente sulla base degli altri due. Questo approccio, per dati mutiway, è denominato di classificazione ad un modo (OMC) dell'insieme X. Tre tipi di OMC possono essere considerati: (a) OMC delle unità secondo le variabili e le occasioni, (b) OMC della variabili secondo le unità e le occasioni, e (c) OMC delle occasioni sulla base delle unità e variabili. OMC può essere visto come una sintesi o consenso dell'insieme D di classificazioni gerarchiche o non gerarchiche ottenute da X. Per esempio, OMC delle unità di X è un una sintesi dell'insieme di classificazioni ottenute classificando le unità di X sulla base delle variabili e ripetendo questa classificazione separatamente per ciascun periodo distinto di tempo.
Una primo semplice procedura per ottenere l'OMC delle unità si realizza riorganizzando i dati di X in una matrice a due indici (affiancando le matrici dei dati componenti X) e applicando a questa matrice una tecnica di classificazione. Con questa procedura, però, l'informazione rilevante sulla dinamica delle unità rispetto al tempo è definitivamente persa, così come non è più possibile sapere se ciascuna unità rimane stabile nello stesso gruppo o cambia appartenenza.
Si perde meno informazione quando si usano più sintesi per riassumere i dati in D . Per questa ragione le tecniche di classificazione per X dovrebbero poter determinare più di una classificazione consenso, ciascuna delle quali deve riassumere una differente struttura di classificazione presente nell'array X.
La maggior parte delle tecniche di classificazione per un array X identificano una sola classificazione consenso. Carrol e Arabie [1] hanno sviluppato INDCLUS, una tecnica non gerarchica che individua classi parzialmente sovrapposte e che assume esista un insieme comune di classi i cui pesi variano congiuntamente ai cluster e ai dati considerati [2]. Carrol, Clark e De Sarbo [3] hanno proposto IDTRESS, una tecnica gerarchica, che identifica una unica famiglia di alberi per le occasioni permettendo diversi pesi tra i nodi interni. Basford e McLachlan [4] hanno adottato il metodo di classificazione denominato mixture maximum likelihood, che permette di partizionare un modo simultaneamente sulla base degli altri due. Vichi [5] definisce la classificazione gerarchica consenso dei minimi quadrati di un insieme di classificazioni gerarchiche. Gaul e Schader [6] hanno studiato il problema di trovare relazioni centrali su un insieme di oggetti che interpolano nel miglior modo l'informazione contenuta in un numero finito di relazioni sull'insieme. Vichi [7] definisce le classificazione principali che sono classificazioni gerarchiche ottenute come combinazioni lineari di matrici ultrametriche di un insieme di classificazioni gerarchiche.

Testo inglese

When a multivariate phenomenon is observed on different occasions, elements of the data set collected are identified according to three modes: units (rows), variables (columns), and occasions (layers), and then arranged into a three-way array (matrix) X. In this research occasions are considered different times when the data are collected, and units remain the same over time, defining a three-way longitudinal data set. Large data structures of this kind can be difficult to comprehend, and methods of synthesizing and extracting relevant information are necessary. It is often useful to classify elements of one mode hierarchically or non hierarchically on the basis of the other two. This approach is referred to as One-Mode Classification (OMC) of a three-way data set. Three types of OMC can be considered: (a) OMC of units according to variables and occasions, (b) OMC of variables according to units and occasions, and (c) OMC of occasions on the basis of units and variables. OMC may be seen as a consensus (synthesis) of a set of hierarchical or non hierarchical classifications D obtained by the three-way data set. For example, OMC of units of X is a synthesis of the set of classifications obtained by clustering units of X according to variables and repeating this classification separately for each distinct time period (i.e., by clustering units starting from frontal slices of X). This research will emphasize (a) the OMC of units.
A first and simple way to achieve OMC of units is to rearrange adjacent layers of the three-way matrix into a large pooled two-way matrix and to analyze it with a clustering technique. However, the relevant information on the dynamics of units over different times is thus lost. Furthermore, such an analysis cannot reveal if units remain stable in the same group over different times or even whether and how many times units change cluster membership.
Less information is lost when more than one consensus classification is used to summarize D. For this reason classification techniques for three-way data sets should be able to determine more than one consensus classification, each one summarizing one of the different classification structures present in the three-way data set.
Most classification techniques for three-way data sets detect only a single consensus classification. Carroll and Arabie [1] developed a non-hierarchical overlapping clustering method INDCLUS, that assumes a common set of clusters, whose numerical weights vary as a joint function of clusters and source of data being considered [2]. Carrol, Clark, and De Sarbo [3] proposed INDTREES, a hierarchical clustering procedure in which a unique family of trees (a classification type) for occasions is found allowing different heights between internal nodes. Basford and McLachlan [4] adopted the mixture maximum likelihood method of clustering for partitioning one mode on the basis of the other two simultaneously. Vichi [5] proposed a hierarchical classification least squares fitting a set of hierarchical classifications. Gaul and Schader [6] handled the problem of finding central relations on a set of objects which best fit the information contained in a finite number of given relations on that set. Vichi [7] defined Principal classifications that are hierarchical classification linear combination of ultrametric matrices associated to the given set of hierarchcial classifications.

2.2.a Riferimenti bibliografici

Riferimenti essenziali:
[1] CARROLL, J. D., and ARABIE P. (1983), "INDCLUS: An individual differencies generalization
of the ADCLUS model and MAPCLUS algorithm," Psychometrika, 48, 157-169.
[2] ARABIE, P., CARROLL, J. D., and DESARBO, W. S. (1987), "Three-way scaling and clustering," Newbury Park,CA: Sage publications.
[3] CARROLL, J. D., CLARK, L A., and DESARBO, W.S. (1984), "The representation of three-way proximity data by single and multiple tree structure models," Journal of Classification, 1, 24-74.
[4] BASFORD, K. E., and MCLACHLAN, G., J., (1985), "The Mixture Method of Clustering Applied to Three-Way Data," Journal of Classification, 2, 109-125.
[5] VICHI, M., (1993). Least squares fitting of a hierarchical classification to a set of hierarchical classifications., Metron 51, n. 3-4, 139-163.
[6] GAUL, W., and SCHADER, M. (1988), "Clusterwise Aggregation of Relations," Applied Stochastic Models and Data Analysis, 4, 273-282.
[7] VICHI, M, (1997), "Principal classification analysis: a method for generating consensus dendrograms and its application to three-way data, " Computational Statistics and Data Analysis, 27, 311- 331.

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

L'unità di Pescara analizzerà il problema di definire modelli di classificazioni consenso che permettono di interpolare un insieme di dati a struttura complessa, formato da insieme di partizioni, ricoprimenti (clumps), classificazioni gerarchiche o partizioni sfocate. Recentemente è stato studiato [1] un problema simile di consenso limitatamente al caso di interpolazione di partizioni. A partire da questa prima importante esperienza di studio l'unità di Pescara intende discutere un modello di classificazione fuzzy per interpolare un insieme di dati con struttura complessa come quello prima descritto.
[1] A. D. Gordon & M. Vichi (1998). Partitions of Partitions, Journal of Classification, 15, 265-285.
Fasi della Ricerca
La prima fase del progetto riguarderà una approfondita ricerca bibliografica sulle più recenti tecniche di classificazione per insieme di dati a struttura complessa come sono i dati a tre indici con vincoli discreti che definiscono alberi di classificazione o altri insieme di strutture di classificazione. In questa fase il Prof. Vichi, coordinatore dell'unità locale, visiterà il prof. Allan Gordon dell'Università di St. Andrews, che è uno dei massimi esperti mondiali di classificazione e recentemente al convegno dell'International Federation of Classification Societies ha organizzato una sessione di classificazione per dati a struttura complessa. E' anche prevista una visita alla Rutger University e in particolare ai proff. Arabie P. e Carroll, D. che sono tra i più noti esperti di analisi di dati e classificazione di dati multiway.
La seconda fase del progetto si concentra sulla definizione di algoritmi dei minimi quadrati alternati che possano essere utilizzati per determinare la migliore interpolazione dei modelli proposti. Si intendono anche studiare i metodi di programmazione quadratica sequenziale che si sono rilevati particolarmente adatti per risolvere problemi quadratici con vincoli lineari e non lineari come sono i problemi di classificazione per matrici multiway.
La terza fase della ricerca riguarda l'implementazione del software necessario. Questa rappresenta una fase costosa del progetto poiché è necessario destinare una persona esperta, seguita strettamente dal coordinatore del progetto, con capacità di programmazione in un linguaggio avanzato.
Nella quarta fase si intendono sperimentare le metodologie proposte su insiemi di dati reali e su insiemi di dati simulati, al fine di valutare l'efficienza dei metodi e procedere ad una loro validazione.

Testo inglese

The research Unit of Pescara will analyze the problem of fitting consensus classifications model to complex data sets formed by sets of partitions, clumps, hierarchical classifications or fuzzy partitions. Recently a consensus problem limited to the case of fitting partitions has been successfully studied [1]. Starting from this experience the first aim of this unit is to propose, discuss, and experiment models for fitting one or more fuzzy partitions to complex data sets as we have defined above.
[1] A. D. Gordon & M. Vichi (1998). Partitions of Partitions, Journal of Classification, 15, 265-285.
Research Phases
The first Phase of the project focuses on the analysis of the recent literature on the classification for complex data sets such as three-way data with discrete constraints and then the definition of the model used for fitting a fuzzy partition to a set of partitions. The coordinator of the project will visit prof. Allan Gordon, at St. Andrews University. A. Gordon is one of the most well-known experts in classification. Recently he has organized a session to IFCS98 regarding classification of complex data sets. It is planne to visit proff. P. Arabie e D. Carroll who are experts in classification of multiway data.
The second Phase of the project concentrates on the definition of alternating least squares procedures that can be used to determine the best fitting of the proposed models. Other optimization tools may also be necessary. In particular, it will be experimented the use of variable metric methods such as sequential quadratic programming algorithms that have been found very efficient in solving quadratic problems with linear but also non linear constraints.
The third Phase regards the implementation of the software necessary. This represents an expensive phase since an expert in software development, strictly supervised by the responsible of the project, is necessary.
The fourth Phase is dedicated to the analysis of results and experimentation of the proposed methodology on a set of read data, and on several simulated data sets to evaluate efficiency of the methods and validate procedures.

2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 3.615  Acquisto di libri inerenti al progetto. Acquisto di software (Visual Basic, Optimization tool di Matlab) Acqisto di un Personal Computer.  Purchasevof books, software and a personal computer 
Grandi Attrezzature        
Materiale di consumo e funzionamento 1.033  Acquito di dischetti, cartucce stampante, fotocopie, cancelleria, manutenzione macchine.  Purchase of paper, diskettes, etc, Photocopies. Machine maintenance 
Spese per calcolo ed elaborazione dati 1.033  Immissione dati reali per la fase di sperimentazione dei modelli proposti.  Inputing data for the experimentation of the proposed models 
Personale a contratto 12  6.197  per lo sviluppo di software per la classificazione di dati complessi  Development of software for classification of multiway data 
Servizi esterni        
Missioni 13  6.714  per partecipare a convegni, workshops, e per visitare esperti di classificazione di dati complessi  for meetings and for visiting experts in classification of complex data. 
Altro        


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 36  18.592 
 
Costo minimo per garantire la possibilità di verifica dei risultati 35  18.076 
 
Fondi disponibili (RD) 11  5.681 
 
Fondi acquisibili (RA) 0   
 
Cofinanziamento richiesto al MURST 25  12.911 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università 1998   3.099     
Dipartimento          
MURST (ex 40%)          
CNR 1998   2.582     
Unione Europea          
Altro          
TOTAL   11  5.681     

4.1.1 Altro


4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università          
Dipartimento          
CNR          
Unione Europea          
Altro          
TOTAL        

4.2.1 Altro


4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 25/03/1999 19:36:20