MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO
(DM n. 811 del 3 dicembre 1998)
PROGRAMMA DI RICERCA - MODELLO A
Anno 1999 - prot. 9913182289


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Scienze economiche e statistiche


1.2 Titolo del Programma di Ricerca
Testo italianoMODELLI STATISTICI DI CLASSIFICAZIONE E DI SEGMENTAZIONE PER L'ANALISI DI DATI STRUTTURATI IN FORMA COMPLESSA: METODOLOGIE, SOFTWARE E APPLICAZIONITesto ingleseSTATISTICAL MODELS FOR CLASSIFICATION AND SEGMENTATION OF COMPLEX DATA STRUCTURES: METHODOLOGIES, SOFTWARE AND APPLICATIONS

1.3 Abstract del Programma di Ricerca
Testo italianoA partire dalla metà degli anni 80 i metodi di segmentazione e di classificazione hanno ricevuto un crescente interesse dal punto di vista metodologico essendosi rivelati utile strumento nella soluzione di molti problemi di classificazione e predizione in campi che spaziano da quello socio-economico (i.e., credit scoring, marketing, qualità, etc.) a quello bio-sanitario (i.e., biometria, oncologia, immunologia, genetica, etc.).
Il progetto si sviluppa lungo due direttrici di ricerca che riflettono la duplice valenza dei metodi di classificazione e segmentazione, esplorativa e decisionale. Per la prima saranno definiti nuovi metodi per l'analisi e la strutturazione di dati complessi, ovvero dati multivariati, dati derivanti da matrici a tre vie indicizzate dalla variabile spaziale o temporale (dati multivariati temporali/longitudinali), oggetti simbolici definiti a partire da grandi basi di dati. I metodi che si proporranno saranno basati sulla fusione di tecniche di consenso ed algoritmi di partizione ricorsiva per la costruzione di alberi di classificazione o di regressione e su modelli di discriminazione parametrica e non parametrica. Per quanto attiene l'obiettivo induttivo-inferenziale saranno definiti nuovi metodi per la definizione di regole di classificazione e predizione per nuovi casi al fine di ovviare a due tipici inconvenienti dei metodi non parametrici, quando impiegati a scopi decisionali, riassumibili in overfitting e instabilità. Questi problemi saranno affrontati considerando i contributi della letteratura più recente, basati sia su rimedi empirici attraverso l'impiego di tecniche di ricampionamento che sull'approccio bayesiano, e proponendo al contempo soluzioni metodologiche di tipo induttivo-inferenziale nell'ottica di ottenere "modelli di classificazione e di segmentazione" che siano stabili ma soprattutto significativi sotto il profilo del fenomeno della dipendenza.Testo ingleseStarting from the second half of the '80s, a growing attention has been paid to segmentation and classification methods and, in particular, to their methodological aspects, since these lasts are particularly useful to solve classification and prediction problems in social and economical science (i.e. credit scoring, marketing, quality control, etc.) as well as in medical science (i.e. biometry, genetics, etc.)
The project follows two research paths reflecting the double meaning of the classification and segmentation methods: the explorative and the decisional one. As far as the first one is concerned with new methods to analyse and build a structure for complex data, that are multivariate data, three-ways indexed matrices data, where the index is a time or space variable (multivariate time series/ longitudinal data), symbolic objects defined starting from large data sets. The proposed methods merge consensus techniques, recursive partitioning algorithm used to build classification or regression trees and, finally, parametric and non parametric discrimination models.
As far as the inductive-inferential purpose, new methods are introduced for the definition of classification and prediction rules, in order to compensate the limitations of non parametric methods, when these lasts are applied for decisional purposes, as is the case of overfitting and instability. These issues will be faced taking into account the most recent papers published on journals, that consist in using empirical methods such as resampling as well as inferencial methods, also of bayesian approach. This allows for developing a new methodological framework for the inductive-inferential goal of "classification and segmentation models" satisfying statistical properties related to the stability of the rules and their significance in terms of dependence and predictability power.

1.4 Durata del Programma di Ricerca: 24 mesi

1.5 Settori scientifico-disciplinari interessati dal Programma di Ricerca
S01A K05A

1.6 Parole chiave
Testo italiano
CLASSIFICAZIONE AD ALBERO ; REGRESSIONE AD ALBERO ; ALGORITMI DI PARTIZIONE ; REGRESSIONE NON PARAMETRICA ; PRUNING ; DATI LONGITUDINALI ; TECNICHE DI CONSENSO ; RETI NEURONALI ; OGGETTI SIMBOLICI

Testo inglese
CLASSIFICATION TREES ; REGRESSION TREES ; PARTITIONING ALGORITHMS ; NON-PARAMETRIC REGRESSION ; PRUNING ; LONGITUDINAL DATA ; CONSENSUS TECHNIQUES ; NEURAL NETWORKS ; SYMBOLIC OBJECTS


1.7 Coordinatore Scientifico del Programma di Ricerca
SICILIANO ROBERTA  
(cognome) (nome)  

 
Professore associato 12/05/1964 SCLRRT64E52F839S
(qualifica) (data di nascita) (codice di identificazione personale)
Università degli Studi di NAPOLI "Federico II" Facoltà di ECONOMIA
(università) (facoltà)
S01A Dipartimento di MATEMATICO-STATISTICO
(settore scient.discipl.) (Dipartimento/Istituto)

 
081/675120 081/675113 r.sic@dmsna.dms.unina.it
(prefisso e telefono) (numero fax) (E-mail)


1.8 Curriculum scientifico
Testo italianoDal 1992 Roberta Siciliano è professore associato di Statistica presso l’Università degli Studi di
Napoli Federico II e membro del Collegio dei Docenti del Dottorato di Ricerca in Statistica
Computazionale e Applicazioni. Nel periodo 1994-1998 ha fatto parte del Consiglio Direttivo della
Sezione Europea dell’International Association for Statistical Computing (IASC-ERS BoD) e dal
1998 è membro del Consiglio Direttivo Generale della stessa associazione (IASC Council). Dal 1997
è membro della Commissione Didattica di Ateneo. E’ membro ordinario della Società Italiana di
Statistica (SIS) e dell’International Statistical Institute (ISI). La sua attività scientifica di ricerca ha
riguardato prevalentemente l’analisi multivariata e la statistica computazionale con particolare
riferimento ai modelli per dati categorizzati e ai metodi di classificazione e di regressione ad albero.
E’ stata relatrice invitata alla Second World Conference of IASC (Pasadena, febbraio 1997) e al
COMPSTAT 98 (Bristol, 1998). E’ membro del Comitato Scientifico dell’Intelligent Data Analysis
(IDA-99, Amsterdam, agosto 1999) e del COMPSTAT 2000 (Utrecht, agosto 2000). E’ autrice di
oltre 40 lavori revisionati e pubblicati su riviste italiane e internazionali, o su volumi monografici. Ha
svolto attività di revisione dei lavori per le riviste Computational Statistics and Data Analysis,
Statistics and Computing, Metron, Journal of the Italian Statistical Society, Statistica Applicata.Testo ingleseSince 1992 Roberta Siciliano is associate professor of Statistics at the University of Naples Federico
II and member of the Board of Professors of the PhD Course of Computational Statistics and
Applications. In the period 1994-98 she has been member of the Board of Directors of the European
Regional Section of the International Association for Statistical Computing (ERS-IASC Bod
Council) and on 1998 she has been elected as member of the IASC Council. Since 1997 she is
member of the Academic Teaching Commission of the University of Naples. She is ordinary member
of the Società Italiana di Statistica (SIS) and of the International Statistical Institute (ISI). Her
scientific research has been developed in the field of Multivariate Analysis and Computational
Statistics with particular reference on Modeling Categorical and Categorized Data and Classification
and Regression Trees. She has been invited lecturer at the Second World Conference of IASC
(Pasadena, february, 1997) and at the COMPSTAT 98 Conference (Bristol, august, 1998). She is
author of more than 40 revised papers published on italian and international reviews as well as on
monographical books. She has acted as referee of Computational Statistics and Data Analysis,
Statistics and Computing, Journal of the Italian Statistical Society, Statistica Applicata.

1.9 Pubblicazioni scientifiche più significative del Coordinatore del Programma di Ricerca
  1. SICILIANO R., MOOJAART A., "Three-Factor Association Models for Contingency Tables Analysis" , Rivista: Computational Statistics & Data Analysis , Volume: 24(3) , pp.: 337-356 , ISBN/ISSN: 0167-9473 , (1997) .
  2. MOLA F., SICILIANO R., "A Fast Splitting Procedure for Classification TreesEES" , Rivista: Statistics & Computing , Volume: 7 , pp.: 209-216 , ISBN/ISSN: 0960-3173 , (1997) .
  3. SICILIANO R., MOLA F., "Ternary Classification Trees: a Factorial Approach" , Rivista: Visualization of Categorical Data , pp.: 311-324 , ISBN/ISSN: 0-12-299045-5 , (1998) Greenacre & Blasius eds, Academic Press .
  4. SICILIANO R., VAN DER HEIJDEN P.G.M., "Simultaneous Latent Budget Analysis of a Set of Multidimansional Contingency Tables" , Rivista: Metron , pp.: 155-180 , ISBN/ISSN: 0026-1424 , (1994) .
  5. SICILIANO R., "Exploratory Versus Decision Trees" , Rivista: Proceedings in Computational Statistics: Invited Lecture , pp.: 113-124 , ISBN/ISSN: 3-7908-0953-5 , (1998) R. Payne & P. Green eds, Heidelberg: Physica Verlag .

1.10 Elenco delle Unita' di Ricerca
Responsabile scientifico Qualifica Settore
disc.
Università Dipart./Istituto Mesi
uomo
1. SICILIANO ROBERTA Prof. associato S01A NAPOLI MATEMATICO-STATISTICO 66
2. MALERBA DONATO Prof. associato K05A BARI INFORMATICA 64
3. VERDE ROSANNA Prof. associato S01A Seconda Univ. NAPOLI Ricerche aziendali e metodologie quantitative 19
4. VICHI MAURIZIO Prof. associato S01A CHIETI METODI QUANTITATIVI E TEORIA ECONOMICA 33
5. MOLA FRANCESCO Prof. associato S01A CAGLIARI ECONOMIA 58


1.11 Mesi uomo complessivi dedicati al programma
  mesi uomo
Personale universitario dell'Università sede dell'Unità di Ricerca (docenti) 109
Personale universitario dell'Università sede dell'Unità di Ricerca (altri) 4
Personale universitario di altre Università (docenti) 4
Personale universitario di altre Università (altri) 0
Titolari di assegni di ricerca 6
Titolari di borse dottorato e post-dottorato 68
Personale a contratto 12
Personale extrauniversitario 37
Totale 240


Parte: II
2.1 Obiettivo del Programma di Ricerca
Testo italianoLa definizione di regole o modelli di classificazione e di segmentazione costituisce la base per la formulazione di teorie scientifiche, di ipotesi, di modelli interpretativi della realtà. Numerosi sono stati i contributi offerti dalla comunità scientifica statistica attraverso svariati strumenti di analisi riconducili a due categorie che corrispondono alla distinzione tra classificazione non supervisionata (o analisi dei gruppi) e classificazione supervisionata o più in generale segmentazione (ovvero identificazione di gruppi internamente omogenei rispetto ad una variabile criterio). Molti sforzi sono stati dedicati alla definizione di modelli di classificazione e di segmentazione privi delle classiche assunzioni restrittive dei modelli lineari. I metodi di segmentazione ad albero costituiscono un esempio di impiego dell'approccio non parametrico volto alla definizione di modelli intrinsicamente più flessibili, capaci di gestire interazioni non lineari tra le variabili, i cui risultati sono di facile interpretazione. Questi metodi hanno una duplice valenza applicativa, esplorativa e decisionale. Ed è proprio nell'impiego a scopi induttivo-inferenziali che si evincono i limiti applicativi della segmentazione ad albero, in riferimento a problemi di instabilità delle regole e di scelta del modello. Analoghi problemi si presentano nell'impiego di altri approcci non parametrici o semi-parametrici come le reti neuronali, i metodi di regressione non parametrica, e tra questi i modelli additivi generalizzati. L'attenzione oggi è volta a valutare la possibilità di "parametrizzare il non parametrico" e vice-versa, nell'ottica di generalizzare modelli parametrici che tradizionalmente hanno costituito la base metodologica di riferimento ma che operativamente hanno mostrato troppi limiti e ipotesi restrittive, spesso legate alla cardinalità del problema e alla struttura dei dati a disposizione.
Il presente progetto si colloca in tale contesto dove la ricerca è in gran fermento come testimoniano i numerosi contributi recenti della letteratura in tema di classificazione e di segmentazione. Sulla scorta dell'esperienza maturata in tema di segmentazione binaria, di reti neuronali, di classificazioni consenso, di classificazioni di oggetti simbolici, nonché delle competenze specifiche in tema di statistica computazionale e procedure inferenziali, le Unità Operative di Napoli, Bari, Chieti, Cagliari e Napoli 2 intendono progettare una base metodologica generale per la risoluzione di problemi di classificazione e di segmentazione in presenza di strutture non standard di dati, ovvero dati multivariati con variabile di risposta multi-criterio, dati longitudinali, oggetti simbolici. Ciò comporterà, in primo luogo, la definizione di una mappa che associ a tipologie di problemi tipologie di metodi, e, in secondo luogo, la strutturazione di un software specialistico ideale per la segmentazione che contempli non solo le più recenti proposte metodologiche ma che sia costituito da un insieme di tool per la sperimentazione di proprie procedure. Gli aspetti metodologici e computazionali che saranno approfonditi nel progetto riguardano sostanzialmente le procedure di semplificazione delle strutture ad albero come delle architetture neuronali, i criteri di scelta delle regole di classificazione/predizione, i criteri di partizione degli individui in presenza di dati strutturati in forma complessa, la definizione di nuove strategie di analisi basate sulla fusione di metodi parametrici e non parametrici, ed infine la gestione dell'informazione proveniente da grandi basi di dati per l'applicazione dei metodi di classificazione.Testo ingleseThe construction of rules or models for classification and segmentation represents the starting point for the definition of scientific theory, hypotheses and models able to describe the real life. The statistical scientific community has been facing such problems providing a lot of analysis tools, which can be distinguished into two main categories corresponding to the distinction between non-supervised classification (or cluster analysis) and supervised classification (or segmentation on the basis of a criterion variable). Many research efforts have been dedicated towards devising classification and regression models free from some of the restrictive classical assumption. Tree-based methods are an example of a non-parametric approach yielding to provide inherently more flexible models, able to handle non linear interactions among variables, with an easy interpretation of the results. These methods have a double scope, an exploratory one and a decision one. With respect to the latter one, the inductive-inferencial goal of tree-based methods still find some limits due to the instability of the rules and the problem of the choice of the final model. Analogous drawbacks can be found in other non parametric approaches such as neural networks, non parametric regression such as generalized additive models. Actually, the attention is focused on the possibility to "parametrise the non parametric" and vice-versa, in the view to generalise standard parametric as well as non parametric models which applications find some limits due to the restrictive hypotheses or the presence of huge data sets or the structure of the data sets.
The present research belongs to this framework where the research is developing rapidly as shown by a great number of contributions recently published on journals. Being mature because of the experience in the fields of binary segmentation, neural networks, consensus classifications, classifications of symbolic objects, the Units of Napoli, Bari, Chieti, Cagliari, Napoli 2 aim to plan a general scientific methodological basis for the solution of problems of classification and segmentation in presence of non standard data structures, such as multivariate data with multi-criterion variable, longitudinal data, symbolic objects. This implies, first, the definition of a mapping between types of applications and methods, and, second, the project of a specialised ideal software for the segmentation problems which includes the most recent contributions but also some statistical tools to be used for constructing own procedures. The methodological and computational aspects that will be deeply studied mainly concern simplification procedures for tree-based models as also for neural networks, criteria for choosing the classification/prediction rule for new objects, partitioning criteria in presence of complex data structured sets, strategies of analysis based on the complementary use of parametric and non parametric methods, and finally the management of the information system extracted by huge data sets for classification purposes.

2.2 Base di partenza scientifica nazionale o internazionale
Testo italianoI problemi di segmentazione e di classificazione si sono presentati nella scienza fin dalle origini. Sia nelle scienze naturali che in quelle sociali, infatti, la costruzione di regole o modelli di discriminazione costituisce la base per la formulazione di teorie scientifiche, di ipotesi, di modelli interpretativi della realtà.
La comunità scientifica statistica ha affrontato detti problemi fornendo svariati strumenti di analisi riconducibili essenzialmente a due categorie che corrispondono alla distinzione tra classificazione non supervisionata e classificazione supervisionata [20].
La prima riguarda le tecniche di classificazione automatica o analisi dei gruppi, ossia i processi di definizione di gruppi omogenei a partire da una data collezione di oggetti o individui. L'obiettivo è quello di individuare, sulla base di un insieme di variabili, una struttura a gruppi e quindi di verificare se dei gruppi vi siano e quali oggetti vi appartengano.
Al contrario, nella classificazione supervisionata i gruppi sono noti a priori e lo scopo è quello di formulare delle regole che consentano di assegnare nuovi oggetti al gruppo più appropriato. In tale contesto rientrano i metodi di segmentazione, il cui obiettivo è la costruzione di modelli o regole di discriminazione delle unità statistiche o individui in gruppi internamente omogenei ed esternamente eterogenei rispetto ad una variabile criterio che può essere non solo qualitativa (problemi di classificazione) ma anche numerica (problemi di regressione). Molti sforzi sono stati dedicati alla definizione di modelli di classificazione e di regressione privi delle classiche assunzioni restrittive dei modelli lineari. I modelli strutturati ad albero sono intrinsicamente più flessibili, possono facilmente gestire complicate interazioni tra fattori anche numerosi, e fornire risultati di facile interpretazione.
I metodi di segmentazione hanno una duplice valenza, sia esplorativa che decisionale, a secondo dell'impiego dell'albero a scopi descrittivi - in indagini sociologiche per interpretare modelli comportamentali, nel marketing per definire tipologie o segmenti di clientela/utenza di un prodotto/servizio, in micro-economia per definire modelli di utilità o di preferenza multi-attributo, in biometria per definire le priorità dei fattori che influenzano la variabile criterio - oppure a scopi decisionali, quali strumento induttivo di previsione o di classificazione di nuovi individui che impiega "algoritmi supervisionati", cioè basati sullo "apprendimento" del fenomeno attraverso la conoscenza a-priori delle osservazioni di una variabile criterio distinta dalle altre variabili esplicative.
Il punto di riferimento per la ricerca in tema di segmentazione ad albero è costituito dalla metodologia CART (Classification and Regression Trees) introdotta nel 1984 da Breiman et al. [4], che ha stimolato una notevole produzione scientifica relativamente agli aspetti metodologici e computazionali [3, 17, 23, 24, 27, 30, 34, 38]. Varie strategie sono state proposte per la costruzione di modelli strutturati ad albero. Ogni metodo si caratterizza per le scelte fatte per la risoluzione di tre problemi fondamentali:
1. Definizione del criterio per partizionare gli individui in ogni nodo;
2. Definizione del criterio di arresto o di semplificazione degli alberi;
3. Scelta dell'albero di taglia ottimale per classificare/prevedere nuovi individui.
Per quanto concerne il primo problema la struttura ad albero si ottiene definendo la procedura di partizione ricorsiva degli individui in gruppi sempre più puri, ovvero omogenei internamente ed eterogenei esternamente (strategia top-down) [37]. Al tradizionale uso di indici statistici che riflettono il legame di dipendenza della variabile criterio dalle variabili esplicative nella costruzione degli alberi [28], si è affiancato l'uso di metodi fattoriali [39], come l'analisi non simmetrica delle corrispondenze [40], e l'applicazione di modelli statistici come ad esempio il modello a bilanci latenti [38] e la regressione logistica [29].
Il secondo problema è ritenuto cruciale per la costruzione di alberi di classificazione o regressione accurati, e può essere risolto decidendo prospetticamente quando terminare la costruzione dell'albero (definendo opportune regole di arresto della partizione ricorsiva) oppure riducendo retrospettivamente la grandezza di un albero completamente espanso operando una potatura dei rami. Quest'ultima procedura di semplificazione, nota come pruning, è finalizzata all'ottenimento di strutture (ovvero di regole di classificazione/predizione) generalizzabili e di dimensioni non elevate attraverso la rimozione di parti consistenti delle strutture stesse e segnatamente delle parti terminali che risultano sovradattate ai dati (problema c.d. dell'overfitting) e che quindi spiegano i dati stessi ma non necessariamente il fenomeno oggetto di studio [6, 14, 15, 26].
Per quanto attiene il terzo punto, Hand [20, 21, 33] ha distinto il problema della semplificazione degli alberi da quello della scelta della regola finale per classificare nuovi individui. In merito a quest'ultimo obiettivo, più strettamente induttivo-decisionale, Hand ha introdotto il metodo dell'averaging, ovvero la costruzione di un compromesso tra più alberi, con opportuni pesi definiti seguendo criteri diversi. In tale contesto anche la scuola bayesiana ha affrontato problemi di questo tipo definendo specifiche priors [31, 32], ed utilizzando le potenzialità di strumenti quali gli algoritmi Markov Chain Monte Carlo [5, 7, 12, 18]. Invero, Breiman [1,2,3] ha proposto l'impiego di tecniche di ricampionamento per la definizione di alberi stabili di taglia ottimale.
In questa prospettiva, per il caso della classificazione non supervisionata, quando si analizzano dati complessi relativi a fenomeni multivariati rilevati in differenti occasioni, è possibile pervenire alla selezione del modello migliore attraverso l'utilizzo di tecniche di consenso [19], basate sulla classificazione gerarchica consenso dei minimi quadrati di un insieme di classificazioni gerarchiche [44], oppure definendo le classificazioni principali, ossia classificazioni gerarchiche ottenute come combinazioni lineari di matrici ultrametriche di un insieme di classificazioni gerarchiche [45].
Per ovviare ad alcuni dei limiti applicativi dei modelli statistici di tipo parametrico per problemi di segmentazione nei casi in cui non è possibile considerare ipotesi distribuzionali relative ai parametri del modello, oppure il legame strutturale tra le variabili è complesso o non lineare, oppure in presenza di grandi insiemi di osservazioni che escludono l'impiego di test statistici, un utile riferimento metodologico computazionale è costituito dalle reti neurali. In tale ottica l'utilizzo delle "reti statistiche neuronali" è stato già introdotto per la segmentazione attraverso l'analisi dei bilanci latenti [10, 11] oppure attraverso i modelli di preferenza multi-attributo della conjoint analysis [9, 25] al fine di esplicitare i meccanismi di funzionamento e di garantire una maggiore interpretabilità ed affidabilità dei risultati [35].
Attualmente i problemi di classificazione e di segmentazione si pongono rispetto a dati caratterizzati da una crescente complessità, sia sotto il profilo della dimensione generalmente elevata delle basi di dati che sotto il profilo della struttura, essendo il risultato della osservazione di fenomeni multivariati in differenti occasioni spazio/temporali (dati longitudinali o temporali) [36, 46]. Pertanto, si rende necessario un approccio alternativo a quello classico di tipo parametrico o semi-parametrico, i.e., i modelli multi-equazione con variabili latenti, i modelli associativi a tre vie, i modelli di regressione non parametrica [8, 22, 41, 42].
Al fine di fronteggiare problemi derivanti dalla crescente complessità delle informazioni oggi a disposizione, che si manifesta attraverso la creazione di enormi basi di dati [16, 43], è possibile valutare la bontà dei metodi illustrati considerando il dato non più come semplice unità elementare ma come entità complessa, in grado di tener conto della sua variabilità nel tempo e nello spazio, delle relazioni esistenti tra variabili (tassonomie, dipendenze logiche), di più valori che ciascuna variabile può presentare per ogni osservazione nonchè di eventuali valutazioni esperte. Diday [13] ha fornito una prima soddisfacente formulazione di strutture complesse introducendo il concetto di oggetto simbolico, inteso come concetto definito sulla base di un insieme di caratteristiche in relazione tra loro.Testo ingleseSegmentation and Classification have been crucial topics in the researchers interest since the origins of sciences. As a matter of fact, in natural and social sciences the construction of rules or discrimination models is the starting point for the definition of scientific theory, hypothesis and models able to describe the real life.
The statistical scientific community has been facing such problems providing a lot of analysis tools, which can be distinguished into two main categories corresponding to the distinction between non-supervised classification and supervised classification [20].
Non-supervised classification concerns cluster analysis techniques, i.e. procedures able to define homogeneous clusters from a given collection of objects or statistical units. The aim is to identify a structure of clusters on the basis of a set of variables, and then to verify the existence of such clusters and which are the objects belonging to them.
On the contrary, in the supervised classification the groups are a priori known and the aim is to formulate some rules which allow to assign new objects to the most appropriate group. In this context segmentation methods are included. These methods provide to construct models or discrimination rules in order to form groups of objects which are internally homogeneous and externally heterogeneous with respect to a criterion variable; this can be not only categorical (classification problems) but also numerical (regression problems). Many research efforts have been dedicated towards devising classification and regression models free from some of the restrictive classical assumptions. Tree-based models are inherently more flexible, can easily handle complex interactions between among factors and give results that are simple to interpret.
Segmentation methods have a double aim, both exploratory and decision-making depending on the use of the tree to describe the dependence relationship among variables - in order to identify behavioral models in sociological research, to identify clusters of clients/users of a good/service in marketing research, to define utility or multi-attribute preference models in microeconomic analysis, to define priorities for factors influencing a criterion variable in biometry - as well as the use of the tree for decisional reasons, such as an inductive tool aimed to predict or classify new objects. This tool uses a supervised algorithm based on the learning of the investigated phenomenon through an a-priori knowledge of the observations of a criterion variable to be distinguished from the explanatory variables.
The reference point for the research concerning segmentation trees is CART (Classification and Regression Trees) methodology, introduced by Brieman et al.[4] in 1984. CART has successively excited a huge scientific debate concerning both methodological and computational issues of the topic [3, 17, 23, 24, 30, 34, 38]. Various strategies have been proposed for the construction of tree structured methods. Every method is characterised by the choices to be made in order to solve the following three main problems:
1 The definition of a partition criterion for the objects in each node;
2 The definition of either a stopping rule or a simplification method for pruning the tree;
3 The choice of the optimal sized tree for the classification/prediction of new objetcs.
Concerning the first problem, the tree structure is obtained by defining a recursive partitioning procedure of the objects in ever purer groups, which results internally homogeneous and externally heterogeneous (top-down strategy) [37]. Apart from the traditional use of statistical indexes describing the dependence between the criterion variable and the explanatory variables other approaches have been worked out, namely the use of factorial methods [39], such as non-symmetric correspondence analysis [40], and the use of statistical models like latent budget model [38] and logistic regression [29].
The second problem is considered crucial for the construction of accurate classification and regression trees, and it can be solved by deciding prospectively when to stop the growing procedure of the tree (upon definition of a suitable stopping rule) or retrospectively reducing the size of a fully expanded tree by pruning some branches. This simplification procedure, known as pruning, is aimed to identify structures (i.e. classification/prediction rules) of low dimension and able to be easily generalised. This can be done by removing substantial parts of the structure and by cutting terminal parts resulting overfitted to the data (overfitting problem). These parts can explain the data but not necessarily the investigated phenomena [6, 14, 15, 26].
Concerning the third point, Hand [20, 21, 33] made a distinction between the problem of trees simplification and the choice of the final rule for the classification/prediction of new objects. Concerning the latter problem, which is strictly inductive-decisional, Hand introduced averaging method, that is the construction of a compromise between more trees, with apposite weights defined according to different criteria. In this context bayesian statisticians have faced such problems by defining apposite priors [31, 32], and by using Markov Chain Monte Carlo algorithms [5, 7, 12, 18]. As a matter of fact, Brieman [1, 2, 3] introduced the use of resampling techniques in order to define simultaneously optimal sized and robust trees.
In this context, for the case of non supervised classification, when the analyst has to analyse complex data sets related to multivariate phenomena observed in different occasions, it is possible to select the best possible model both by using consensus techniques [19] based on least squares hierarchical classification of a set of hierarchical classifications [49], and by defining principal classifications, i.e. hierarchical classifications expressed as linear combination of ultrametric matrices related to a set of hierarchical classifications [45].
In order to avoid some of the limitations in the application of parametric statistical models concerning segmentation, especially when it is not possible to consider distributional assumptions related to the parameters of the model, or when the structural relationship between variables is complex and not linear, as well as in the presence of huge data sets which invalidates any statistical test, a useful computational and methodological reference is given by neural networks. In this context the use of "statistical neural network" has been already introduced for the segmentation problem by using latent budget analysis [10, 11] or by using multi-attribute preference models of conjoint analysis [9, 25] in order to find out the working mechanism as well as to guarantee results more reliable and easy to explain [35].
Nowadays, classification and segmentation problems are typical for data characterised by a growing complexity, with regard to the generally high dimensions of databases and their structure, resulting from the observation of multivariate phenomena in different state/space occasions (time series and longitudinal data) [36, 46]. For such a reason, an alternative is needed to the classical parametric and semi-parametric approach, such as multi-equation models with latent variables or three way association models [8, 22, 41, 42].
Finally, in order to face problems concerning the growing complexity of the information available at the moment, which is characterised by the creation of huge databases [16, 43], it is possible to evaluate the goodness of the above methods by considering the data not in terms of elementary unit but in terms of complex entity, able to account for its variability during the time and in different places, for the relationships existing between variables (taxonomies, logical dependencies), as well as for the set of values that a certain variable could present for each observation and of possible judges coming from some expert. Diday [13] introduced a pioneer satisfactory formulation of complex structures in terms of symbolic objects concepts. A symbolic object is a concept defined on the basis of a set of characteristics related one to each other.

2.2.a Riferimenti bibliografici
1. Breiman, L., 1996. Bagging Predictors, Machine Learning, 24, 123-140.
2. Breiman, L., 1996. Heuristic of Instability and Stabilization in Model Selection, The Annals of Statistics, 24, 6, 2350-2383.
3. Breiman, L., 1998. Arcing Classifiers, The Annals of Statistics, 26,3, 801-849.
4. Breiman, L., Friedman, J., Olshen, R., Stone, C., 1984. Classification and Regression Trees, Chapman and Hall, London.
5. Buntine, W., 1992. Learning Classification Trees, Statistics and Computing, 2, 63-73.
6. Cappelli, C., Mola, F., Siciliano, R., 1998, An alternative pruning procedure based on the impurity-complexity measure, in R. Payne(ed.): Proceedings of COMPSTAT '98 , contributed paper, Physica Verlag.
7. Chipman, H.A., George, E.I., McCulloch, R.E., 1998. Bayesian CART Model Search, Journal of the American Statistical Association, 93, 443, 935-961.
8. Clark, L., Pregibon, D., 1992. Tree-Based Models, in Statistical Models in S, Chambers, J. and Hastie, T. (eds.), Belmont, CA: Wadsworth.
9. Davino, C., Giordano, G., Lauro, N.C., 1997. Analisi dei dati e reti neuronali: contributi interpretativi alla Conjoint Analysis, in Atti del convegno SIS: “La Statistica per le Imprese”, Tirrenia Stampatori, Torino, 291-298.
10. Davino, C., Mola, F., Siciliano, R., 1997. Un Modello Neuronale Simultaneo per l’Analisi dei Bilanci Latenti a Tre Vie, Atti del convegno SIS: “La Statistica per le Imprese”, Tirrenia Stampatori, Torino, 299-307.
11. Davino, C., Mola, F., Siciliano, R., Vistocco, D., 1998. A Statistical Approach to Neural Network, in A. Morineau (eds.), Proceeding of NGUS ‘97: Analyses Multidimensionelles des Donnes, CISIA, Parigi.
12. Denison, D.G.T., Mallick, B.K., Smith, A.F.M., 1998. A Bayesian CART algortihm, Biometrika, 85, 2, 363-377.
13. Diday, E., 1993, From Data to Knowledge, boolean, Probabilistic, Possibilist and Belief objects for simbolique data analysis, Tutorial at IV Conference of International Federation of Classification Societes, Paris.
14. Esposito, F., Malerba, D., Semeraro, G., 1997. A Comparative Analysis of Methods for Pruning Decision Trees. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-19, 5, 476-491.
15. Esposito, F., Malerba, D., Semeraro, G., 1997. The Effects of Pruning Methods on Predictive Accuracy of Induced Decision Trees: A New Experimentation with Cross-Validation, Proceedings VIII International Symposium on Applied Stochastic Models and Data Analysis, 129-134, Rocco Curto, Naples.
16. Esposito, F., Malerba, D., Ripa, V., 1997. Discovering Causal Rules in Relational Databases. Applied Artificial Intelligence: An International Journal, 11(1), 71-83.
17. Fino, A., Malerba, D., Tamma, V., 1997. Induction of Tree Based Regression Models, Proceedings of Joint Workshop of the AI*IA Groups on Natural Language Processing and Machine Learning, Turin.
18. Green, P.J., 1995. Reversible jump Markov chain Monte Carlo computation and Bayesian model determination, Biometrika, 82, 711-732.
19. Gordon, A.D., Vichi, M. 1998. Partitions of Partitions, Journal of Classification, 15, 255-276.
20. Hand, D. 1997. Construction and Assessment of Classification Rules, Wiley.
21. Hand, D.J., Henley, W.E., 1997. Statistical Classification Methods in consumer Credit Scoring: a Review, Journal of the Royal Statistical Association, 3, 523-541.
22. Hastie, T., Tibshirani, R., 1990. Generalized Additive Models, Chapman and Hall, London.
23. Klascka, J., Mola, F., 1998. Minimization of Computational Cost in Tree-Based Methods by a Proper Ordering of Splits, in R. Payne and P. Green (eds.): Proceedings in Computational Statistics. COMPSTAT ’98, Physica Verlag, Heidelberg, 359-364.
24. Klaschka, J., Siciliano, R., Antoch, J., 1998. Computational Enhancements in Tree-Growing Methods, in A. Rizzi, M. Vichi, H.H. Bock (eds.): Advances in Data Science and Classification, Springer Verlag, Heidelberg, 295-302.
25. Lauro, N.C., Giordano, G., Verde, R., 1997. A Multidimensional Approach to conjoint Analysis, invited lecture, VIII International Symposium on Applied Stochastic Models and Data Analysis, Rocco Curto (ed.), 39-50.
26. Malerba, D., Esposito, F., Semeraro, G., 1996. A Further Comparison of Simplification Methods for Decision-Tree Induction. Chapter 35 in D. Fisher and H.-J.Lenz (Eds.), Learning from Data: AI and Statistics V, Lecture Notes in Statistics, 112, 365-374, Springer-Verlag, Berlin, Germany.
27. Mola, F., 1998. Classification and Regression Trees Software and New Developments, in A. Rizzi, M. Vichi, H.H. Bock (eds.): Advances in Data Science and Classification, Springer Verlag, Heidelberg, 311-318.
28. Mola F., Siciliano R., 1992. A two-stage predictive splitting algorithm in binary segmentation, in Dodge J., Whittaker, J. (eds.): Compstat 92, Physica-Verlag, heidelberg, 373-378.
29. Mola, F., Klaschka, J., Siciliano, R., 1996. Multinomial Logistic regression for classification Trees, in A. Prat (eds.): Proceedings of COMPSTAT 96, Physica-Verlag, Heidelberg, 373-378.
30. Mola, F., Siciliano, R., 1997. A Fast Splitting Procedure for Classification Trees, Statistics and Computing, 7, 208-216.
31. Moreno, E., Bertolino, F., Racugno, W., 1998. An intrinsic limitating procedure for model selection and hypotheses testing, Journal of the American Statistical Association, 93, 444, 1451-1460.
32. Moreno, E., Bertolino, F., Racugno, W., 1999. Default Bayesian Analysis of the Behrens-Fisher Problem, Journal of Statistical Planning and Inference, in press.
33. Oliver, J.J., Hand, D.J., 1997. On Pruning and Averaging Decision Trees, Journal of Classification.
34. Quinlan, J.R., 1993. C4.5: Programs for Empirical Learning. Morgan Kaufman, San Francisco.
35. Ripley, B.D., 1994. Neural Networks and Related Methods for Classification, Journal of the Royal Statistical Association, 56, 3, 409-456.
36. Segal, M.R., 1992. Tree-Structured Methods for Longitudinal Data, Journal of the American Statistical Association, 87, 418, 407-418.
37. Safavian, S.R., Landgrebe, D., 1991. A survey of decision tree classifier methodology, IEEE Transactions on systems, Man and Cybernetics, 21-3, 660-674.
38. Siciliano, R., 1998. Exploratory versus Decision Trees, in R. Payne(ed.): Proceedings of COMPSTAT '98 , invited paper, Physica Verlag.
39. Siciliano, R., Mola, F., 1998. Ternary classification Trees: a Factorial Approach, in M. Greenacre, J. Blasius (eds.): Visualisation of Categorical Data, chap. 22, 311-324, Academic Press.
40. Siciliano, R., Mooijaart, A., van der Heijden, P.G.M., 1993. A Probabilistic model for non-symmetric correspondence analysis and prediction in contingency tables, Journal of Italian Statistical Society, 1-93.
41. Siciliano, R., A., van der Heijden, P.G.M., 1994. Simultaneous Latent Budget Analysis of a Set of Multidimensional Contingency Tables, Metron, LII, 1-2, 155-180.
42. Siciliano, R., Mooijaart, A., 1997. Three-factor Association Models for Contingency Tables Analysis, Computational Statistics & Data Analysis, 24(3), 337-356, 1997.
43. Verde R., 1998. Basi di Dati Relazionali e Oggetti Simbolici: Problemi di Selezione e di Classificazione dei Descrittori, Atti della XXXIII Riunione della Società Italiana di Statistica, Sorrento.
44. Vichi, M., 1993. Least Squares fitting of a hierachical classification to a set of hierarchical classifications, Metron, 51-(3-4), 139-163.
45. Vichi, M., 1997. Principal classification analysis: a method for generating consensus dendrograms and its applications to three-way data, Computational statistics and Data Analysis, 27, 311-331.
46. Vichi, M., 1999. One Mode Classification of a Three-Way Data Set, Journal of Classification, to appear in the next issue.

2.3 Numero di fasi del Programma di Ricerca:  2


2.4 Descrizione del Programma di Ricerca
Fase 1
Durata: 12 mesi   Costo previsto:  90 M£   46.481 Euro
Descrizione:
Testo italianoLa prima fase del progetto riguarderà un approfondito studio della bibliografia raccolta sui recenti contributi in tema di classificazione e segmentazione per insiemi di dati strutturati in forma complessa, ovvero dati multivariati, matrici a tre indici, oggetti simbolici. Ciò consentirà di chiarire i punti di frontiera della ricerca in questo contesto e di studiare nuove proposte metodologiche per ovviare a taluni limiti dei metodi già introdotti in letteratura quando impiegati per strutture non standard di dati, e al tempo stesso per definire nuove strategie di analisi basate sull'uso congiunto di metodi parametrici e non parametrici di discriminazione.
Le Unità Operative dell'Università di Napoli Federico II (responsabile: Siciliano), dell'Università di Bari (responsabile: Malerba), della Università di Cagliari (responsabile: Mola), approfondiranno prevalentemente i metodi per la costruzione di strutture ad albero (non necessariamente di tipo binario) per la risoluzione di problemi di analisi esplorativa ma soprattutto decisionale. L'Unità Operativa dell'Università G. D'Annunzio di Chieti (responsabile: Vichi) considererà le tecniche di classificazione gerarchica, mentre l'Unità Operativa della Seconda Università di Napoli (responsabile: Verde) si dedicherà alla gestione di grandi insiemi di dati per problemi di segmentazione e di classificazione.
Il gruppo di lavoro coordinato da Siciliano si dedicherà a problemi di segmentazione multivariata per strutture di dati dove vi è presente una variabile di risposta multivariata o variabile multi-criterio, e a problemi di segmentazione longitudinale per matrici a tre vie indicizzate da una variabile di stratificazione temporale/spaziale. In tale prospettiva, saranno impiegati metodi non parametrici, i.e., la segmentazione ad albero e le reti neuronali, e metodi semi-parametrici, i.e., i modelli additivi generalizzati, e saranno valutate le possibilità di impiego di metodi parametrici, i.e. i modelli simultanei dei bilanci latenti e i modelli di preferenza multi-attributo della conjoint analysis, quale supporto statistico alla definizione di modelli generalizzati nel senso di fondere l'approccio parametrico a quello non-parametrico. Un esempio è fornito dall'assegnazione di un modello parametrico ad una struttura ad albero così come ad una rete neuronale, in modo da consentire la ridefinizione del problema della scelta dell'albero di taglia ottimale o della scelta dell'architettura neuronale come problema di selezione di un modello statistico.
Il gruppo di lavoro di Malerba si concentrerà nella definizione di nuovi metodi di semplificazione o di potatura delle strutture ad albero in funzione sia del tipo di dati e del problema affrontato che della validazione in senso statistico delle regole di classificazione e di regressione ad albero. In particolare, i metodi di semplificazione che si proporranno saranno confrontati con i metodi già introdotti in letteratura guardando non solo gli aspetti metodologici, ad esempio lo studio dei criteri di potatura dell'albero in funzione dei criteri impiegati per la costruzione dell'albero, ma anche le proprietà computazionali dei metodi valutando la complessità computazionale degli algoritmi che saranno sviluppati per l'implementazione dei metodi proposti.
Il gruppo di lavoro di Mola focalizzerà l'attenzione sull'aspetto più strettamente decisionale della segmentazione, ovvero la definizione di metodi di selezione e di validazione delle regole di classificazione e regressione ad albero per il loro impiego a scopi induttivo-inferenziali. Questo momento è strettamente legato alla procedura di semplificazione degli alberi in quanto si rende necessario la definizione di criteri per valutare la stabilità delle regole create in funzione dei metodi di semplificazione e dei criteri di scelta degli alberi di taglia ottimale. Si studieranno i contributi recenti in tema di definizione della struttura ad albero ottimale che impiegano l'approccio bayesiano; in tale prospettiva si potranno fondere le esperienze di Mola sulla segmentazione ad albero con quelle dei partecipanti al progetto locale di Cagliari, competenti di inferenza bayesiana.
L'Unità Operativa dell'Università D'Annunzio di Pescara (responsabile: Vichi) si specializzerà nei modelli di classificazione, consenso o compromesso tra un insieme di classificazioni gerarchiche o partizioni fuzzy. Le tecniche di consenso e i relativi modelli, da un lato, possono essere impiegati per problemi di classificazione non supervisionata, ma anche in modo strumentale nell'ambito dei problemi di selezione delle strutture ad albero, ciascuna definitoria di una particolare partizione degli individui.
L'Unità Operativa della Seconda Università (responsabile: Verde), se pur piccola in termini di risorse personali e finanziarie disponibili, avrà nel progetto un ruolo importante molto specialistico, ovvero considererà il problema della gestione dell'informazione sotto forma di basi di dati relazionali e di grandi insiemi di dati di inchiesta nell'ottica degli obiettivi di classificazione e di segmentazione. In particolare, si specializzerà nel problema della selezione delle variabili e della interpretazione delle classificazioni derivanti da dati strutturati come oggetti simbolici.
Nel presente progetto vi sono molti aspetti del lavoro di ricerca dell'Unità Operativa Locale di Napoli comuni al lavoro di ricerca delle altre Unità, e in tal senso l'Unità di Napoli vuole rappresentare il punto di unione di tutte le altre Unità Operative Locali e il suo responsabile, coordinatore nazionale, curerà l'aspetto della complementarietà delle ricerche maturate in questa fase all'obiettivo comune sopra indicato, favorendo anche la collaborazione scientifica tra i ricercatori di diverse Unità.
Testo ingleseThe first part of the project concerns an in-depth study of the most recent bibliography on classification and segmentation of complex data structures, that are multivariate data, three ways matrices, symbolic objects. The borderlines of the research being identified, new methodologies could be proposed in order to compensate the limitations of the existing methods, when these lasts are applied to non-standard data structures, and define new strategies using parametric and non parametric discrimination methods.
The Local Units of the University of Naples Federico II (local coordinator: Prof. Siciliano), the University of Bari (local coordinator: Prof. Malerba), the University of Cagliari (local coordinator: Prof. Mola), mainly focus on the methods used to build trees (not necessarily of binary type) in order to solve explorative and decisional problems. The Local Unit of the University G. D'Annunzio of Chieti (local coordinator: Prof. Vichi) considers hierarchical classification, whereas the Second University of Naples (local coordinator: Prof. Verde) is dedicated to handle huge data sets for classification and segmentation problems.
The team coordinated by Prof. Siciliano concentrates on multivariate segmentation problems for data structures having a multivariate or multi-criterion response variable. In addition, longitudinal segmentation problems for three-ways indexed matrices, where the index is a time/space stratification variable, are examined. At this purpose, non parametric methods, i.e segmentation trees and neural networks, and semi-parametric methods, i.e. generalised additive models, are applied. Furthermore, the possibility of using parametric methods, i.e. simultaneous latent budgets models and conjoint analysis multi-attribute preference models, is also considered. These last methods are intended as a statistical support to the definition of the generalised models, where the parametric and non parametric approaches are merged. An example is assigning a parametric model to a tree structure as well as to a neural network, in order to redefine the choice of the optimal size tree as well as the neural network architecture. These problems could be assimilated to those concerning the choice of a statistical model.
The team of prof. Malerba focuses on the definition of new simplification or cutting methods for tree structures considered in the light of the type of data and the problem we are dealing with, as well as the validation (intended in its statistical meaning) of the rules for classification and regression trees. The proposed simplification methods are compared with those existing in the literature. In particular, not only are the methodological aspects examined (for example the techniques used to cut the tree according to the criteria used to build the tree itself), but also the computational properties are considered, in order to evaluate the complexity of the algorithms developed to implement the proposed methods.
The team directed by Prof. Mola examines the strictly decisional aspects of segmentation, that are the definition of methods to select and validate the rules for the classification and regression tree and their application for inductive-inferential purposes. This part is directly linked to the procedure of trees simplification, since it is necessary to define the criteria of evaluating the stability of the rules created according to the simplification methods and to the choice of the optimal size tree. The recent contributions to the definition of the optimal tree structure according to the bayesian approach are studied; at this purpose the experience of Prof. Mola on the segmentation techniques can merge with that of the other participants from Cagliari, experienced in bayesian inference.
The team of Prof. Vichi specialises on the classification mehods, representing a compromise between some hierachical classifications and fuzzy partitions. The consensus tecniques and the associated models can be applied both to non supervised classification problems and to the problems of selecting the tree structure, where each structure identifies a specific partition.
The team of Prof. Verde, though small in terms of human and financial resources, has an important and specialistic task. This Unit considers problems of information management in terms of relational data bases and large surveys datasets considered for segmentation and classification purposes. Problems of selection of variables and interpretation of classification on data structured as symbolic objects are particularly considered.
Many aspects of the research are shared by the Local Operative Unit of Naples and the other operative Units. Therefore, the University of Naples intends to represent the "très d'union" among the other Operative Units. Its coordinator, which is also national coordinator, will guarantee that the projects developed in this part follow the common aim explained above, and promote the collaboration of the researchers from the different Universities participating to the project.
Risultati parziali attesi:
Testo italianoAl termine della prima fase, i ricercatori delle singole Unità Operative Locali avranno approfondito la letteratura esistente, attraverso lo studio dei lavori in bibliografia e l'incontro con studiosi di chiara fama internazionale (Breiman, Carroll, Diday, Gordon, Hand). In questa fase, i ricercatori impegnati nel progetto avranno messo a punto metodologie innovative nel campo della classificazione e della segmentazione.
In riferimento ai compiti che ciascuna unità si è data si possono riassumere i principali risultati attesi nel seguente modo:
1. Definizione di una base metodologica della segmentazione multivariata e longitudinale, estendendo i criteri di partizione a due stadi nei tre diversi approcci della metodologia TWO-STAGE (criteri basati sugli indici statistici, sui metodi fattoriali e sui modelli parametrici) al trattamento delle variabili multi-criterio e delle variabili temporali/spaziali nell'analisi longitudinale;
2. Definizione di nuovi metodi di semplificazione o potatura degli alberi in funzione della struttura dei dati e del criterio adottato nella fase di costruzione dell'albero;
3. Introduzione di nuovi criteri di partizione per la costruzione di classificazioni consenso di un insieme di partizioni e per la classificazione fuzzy;
4. Introduzione di nuovi metodi di selezione delle regole di classificazione/regressione basate su tecniche di consenso e su procedure inferenziali di tipo classico o bayesiano;
5. Impiego di algoritmi di partizione ricorsiva per la definizione di intervalli di stima ottimali in errore quadratico medio delle funzioni di smoothing nei modelli additivi generalizzati, e definizione di un modello generale basato sull'uso congiunto degli alberi e dei metodi semiparametrici rappresentati dai modelli additivi generalizzati;
6. Definizione di un'architettura di reti neuronali poste in parallelo per la proposta di modelli neuronali simultanei per l'analisi di dati longitudinali e valutazione dei possibili vincoli imposti alla struttura per validare opportune ipotesi legate agli obiettivi tipici di un'analisi longitudinale (ricerca di un compromesso, analisi evolutiva, analisi previsionale) con riferimento all'analisi temporale dei bilanci latenti e agli studi dei modelli di preferenza multi-attributo della conjoint analysis;
7. Identificazione di metodi di selezione di variabili derivanti da grandi basi di dati per la costruzione di nuove regole di classificazione di oggetti simbolici.
Testo ingleseIn the end of the first phase, the researchers of the Local Units will have done both an in-depth study of the bibliography and scientific meetings with well known experts in this fields (Breiman, Carroll, Diday, Gordon, Hand). In this way, they will have studied in order to work out new classification and segmentation methods.
With respect to the tasks each Unit has itself established the main expected results of this phase can be summarised as follows:
1. Definition of a scientific methodological framework for multivariate and longitudinal segmentation, based on the extension of two-stage partitioning criteria using the three approches of TWO-STAGE methodology (statistical indexes criteria, factorial methods criteria, modeling criteria) to deal with multi-criteria variables, time/space variables of longitudinal data analysis;
2. Definition of new simplification methods for pruning trees which depend on the data structure as well as on the partitioning criterion used for growing the tree;
3. Introduction of new partitioning criteria for the construction of consensus classifications of sets of partitions as well as of fuzzy classifications;
4. Introduction of new methods for selecting classification/prediction rules on the basis of either consensus techniques or inferencial procedures of classical and bayesian types;
5. Use of partitioning algorithms for the definition of optimal interval estimate in mean square error to fit smoothing functions within the generalized additive modeling, and thus definition of a general model based on the complementary use of semiparametric models and tree-based models;
6. Definition of a parallel neural network architecture to provide simultaneous neural models for longitudinal data analysis and study of possible constraints to identify the architecture as also to validate specific assumptions of longitudinal data analysis (evolutionary problems, forecasting, identification of a common structure) with respect to latent budget analysis and conjoint analysis;
7. Identification of new variable selection methods when dealing with large data sets for the construction of rules to classify symbolic objects.


Unita' di ricerca impegnate:
 
  • MALERBA Donato 
  • MOLA Francesco 
  • SICILIANO Roberta 
  • VERDE Rosanna 
  • VICHI Maurizio 
  • Fase 2
    Durata: 12 mesi   Costo previsto:  95 M£   49.063 Euro
    Descrizione:

    Testo italianoLa seconda fase del progetto di ricerca è dedicata alla implementazione dei metodi proposti, all'ottimizzazione degli algoritmi sviluppati nella fase di definizione e studio di nuove proposte metodologiche, e alla loro sperimentazione su dati simulati e reali.
    I metodi di classificazione e di segmentazione sono tra i più onerosi dal punto di vista computazionale così che l'implementazione di algoritmi per la gestione di dati strutturati in forma complessa richiede specifiche competenze e un know-how già peraltro acquisito dai ricercatori partecipanti al gruppo di ricerca. In questa fase, particolare attenzione verrà dedicata agli aspetti computazionali degli algoritmi proposti valutandone i costi e la complessità computazionale. L'idea è quella di riunire le competenze in tema di classificazione e di segmentazione nell'ottica di porre le basi per la progettazione di un software specialistico atto ad accogliere sia le proposte metodologiche maturate nel presente progetto che quelle che sono già state introdotte in letteratura in tema di classificazione e segmentazione dai ricercatori partecipanti al progetto. Per il raggiungimento di questo obiettivo si rivelerà utile l'esperienza maturata dai singoli ricercatori nella prima fase più strettamente metodologica, dove ciascuna Unità avrà realizzato dei prototipi di programmi in meta-linguaggi come MATLAB, S-PLUS, MATHEMATICA.
    Le metodologie sviluppate nel presente progetto saranno poi sperimentate effettuando studi di simulazione e applicazioni su dati reali. Si ritiene indispensabile confrontare i risultati conseguiti con quelli proposti in letteratura da altri studiosi di classificazione e segmentazione. A tal fine è divenuta consuetudine quella di misurarsi ed effettuare studi comparativi utilizzando comuni basi di dati che dovranno essere acquistate. L'occasione di sperimentare le metodologie proposte a dati reali potrà essere inoltre offerta dall'attivazione di un sito Web in cui raccogliere tutte le informazioni inerenti il progetto (pubblicazioni, algoritmi, stato di avanzamento, etc.) e a cui inviare dati reali per l'analisi statistica con i metodi sviluppati nel presente progetto.
    Testo ingleseThe second phase of the research project is dedicated to implement the proposed methods, to optimise and standardise the algorithms produced to work out new methods, as well as to experience the proposed methods on simulated and real data sets.
    Classification and segmentation methods are computationally highly costly so that implementing the algorithms for dealing with complex data structures needs a specific know-how that belongs to the group of researchers participating the project. In this phase, particular attention will be given to computational aspects of the algorithms with evalutation of their cost and complexity. The idea is to plan a specialised ideal software able to capture the most recent contributions in this field. To achieve this goal it will be necessary to merge the experience of all researchers dedicated to developing prototypes of algorithms in meta-languages such as MATLAB, S-PLUS, MATHEMATICA from all Local Units.
    The performance of the methodologies that will be developed in this project will be successively evaluated by means of simulations studies as well as through applications on real data sets. It is necessary to compare the results which are obtained when applying the proposed methods with those obtained by using other methods using standard data sets extracted by well-known data banks. These data sets should be bought. The opportunity to perform applications on real data sets can be also derived by the creation of a Web site where all information concerning the project will be provided as also special requests of analyses can be asked for.
    Risultati parziali attesi:
    Testo italianoAl termine della seconda fase si prevede di aver realizzato programmi ben strutturati, efficienti, e di possibile impiego da parte di non addetti ai lavori per l'applicazione dei metodi sviluppati nel presente progetto. Inoltre, si prevede di aver definito le basi metodologiche e computazionali per la progettazione di un software specialistico per la classificazione e la segmentazione di dati strutturati in forma complessa.
    Testo ingleseIn the end of the second phase the Local Units will have structured efficient programs to be used also by non-expert in the field. Furthermore, the methodological and computational framework of a specialised ideal software for classification and segmentation of complex data structures will have been worked out.


    Unita' di ricerca impegnate:
     
  • MALERBA Donato 
  • MOLA Francesco 
  • SICILIANO Roberta 
  • VERDE Rosanna 
  • VICHI Maurizio 

  •  
     


    2.5 Criteri suggeriti per la valutazione globale e delle singole fasi
    Testo italianoLe modalità attraverso le quali il coordinatore nazionale e i responsabili delle unità locali intendono seguire il progetto e divulgare i risultati, sono sintetizzate nei seguenti punti.
    1) riunioni periodiche dei responsabili locali per controllare l'aderenza del lavoro svolto con gli obiettivi intermedi e finali del progetto complessivo;
    2) predisposizione di un sito WEB visibile a tutta la Comunità Scientifica tramite il quale è possibile acquisire riassunti, lavori completi e partecipare a forum interattivi.
    3) predisposizione di un ambiente FTP visibile solo ai componenti le singole unità locali e destinato alla trasmissione del software "di servizio" (macro, prototipi di programmi ed altro).
    4) Predisposizione di un ambiente FTP visibile alla Comunità Scientifica destinato alla acquisizione del software prodotto dalle unità locali e pronto per l'utilizzo.
    d) Presentazione dei risultati finali del gruppo di lavoro in un apposito Workshop con sessioni specializzate e gestite dalle singole unità (con discussant non coinvolti nel progetto ed appartenenti all'intera Comunità Scientifica Internazionale) e sessioni "open" per ospitare contributi di ricercatori italiani e stranieri non appartenenti alle unità locali ma che si occupano dell'argomento.
    e) stampa degli atti del Workshop e selezione delle pubblicazioni più significative (con doppio revisore) per la pubblicazione di una monografia edita dai responsabili locali.Testo ingleseThe scientific coordinator and the local unit coordinators intend to follow-up the global project and intend to spread out the results according to the following points.
    1) Periodical meetings of the scientific coordinator with the local unit co-ordinators to check the coherence of the works in progress with the main goals of the local projects as well as the global one;
    2) Arrangement of a WEB site visible for the National and International Scientific Community on which it is possible to capture technical information, abstracts and full papers. By means of this WEB site it is possible to participate to specialised interactive forums.
    3) Arrangement of a FTP environments visible only to the participants to local units in order to transfer programming tools as macros, prototypes of software and so on.
    4) Arrangement of a FTP environments visible to the Scientific Community devoted to the download of software ready for the users.
    5) Organisation of a Workshop where the main results of the research can be shown. The Workshop can be formed of specialised sessions, organised by the local unit coordinators (with discussant not belonging to any local units), and open sessions, in order to host researchers of the national and international community which are working on the subject of the project but not involved in the project.
    6) Press of the Workshop Proceedings and selection of the most significant papers (accomplishing the judgement of two referees ) that will be included in a Monograph edited by the local unit co-ordinators.

    Parte: III
    3.1 Spese delle Unita’ di Ricerca
    Unità di ricerca  Voce di spesa  Totale 
    Materiale inventariabile Grandi Attrezzature Materiale di consumo e funzionamento Spese per calcolo ed elaborazione dati Personale a contratto Servizi esterni Missioni Altro
    Euro Euro Euro Euro Euro Euro Euro Euro Euro
    MALERBA DONATO 4 2.066     3 1.549     18 9.296     20 10.329     45 23.241
    MOLA FRANCESCO 10 5.165     3 1.549 2 1.033     5 2.582 20 10.329     40 20.658
    SICILIANO ROBERTA 16 8.263     2 1.033 10 5.165     7 3.615 22 11.362     57 29.438
    VERDE ROSANNA 3 1.549         1 516         3 1.549     7 3.615
    VICHI MAURIZIO 7 3.615     2 1.033 2 1.033 12 6.197     13 6.714     36 18.592
    TOTALE  40 20.658     10 5.165 15 7.747 30 15.494 12 6.197 78 40.284     185 95.545


    3.2 Costo complessivo del Programma di Ricerca e risorse disponibili
    Unità di ricerca Voce di spesa
    RD RA RD+RA Cofinanziamento richiesto al MURST Costo totale del programma Costo minimo
    Euro Euro Euro Euro Euro Euro
    MALERBA DONATO 14 7.230     14 7.230 31 16.010 45 23.241 35 18.076
    MOLA FRANCESCO     12 6.197 12 6.197 28 14.461 40 20.658 35 18.076
    SICILIANO ROBERTA 17 8.780     17 8.780 40 20.658 57 29.438 50 25.823
    VERDE ROSANNA 2 1.033     2 1.033 5 2.582 7 3.615 6 3.099
    VICHI MAURIZIO 11 5.681     11 5.681 25 12.911 36 18.592 35 18.076
    TOTALE  44 22.724 12 6.197 56 28.922 129 66.623 185 95.545 161 83.150


    3.3 Costo minimo per garantire la possibilità di verifica dei risultati
     
    161 M£ 83.150 Euro (dal sistema, quale somma delle indicazioni dei Modelli B)
    161 M£ 83.150 Euro (dal Coordinatore del Programma)

    (per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")
     
     
     
     
    Firma ____________________________________________ 02/04/1999 12:07:57