MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 811 del 3 dicembre 1998)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 1999 - prot. 9913182289_005


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Scienze economiche e statistiche

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

MODELLI STATISTICI DI CLASSIFICAZIONE E DI SEGMENTAZIONE PER L'ANALISI DI DATI STRUTTURATI IN FORMA COMPLESSA: METODOLOGIE, SOFTWARE E APPLICAZIONI

Testo inglese

STATISTICAL MODELS FOR CLASSIFICATION AND SEGMENTATION OF COMPLEX DATA STRUCTURES: METHODOLOGIES, SOFTWARE AND APPLICATIONS

1.4 Coordinatore Scientifico del Programma di Ricerca

SICILIANO ROBERTA  
(cognome) (nome)  
Università degli Studi di NAPOLI "Federico II" Facoltà di ECONOMIA
(università) (facoltà)
S01A Dipartimento di MATEMATICO-STATISTICO
(settore scient.discipl.) (Dipartimento/Istituto)


r.sic@dmsna.dms.unina.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

MOLA FRANCESCO  
(cognome) (nome)  


Professore associato 22/12/1961 MLOFNC61T22F839W
(qualifica) (data di nascita) (codice di identificazione personale)

Università degli Studi di CAGLIARI Facoltà di ECONOMIA
(università) (facoltà)
S01A Dipartimento di ECONOMIA
(settore scient.discipl.) (Dipartimento/Istituto)


070/6753338 070/660929 mola@unina.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

S01A


1.7 Parole chiave

Testo italiano
ALBERI DI DECISIONE ; MCMC ; SEGMENTAZIONE ; ALGORITMI DI PARTIZIONE ; PRUNING ; STABILITA'

Testo inglese
DECISION TREES ; MCMC ; SEGMENTATION ; PARTITIONING ALGORITHMS ; PRUNING ; STABILITY


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Dal 1998 Francesco Mola è Professore Associato di Statistica presso l'Università di Cagliari. Dal 1990 è membro della Società Italiana di Statistica (SIS) e della International Association for Statistical Computing (IASC).
Dal 1997 è membro del gruppo italiano della International Federation of Classification Society (IFCS). Nel 1995 è stato membro del Comitato Scientifico e Presidente del Comitato Organizzatore del Convegno "New Trends in Theory, Software and Applications of Multidimensional Data Analysis, NGUS'95, III International Conference. Nel 1997 è stato membro del Comitato Organizzatore del Convegno NGUS'97. Nel 1997 è stato membro del Comitato Organizzatore del Convegno Applied Stochastic Models and Data Analysis.
Nel 1998 è stato membro del Comitato Organizzatore di IFCS'98.
La sua attività di ricerca ha riguardato prevalentemente le discipline della Analisi Multivariata e della Statistica Computazionale nell'ambito delle quali ha condotto lavori di ricerca riguardanti l'introduzione di metodi di classificazione e regressione ad albero, la proposta di algoritmi efficienti di suddivisione binaria, lo sviluppo e l'implementazione di software statistico,
l'impiego della statistica parametrica attraverso l'applicazione di modelli parametrici e test statistici alla segmentazione binaria e in tempi recenti, lo sviluppo di metodi alternativi per la costruzione di regressogrammi nei modelli additivi generalizzati.
Tale attività di ricerca si è concretizzata in oltre trenta lavori revisionati e pubblicati su riviste italiane ed internazionali o su volumi monografici.

Testo inglese

Since 1998 Francesco Mola is Associate Professor of Statistics at Cagliari University.
Since 1990 he is member of the Italian Statistical society (SIS) and of the
International Association for Statistical Computing (IASC).
Since 1997 is member of International Federation of Classification Society (IFCS) italian group. In 1995 he was member of the Scientific Committee and Chairman of the Organising Committee of the Conference "New Trends in Theory, Software and Applications of Multidimensional Data
Analysis, NGUS'95, III International Conference. In 1997 he was member of the Organising Committee and invited lecturer of the Conference NGUS'97. In 1997 he was member of the Organising Committee of the Workshop Applied Stochastic Models and Data Analysis.
In 1998 he was member of the Organising Committee and invited lecturer of IFCS'98 Conference.
His scientific research mainly concerns Multivariate Analysis and Computational Statistics. In this field he has been working on classification and regression trees, on the development of statistical software and on the application of parametrical models to binary segmentation.
Recently, he focused the attention on the construction of alternative regressograms in generalized additive models.
The above mentioned research activity results in more than 30 papers published on italian and international journals as well as on monographical books.

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. MOLA F., SICILIANO R., "A fast Splitting Procedure for Classification Trees" , Rivista: Statistics & Computing , Volume: 7 , pp.: 208-216 , ISBN/ISSN: 0960-3173 , (1997) .
  2. MOLA F., "Non Parametric Discrimination" , Rivista: Analyses Multidimensionnelle des Donnees, III Congres Internatianal, NGUS'95 , pp.: 13-22 , (1997) F. Mola and A. Morineau eds, Saint Mande: Cisia-Ceresta .
  3. MOLA F., "Factorial Classification Trees" , Rivista: Applied Stochastic Models and Data Analysis (to appear)) , (1999) .
  4. MOLA F., "Classification and Regression Trees: Software and New Developments" , Rivista: Advances in data Science and Classification , pp.: 311-318 , ISBN/ISSN: 3-540-64641-8 , (1998) A.Rizzi et al. eds, Berlin: Springer Verlag .
  5. CAPPELLI C., MOLA F., SICILIANO R., "An Alternative Pruning method Based on the Imputiry Complexity Measure" , Rivista: Proceedings In Computational Statistics , pp.: 221-226 , ISBN/ISSN: 3-7908-0953-5 , (1998) R. Payne and P. Green eds, Hidelberg: Physica Verlag .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  MOLA  FRANCESCO  ECONOMIA  Prof. associato  S01A  9  10
2  BERTOLINO  FRANCESCO  MATEMATICA  Prof. associato  A02B  4  2
3  RACUGNO  WALTER  MATEMATICA  Prof. ordinario  S01A  0  4
4  SATTA  GIULIANA  ECONOMIA  Assistente  S01A  5  5
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
 

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. ZEDDA  STEFANO  ECONOMIA DELL'IMPRESA, DELLA TECNOLOGIA, DELL'AMBIENTE  1998 

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. COLLU  MARIA GRAZIA  MATEMATICA  1999 

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. DI TODARO  FILIPPO  ENEL- Sistemi Informatici  Quadro 


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

METODI, ALGORITMI E SOFTWARE PER LA SELEZIONE E LA VALIDAZIONE
DI REGOLE DI CLASSIFICAZIONE E REGRESSIONE AD ALBERO

Testo inglese

METHODOLOGIES, ALGORITHMS AND SOFTWARE FOR SELECTING AND VALIDATING CLASSIFICATION AND REGRESSION TREES RULES

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

I metodi non parametrici basati sulle procedure di classificazione e regressione ad albero costituiscono un utile strumento per l'analisi di grandi insiemi di dati caratterizzati dall'assenza di una struttura standard ovvero dalla impossibilità di formulare ipotesi circa la distribuzione sottostante i dati.
In quest'ultimo trentennio lo sforzo di ricercatori di scuole diverse hanno prodotto un numero consistente di tecniche e metodologie diverse [5,11,15,18,21,27,29,30,33,34] offrendo alla comunità scientifica strumenti di analisi alternativi adattabili alle più svariate situazioni. Il costo computazionale (spesso troppo alto) legato a queste metodologie, ha poi spinto la ricerca verso l'individuazione di algoritmi più efficienti [6,12,13,22] ed alla definizione di software sempre più performante per utilizzatori esperti e non [17].
Tuttavia, uno dei problemi irrisolti legato a queste metodologie (basate il più delle volte su procedure euristiche) è la troppa dipendenza dai dati; in altre parole, le procedure ad albero presentano l'inconveniente del sovradattamento (c.d. overfitting) della struttura creata ai dati utilizzati nella loro induzione (che si traduce anche nella dimensione elevata della struttura stessa) e che vedono nella scelta della appropriata strategia di pruning un momento importante per la definizione dell'albero di taglia ottimale [2,4,7,28]. Questo inconveniente si ripercuote poi drammaticamente sulla stabilità, ovvero le regole di classificazione e predizione ottenute sono estremamente sensibili a fluttuazioni nei dati analizzati, quindi non sempre di agevole generalizzazione [3,10,20,31,35].
Inoltre le regole definite dall'albero di classificazione o regressione generano un modello di segmentazione [14,33]; questo significa che l'operazione di semplificazione e ricerca dell'albero di taglia ottimale rientra nel più generale contesto della selezione del modello. Le tecniche proposte in letteratura relative a quest'ultimo problema possono essere considerate come linee guida per affrontare la problematica specifica degli alberi [25,26].
Recentemente si sta assistendo ad un crescente attenzione degli statistici bayesiani verso i problemi di classificazione e regressione ad albero, sia con la definizione di specifiche priors, sia utilizzando le potenzialità di strumenti quali gli algoritmi MCMC [8,9]. Un approccio alternativo può essere considerato quello della elicitazione di priors proprie [1].
L'individuazione di regole di classificazione e predizione ottimali e validate da un punto di vista più squisitamente statistico (procedure inferenziali di tipo classico e bayesiane) rappresenta un momento chiave per la generalizzazione dei risultati della segmentazione quando applicata a problemi reali (come ad esempio: analisi di mercato, medicina, controllo di qualità, riconoscimento di forme, ecc.).

Testo inglese

Non parametrical methods based on classification and regression tree procedures are a useful tool for the analysis of large data sets characterised by high dimensionality and non standard structure, where no hypothesis can be made on the underlying distribution. .
In the last three decades researchers efforts have produced a variety of methodology and algorithms [5,11,15,18,21,27,29,30,33,34] giving to the scientific community many alternative analysis tools able to deal with different problems as well as domains. In particular the computational cost (generally very high) of these procedures has focused the researchers attention on the proposal of more efficient algorithms [6,12,13,22] and on the definition of segmentation oriented software which can be easily used either by expert researchers or by non expert users. The main drawbacks of tree methodologies (which, in general, are based on heuristic procedures) is that of being dependent from the data; in other words, tree procedures are characterised by overfitting in the sense that many of the branches of the created structure, reflect particular features of the data employed in the tree growing rather than real underlying relationship between the response variable and the predictors [2,4,7,28]. The above mentioned drawback has repercussions on the stability of the classification/prediction rules; actually, classification and regression tree methods are unstable procedures because of the fact that they are sensible to small changes in data i.e., small changes in the data can cause significant changes in the classifier/predictor constructed [3,10,20,31,35] .
Moreover, since the rules defined by the classification/regression tree generate a segmentation model [14,33], the problem of trees simplifying can be related to the more general topic of model selection so that the techniques proposed in literature to face this problem can be considered as guidelines to deal with tree procedures [25,26].
Recently an increasing attention has been paid by bayesian statisticians to classification and regression tree methods, either by the definition of suitable priors probability, or by applying tools such as MCMC algorithm [8,9]. An alternative approach can be that of eliciting proper priors [1].
The definition of classification/regression rules which are statistically validated by means either of classical inferential procedures or bayesian procedures, represents the main step towards the generalization of the segmentation results when segmentation is applied to real problems such as quality control, pattern recognition etc..

2.2.a Riferimenti bibliografici

1. Bertolino, F., Collu, M.G., 1999. Eliciting proper priors (submitted).
2. Breiman, L., 1996. Bagging Predictors, Machine Learning, 24, 123-140.
3. Breiman, L., 1996. Heuristic of Instability and Stabilization in Model Selection, The Annals of Statistics, 24, 6, 2350-2383.
4. Breiman, L., 1998. Arcing Classifiers, The Annals of Statistics, 26,3, 801-849.
5. Breiman, L., Friedman, J., Olshen, R., Stone, C., 1984. Classification and Regression Trees, Chapman and Hall, London.
6. Capiluppi, C., Fabbris, L., Scarabello, M. 1997. UNAIDED: a PC system for binary and ternary segmentation analysis. Proceedings of the IFCS Italian Conference, Pescara, 3-4 Luglio, 1997.
7. Cappelli, C., Siciliano, R., 1998, An alternative pruning procedure based on the impurity-complexity measure, in R. Payne(ed.): Proceedings of COMPSTAT '98 , contributed paper, Physica Verlag, 221-226.
8. Chipman, H.A., George, E.I., McCulloch, R.E., 1998. Bayesian CART Model Search (with discussion), Journal of the American Statistical Association, 93, 443, 935-961.
9. Denison, D.G.T., Mallick, B.K., Smith, A.F.M., 1998. A Bayesian CART algortihm, Biometrika, 85, 2, 363-377.
10. Hand, D. 1997. Construction and Assessment of Classification Rules, Wiley.
11. Kass,G.V., 1980. An exploratory technique for investigating large quantities of categorical data, Applied Statistics, 2, 29, 119-127.
12. Klaschka, J., Siciliano, R., Antoch, J., 1998. Computational Enhancements in Tree-Growing Methods, in A. Rizzi, M. Vichi, H.H. Bock (eds.): Advances in Data Science and Classification, Springer Verlag, Heidelberg, 295-302.
13. Klaschka, J., Mola, F., 1998. Minimization of Computational Cost in Tree-based Methods by a Proper Ordering of Splits, COMPSTAT'98 Proceedings (Payne R., Green P. eds)}, 359-364, Physica-Verlag, Hidelberg.
14. Mola, F., 1997. Non-Parametric Discrimination, in NGUS'95 Proceedings (Mola F. e Morineau A. eds.), CISIA, Saint Mandè, Francia.
15. Mola, F.,1997. Factorial Classification Trees, Proceedings of the VII International Workshop on Applied Stochastic Models and Data Analysis: The Ins and Outs of Solving Real Problems, Accepted for Applied Stochastic Models and Data Analysis.
16. Mola, F., 1997. Selection of Cut Points in Generalized Additive Models, Proceedings of the IFCS Italian Conference, Pescara, 3-4 Luglio, 1997.
17. Mola, F. 1998. Classification And Regression Trees Software and New Developments, in Advances in Data Science and Classification, IFCS'98 Proceedings (Rizzi et al. eds.), 311-318, Springer Verlag, Berlin.
18. Mola, F., Siciliano, R., 1992. A two-stage predictive splitting algorithm in binary segmentation, in Dodge J., Whittaker, J. (eds.): Compstat 92, Physica Verlag, 179-184.
19. Mola, F., Siciliano, R., 1994. Alternative strategies and CATANOVA testing in two-stage binary segmentation, in E. Diday et al. (ed.): New Approaches in Classification and Data Analysis, Springer Verlag, 316-323.
20. Mola, F, Siciliano, R., 1996. L'analisi della stabilità nella segmentazione binaria a due stadi, XXXYIII Riunione Scientifica della Società Italiana di Statistica, Maggiolo Ed., Rimini,
21. Mola, F., Klaschka, J., Siciliano, R., 1996. Multinomial Logistic Regression for Classification Trees, in A. Prat (ed.): Proceedings of COMPSTAT '96, Physica-Verlag, Heidelberg, 373-378.
22. Mola, F., Siciliano, R., 1997. A Fast Splitting Procedure for Classification Trees, Statistics and Computing, 7, 208-216.
23. Mola, F., Siciliano, R., 1998. Visualizing Data in Tree-Structured Classification, in C. Hayashi et al. (eds.): Proceedings of the International Federation of Classification Society: Data Science, Classification and Related Methods, Springer-Verlag, Tokyo, 223-230.
24. Mola F., Siciliano, R., 1998. A General Splitting Criterion for Classification Trees. Metron (in press).
25. Moreno, E., Bertolino, F., Racugno, W. 1998. An intrinsic limiting procedure for model selection and hypotheses testing. Journal of the American Statistical Association, 93, 444, 1451-1460.
26. Moreno, E., Bertolino, F., Racugno, W. 1999.Default Bayesian analysis of the Beherens-Fisher problem. Journal of the Statistical Planning and Inference (in press).
27. Morgan, J.N., Sonquist, J.A., 1963. Problems in the analysis of survey data and a proposals. Journal of teh American Statistical Association, 66, 534-544.……….
28. Oliver, J.J., Hand, D.J., 1997. On Pruning and Averaging Decision Trees, Journal of Classification.
29. Quinlan, J.R., 1986. Induction of decision trees. MachineLearning, 1, 81-106.
30. Quinlan, J.R., 1993. C4.5: Programs for Empirical Learning. Morgan Kaufman, San Francisco.
31. Siciliano, R., 1998. Exploratory versus Decision Trees, in R. Payne(ed.): Proceedings of COMPSTAT '98 , invited paper, Physica Verlag, 113-124.
32. Siciliano, R., Mola, F., 1996. A Fast Regression Tree Procedure, in A. Forcina, R. Hatzinger, G. Galmacci (eds.): Statistical Modeling, Proceedings of the 11th International Workshop on Statistical Modeling, Graphos Ed., 15-19.
33. Siciliano, R., Mola, F., 1997. Multivariate Data Analysis and Modeling through Classification and Regression Trees, invited lecture for the Second World Conference of the International Association for Statistical Computing, in E.J. Wegman and S.P. Azen (eds.): "Computational Statistics and Data Analysis on the Eve of the 21st Century" (Pasadena, february 19-22, 1997), 29, 2, 503-510, Interface Foundation of North America; accepted for Computational Statistics & Data Analysis.
34. Siciliano, R., Mola, F., 1998. Ternary Classification Trees: a Factorial Approach, in M. Greenacre, J. Blasius (eds.): Visualization of Categorical Data, chap. 22, 311-324, Academic Press, 1998.
35. Siciliano, R., Mola, F., 1998. On the Behavior of Splitting Criteria for Classification Trees, in C. Hayashi et al. (eds.): Data Science, Classification and Related Methods, Springer Verlag, Tokyo, pp. 191-198.

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

Gli obiettivi che l'Unità Operativa Locale intende perseguire, in accordo con le altre Unità Operative Locali proponenti il progetto, possono così essere sintetizzati: a)valutazione dei recenti contributi in tema di classificazione e regressione ad albero; b) analisi della stabilità delle metodologie di classificazione e regressione ad albero proposte in letteratura e sviluppo di metodologie per la identificazione di alberi di taglia ottimale nell'ottica più generale della selezione del modello; c) definizione del software ideale e implementazione di un prototipo di software.
a) VALUTAZIONE DEI RECENTI CONTRIBUTI IN TEMA DI CLASSIFICAZIONE E REGRESSIONE AD ALBERO
Relativamente al primo punto, l'Unità Locale si propone di analizzare le nuove metodologie proposte in letteratura, confrontarle con le metodologie già esistenti e valutarne le caratteristiche sia in funzione dei criteri statistici previsti per la segmentazione (definizione delle regole di suddivisione dei nodi, delle regole di arresto, delle regole per la identificazone degli alberi di taglia ottimale), sia in termini di condizioni di applicabilità (tipo di variabile di risposta, numero di modalità della variabile di risposta se categorica, tipologia dei predittori), definendo una mappa che associ a tipologie di problemi tipologie di metodologie. E' per noi questo un
importante punto di partenza in quanto riteniamo, dalla esperienza maturata, che purtroppo molte delle metodologie proposte in letteratura sono particolarmente performanti se applicate a determinati tipi di dati e decisamente meno performanti se applicate ad altri tipi di dati. Riteniamo inoltre che la costituzione della mappa problemi/metodi può essere utile sia per il ricercatore esperto che per gli utenti meno esperti (si pensi che alcune delle più importanti metodologie proposte sono presenti in sistemi statistici di tipo general purpose).
b) ANALISI DELLA STABILITA' E SVILUPPO DI NUOVI METODI PER LA IDENTIFICAZIONE DI DI ALBERI DI TAGLIA OTTIMALE NELL'OTTICA DELLA SELEZIONE DEL MODELLO
Un secondo obiettivo programmato dall'Unità Operativa Locale, è l'analisi della stabilità delle metodologie di classificazione e regressione ad albero proposte in letteratura, problema che risulta essere strettamente legato a quello della selezione dell'albero di decisione ottimale da utilizzare a scopi di induzione.
In generale la stabilità di un metodo e dei risultati che esso fornisce risulta essere un problema di grande interesse per lo statistico; per quanto riguarda il caso della procedure di classificazione e regressione ad albero, la loro natura di strumenti essenzialmente euristici le rende intrinsecamente instabili, làddove la stabilità costituisce il requisito base per usare le strutture create per classificare/predire nuove osservazioni. Di fatto, uno degli inconvenienti principali legato a queste metodologie è la troppa dipendenza dai dati nel senso che parti consistenti delle strutture create sono sovraadattate ai dati stessi e quindi tendono a spiegare i dati piuttosto che non il fenomeno oggetto di studio e ciò si traduce nella impossibilità di considerare la regola di classificazione/predizione "generale" ovvero affidabile.
L'Unità Locale intende quindi strutturare lo studio della stabilità dei metodi sia verificando in che modo la natura dei predittori (cioè se di tipo numerico, ordinale o nominale) influenza l'individuazione della migliore suddivisione per un nodo, sia verificare se piccole fluttuazioni campionarie provocano cambiamenti sostanziali alle strutture degli alberi costruiti. Questo studio sarà affrontato sia nell'ottica dello studio delle funzioni di influenza, sia su analisi di dati reali e simulati, applicando tecniche di ricampionamento del tipo leave one out, Cross-Validation o Jakknife. In particolare l'attenzione sarà focalizzata sulla influenza che la stabilità (instabilità) dei metodi esercita sulla individuazione dell'albero di decisione ottimale.
Tale individuazione poggia sull'impiego di metodi di potatura (pruning) anche detti di semplificazione del c.d. albero totalmente espanso, che rimuovono in maniera retrospettiva alcune delle branche che risultano sovraadattate. tuttavia, i metodi proposti in letteratura tengono essenzialmente conto dell'aspetto della accuratezza di classificazione/predizione, ignorando l'aspetto principale della significatività della struttura creata che richiede evidentemente una valutazione di tipo diverso. L'Unità Operativa Locale intende affrontare questo problema nell'ottica più generale della selezione del modello, intendendo una regola di classificazione e/o di regressione come appunto un modello predittivo/decisionale per categorie o classi di valori della variabile dipendente. A atl fine saranno impiegati sia strumento della inferenza classica che di quella bayesiana.
c) DEFINIZIONE DEL SOFTWARE IDEALE
Il terzo obiettivo dell'Unità Operativa Locale è la definizione di un software ideale per la segmentazione che contempli non solo le più importanti metodologie proposte in letteratura, ma che preveda un insieme di tool per la definizione di regole di split create ad hoc dal ricercatore, di regole di arresto alternative a quelle previste dai metodi originali, di criteri per la semplificazione degli alberi basate su funzioni definite dall'utente. Si tratta più propriamente di un laboratorio per sperimentare "proprie" procedure di segmentazione, limitandosi a specificare solo alcuni criteri di base e sfruttando le fasi comuni a tutte le metodologie indipendentemente dalle scelte(trattamento dei nodi in ambiente informatico, definizione delle combinazioni di categorie dei predittori per ogni suddivisione, allocazione dei casi nei nodi figli, controllo delle condizioni minime per la ulteriore suddivisione di un nodo, ecc.).
L'Unità Operativa intende inoltre predisporre un prototipo di software con le caratteristiche su esposte, in ambiente di programmazione Matlab, che permetta le definizione di regole di suddivisione definite dal ricercatore.

Testo inglese

The objectives of this local unit can be summarized as follows: 1) evaluation of the most recent contributions in the field of classification and regression trees; 2) stability analysis of the tree based methodologies proposed in literature and proposal of methods for selecting the optimal tree structure from the point of view of statistical model selection by using inferential procedures; 3) definition of an "ideal" software for tree growing and implementation of a prototype of such a software.
TASK 1: CRITICAL EVALUATION OF THE MOST RECENT CONTRIBUTIONS CONCERNING TREE BASED METHODOLOGIES
The local operative unit intends to analyze the recent classification/regression tree methodologies proposed in literature in order to evaluate their features either in terms of the typical steps of a segmentation procedure (splitting rules, stopping rules, semplification methods) or in terms of the conditions for their application (type of response variable, type of esplicative variables etc.). The aim is to define a sort of map which associate typologies of practical problems with typologies of methodologies. Actually, the practical experience has showed that the performance of tree based methodologies are strictly related to the type of problem faced (quality of the dat, ddomains etc.). Such a map will be helpful not only to the expert researcher but mainly to the non expert user, and many methodologies are implemented in general purposes statistical softwares.
TASK 2: STABILITY ANALYSIS AND PROPOSAL OF NEW METHODS FOR SELECTING THE OPTIMAL TREE STRUCTURE
A second task of this local unit is represented by the evaluation of the stability of tree based methodologies, problem which is related to that of selecting the optimal decision tree to be used for inductive tasks. In general, the stability of a method as well as of its results is of great importance to statisticians; concerning the case of classification and regression tree procedures, their being euristic tools make them intrinsically unstable, but stability is the basis for using tree structures classify/predict new observations. Actually, one of the main drawbacks of tree based methods is the dependence from the data used in the tree growing phase, in the sense that some of the branches of the tree structure and especially the terminal ones, overfit the data i.e., tend to explain the data rather than the investigated phenomenon this means that the classification/prediction rule cannot be considered general, i.e. reliable.
The basic idea of the local unit is to verify either if the nature of the explanatory variables affects the choice of the split at each node or if small perturbations of the data can cause changes in classifier/predictor constructed. To this aim resampling techniques such as Boostrap, Jacknife and leave one out will be employed. In particular the attention will be focused on the link between stability (instability) and the definition of the best decision tree.
The definition of the best decision tree relies on pruning/simplifying the so called totally expanded tree, removing the branches which overfit the data. Actually, the semplification methods proposed in literature take into account the accuracy as main criterion for evaluating a decision tree regardless of the significance of the created structure which require a different evaluation. The local unit intends to face this problem as it were a problem of statistical model selection, by applying either classical inferential procedures or bayesian ones.

TASK 3: DESIGN OF THE "IDEAL" SOFTWARE
The third task of the local unit is to design the "ideal" software for segmentation which includes not only the most important methodologies proposed in literature but also a set of tools for the definition of:1) splitting rulus created ad hoc by the resercher; 2) stopping rules alternative to the traditional ones; 3) pruning methods based on simplification function defined by the user.
This software might by understood as a laboratory for self-defined segmentation procudures, based on several tools which correspond to the fhases shared by all the segmentation methodologies.
Thae local unit will implement (in Matlab environment) a prototype of this software

2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese
1.  1998Personal computer pentium II 200 MHz  Personal computer pentium II 200 MHz 
2.  1998Stampante a getto di inchiostro  Inkjet printer device 
3.     
4.     
5.     


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 10  5.165  Acquisto libri, manuali e software specialistico (ID3). 2 Personal Computer pentium II 300 MHz e una stampante.  Purchase of books, handbooks and specialized software (ID3). Purchase of 2 Personal Computer (Pentium II/ 300 MHz) and a printer device. 
Grandi Attrezzature        
Materiale di consumo e funzionamento 1.549  Carta per fotocopie e stampanti laser; dischetti, toner.  Purchase of paper for laser printer and photocopies. Purchase of diskettes and rewriting CD. 
Spese per calcolo ed elaborazione dati 1.033  Acquisizione e trattamento dati.  Data processing. 
Personale a contratto        
Servizi esterni 2.582  Stampa monografia.  Cost for printing monography. 
Missioni 20  10.329  Sono prevsiste 8 missioni per una media di 2,5 milioni a missione.  Estimated cost for 8 partecipations to meetings (with an average cost per partecipation of 2.5 millions). 
Altro        


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 40  20.658 
 
Costo minimo per garantire la possibilità di verifica dei risultati 35  18.076 
 
Fondi disponibili (RD) 0   
 
Fondi acquisibili (RA) 12  6.197 
 
Cofinanziamento richiesto al MURST 28  14.461 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università          
Dipartimento          
MURST (ex 40%)          
CNR          
Unione Europea          
Altro          
TOTAL        

4.1.1 Altro


4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università 2000   in fase di presentazione  2.582   
Dipartimento 1999   in fase di presentazione  3.615   
CNR          
Unione Europea          
Altro          
TOTAL     12  6.197   

4.2.1 Altro


4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 02/04/1999 11:23:46