MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 811 del 3 dicembre 1998)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 1999 - prot. 9913182289_003


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Scienze economiche e statistiche

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

MODELLI STATISTICI DI CLASSIFICAZIONE E DI SEGMENTAZIONE PER L'ANALISI DI DATI STRUTTURATI IN FORMA COMPLESSA: METODOLOGIE, SOFTWARE E APPLICAZIONI

Testo inglese

STATISTICAL MODELS FOR CLASSIFICATION AND SEGMENTATION OF COMPLEX DATA STRUCTURES: METHODOLOGIES, SOFTWARE AND APPLICATIONS

1.4 Coordinatore Scientifico del Programma di Ricerca

SICILIANO ROBERTA  
(cognome) (nome)  
Università degli Studi di NAPOLI "Federico II" Facoltà di ECONOMIA
(università) (facoltà)
S01A Dipartimento di MATEMATICO-STATISTICO
(settore scient.discipl.) (Dipartimento/Istituto)


r.sic@dmsna.dms.unina.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

VERDE ROSANNA  
(cognome) (nome)  


Professore associato 10/04/1966 VRDRNN66D50F839K
(qualifica) (data di nascita) (codice di identificazione personale)

Seconda Università degli Studi di NAPOLI Facoltà di ECONOMIA
(università) (facoltà)
S01A Istituto Ricerche aziendali e metodologie quantitative
(settore scient.discipl.) (Dipartimento/Istituto)


0823/622988 0823/622984 VERDE@DMS.UNINA.IT
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

S01A


1.7 Parole chiave

Testo italiano
ANALISI DI DATI SIMBOLICI ; CLASSIFICAZIONE ; DISCRIMINAZIONE

Testo inglese
SYMBOLIC DATA ANALYSIS ; CLASSIFICATION ; DISCRIMINATION


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Prof. associato di Statistica - Facoltà di Economia, Seconda Università di Napoli.
1995/98 - ricercatore in Statistica, Dip. di Mat. e Statistica, Univ. di Napoli "Federico II".
1994/95 - post-dottorato sul progetto: Classificazione e Segmentazione Fuzzy, Univ. di Napoli “Federico II”.
1993 - dottorato di ricerca in Stat. Comp. ed App. (V ciclo),
Soggiorni all'estero:
3/92 - stage presso il TNO Inst. of Preventive Health Care of Leiden (The Netherlands), tema di ricerca: L’Analisi Non Lineare dei Dati.
6-7/94 e 3-9/96 - attività di spec. e perfezionamento INRIA - Rocquencourt (FRANCIA), tema di ricerca: Analisi dei Dati Simbolici.
Campi di ricerca:
Analisi dei Dati
Tecniche per l'analisi di dati di preferenza
Analisi dei Dati Simbolici
Basi di Dati Relazionali e Dati simbolici
Partecipazione a progetti:
europeo Esprit ISO-3D - (dal 1998)
coop. scient. tra i Paesi europei e dell’America Latina - ALFA (1997-1999).
europeo Esprit SODAS - Symbolic Official Data Analysis System (1996-1998).
resp. Scient. ex quota 60% - Seconda Università di Napoli: Tecniche di Analisi Progetti nazionali:
Analisi dei Dati e Statistica Computazionale - (resp. N.C. Lauro) - CNR
Metodi statistici e informatici per la produzione dei sistemi cati, capi, casi - resp. nazionale L. Fabbris, resp. DMS, S.Balbi - MURST n. 685/96
Metodi di selezione e trattamento dei predittori qualitativi nell’analisi discriminante - resp. R. Siciliano - MURST
Nuovi strumenti CA per la progettazione e il controllo della qualità di dati di indagine - resp. S. Balbi - CNR
Membro
dal 1999 della Societé Française de Statistique;
dal 1992 della SIS e dell’IASC.
dal 1990 redattrice della rivista "Statistica applicata".
Attività didattiche:
dal 1995 presso l'Univ. di Napoli "Federico II"
corsi e seminari in:
Statistica
Analisi dei dati
Calcolo delle probabilità
dal 1998 presso la Seconda Univ. di Napoli, corsi in:
Statistica metodologica
Statistica aziendale

Testo inglese

Associated professor in Statististics - “Seconda Università di Napoli” (since 1998)
(1995-98)Researcher in Statistics, Univ. of Naples Federico II
(1994-95)Post-doctoral scholarship holder, Univ. of Naples “Federico II” Research project: Classification and Segmentation fuzzy.
(1993) Doctorate degree in Computational Statistics
Stages of research abroad:
(6-7/94 and 3-9/96)INRIA, Paris,Research project: Symbolic Data Analysis.
(3/92)TNO Institute of Preventive Health Care, Leiden, Netherlands: Fuzzy Coding in Data Analysis
Fields of research:
Multivariate Analysis (Cluster Analysis, Discriminant Analysis, Factorial anlysis)
Symbolic Data Analysis
Non linear Multivariate Data Analysis
Factorial Analysis of Categorical Data
European projects partecipation:
Esprit ISO-3D (1998)
Esprit SODAS (1996-1999)
ALFA (1997-1999).
National projects partecipation:
Analisi dei Dati e Statistica Computazionale - (resp. N.C. Lauro) - CNR
Metodi statistici e informatici per la produzione dei sistemi cati, capi, casi -resp. L. Fabbris, resp. DMS, S.Balbi - MURST n. 685/96
Metodi di selezione e trattamento dei predittori qualitativi nell’analisi discriminante - resp. R. Siciliano - MURST
Nuovi strumenti computer assisted per la progettazione e il controllo della qualità di dati di indagine - resp. S. Balbi - CNR
Member of:
SIS and IASC (since 1992)
Societé Française de Statistique (since 1999)
Editorial Staff of the review "Statistica Applicata" (since 1990)
Teaching records:
Univ. of Naples Federico II (since 1995)
courses and seminaries in
Statistics
Data analysis
Probability theory
Second Univ. of Naples (since 1998)
courses in:
Methodological statistics
Business statistics

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. VERDE R., BALBI S., "Structuring Questionnaires as Symbolic Objects: A New Tool for Improving Data Quality" , (1998) accettato per la presentazione e pubblicazione negli Atti del Convegno Internazionale: NTTS’98 - New Techniques & Tecnologies for Statistics, Sorrento, Novembre 1998 .
  2. VERDE R., PALUMBO F., "Non Symmetrical Factorial Discriminant Analysis for symbolic objects" , Rivista: Applied Stochastic Models and Data Analysis Journal , (1997) in corso di pubblicazione .
  3. VERDE R., FRANCISCO DE A.T. DE CARVALHO, "Dependence Rules Influence on Factorial representation of Boolean Symbolic Objects" , (1998) KESDA’98 .
  4. VERDE R., "Basi di Dati Relazionali e Oggetti Simbolici: Problemi di selezione e di classificazione dei descrittori" , (1998) in corso di pubblicazione in Atti della XXXIII Riunione della Società Italiana di Statistica, Sorrento, Aprile 1998 .
  5. VERDE R., "Symbolic object decomposition by factorial techniques" , (1997) ” In Atti del Workshop “Franco-Indian”, LISE-CEREMADE, Université Paris IX Dauphine, Settembre 1997 .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  VERDE  ROSANNA  Ricerche aziendali e metodologie quantitative  Prof. associato  S01A  2  2
2  LOMBARDO  ROSARIA  Ricerche aziendali e metodologie quantitative  Ricercatore    2  2
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
1999 2000
 
1  BALBI  SIMONA  NAPOLI  MATEMATICO-STATISTICO  Prof. associato  S01A  1  1
2  PALUMBO  FRANCESCO  MACERATA  ISTITUZIONI ECONOMICHE E FINANZIARIE  Ricercatore  S01A  1  1
 

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. BALZANO  SIMONA  ISTITUTO ONCOLOGICO ITALIANO - MILANO  BORSISTA 
2. BENEDETTO  MARIA  UNIVERSITA' FEDERICO II DI NAPOLI  DOTTORANDO 
3. GIORDANO  GIUSEPPE  UNIVERSITA' DI MACERATA  POST-DOTTORATO 
4. IRPINO  ANTONIO  UNIVERSITA' FEDERICO II DI NAPOLI  DOTTORANDO 


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

TECNICHE DI CLASSIFICAZIONE PER L'ANALISI E LA STRUTTURAZIONE DI DATI COMPLESSI

Testo inglese

CLASSIFICATION TECHNIQUES FOR ANALYSING AND BUILDING THE STRUCTURE OF COMPLEX DATA

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

La crescente complessità di informazione di cui oggi si dispone e le moderne architetture dei database, capaci di gestire grosse moli di dati permettono di riferirsi al dato, non più come semplice unità elementare, ma come entità complessa in grado di tener conto di relazioni tra variabili (tassinomie, dipendenze condizionate), della variabilità del dato nel tempo o nello spazio, di più valori che ciascuna variabile più presentare per ogni osservazione, di eventuali valutazioni esperte.
La tendenza che si rivela in diversi campi, dal marketing alla medicina, all'economia, alle scienze sociali, di trattare dati complessi richiede, pertanto, la messa a punto di tecniche per la strutturazione per la definizione e l'analisi di tali tipi di dati.
Una prima soddisfacente formulazione di dati complessi è stata formita da Diday (1987) in termini di "oggetti simbolici".Nel corso dell’ultimo decennio l’oggetto simbolico si è arricchito di nuovi significati legati ad una definizione concettuale del dato. Tra i principali vantaggi derivanti dal considerare dati simbolici in luogo di dati tradizionali vi è innanzitutto quello di poter trattare le informazioni, intese a un livello concettuale più elevato, direttamente attraverso le nuove tecniche sviluppate per l'analisi dei dati simbolici (ADS) e, dal momento che le informazioni strutturate sono alla base di tutti i processi decisionali, questa possibilità di trattamento diretto dei dati complessi si rivela particolarmente interessante.Lo sviluppo di queste nuove metodologie statistiche è oggetto di progetti di ricerca europei quali, ad esempio, l’Esprit SODAS - Symbolic Official Data Analysis System (1997/99), rivolto non solo alla realizzazione di metodologie e software per l’ADS, ma anche alla validazione delle tecniche proposte su dati di Statistiche Ufficiali. Partecipano, infatti, al progetto oltre a centri di ricerca universitari anche Enti Nazionali di Statistica (ONS - Gran Bretagna, INE - Portogallo, EUSTAT - Spagna). Sul successo di questo primo progetto è stato recentemente avviato un nuovo progetto (Esprit ISO3D) rivolto all’applicazione delle metodologie per l’ADS su dati aziendali, tra i quali quelli della RAI Italiana.
Gli sviluppi metodologici nell’ambito dell’ADS e i principali risultati applicativi sono già da tempo oggetto di comunicazioni a convegni internazionali quali OSDA95 - Parigi; OSDA97 - Darmstadt (Germania) - KESDA97 - Lussemburgo, NTTS98 - Sorrento e a giornate di studio come le Journées Symbolique et Numérique (1992, 1994, 1996) LISE-CEREMADE Université Paris IX Dauphine e l’ Indo - French Workshop on Symbolic Data Analysis and its Applications (1997)Univ. Paris IX Dauphine.
In recenti convegni nazionali sono state dedicate sessioni alla presentazione di tecniche per l’ADS, ad esempio SIS98 - Sorrento, CLADAG99 - Roma.

Testo inglese

The increasing complexity of information and the modern architectures of databases, able to manage large sets of data, allow us to refer to the datum, not only as simple unit, but as complex entity, in order to consider the relationships among variables (taxonomies, conditional dependences), the variability of the datum along time or in space, the different values that each variable can assumes for each observation or the possible evaluations or experts knowledge.

The tendency that is showing up in different fields, from marketing to medicine, from economics to social sciences, of treating complex data, requires the tuning up of techniques for the structuration, the definition and the analysis of such kinds of data.

A first satisfactory formulation of complex data has been done by Diday (1987) in terms of "symbolic objects". During the last decade, the symbolic object has been enriched of new meanings, which are tied to a conceptual definition of the datum. Among the main advantages deriving from considering symbolic data, in place of traditional data, there is that consisting in being able to treat information, at a more elevated conceptual level, directly through the new techniques developed for the symbolic data analysis (SDA) and, since that structured information is at the base of all the decisional processes, the possibility of a direct treatment of the complex data is revealed particularly interesting. The developement of these new statistical methodologies is the aim of some European research projects such as, for example, the Esprit SODAS - Symbolic Official Data Analysis System (1997/99), whose aim is not only the realization of methodoligies and software for the Symbolic Data Analysis, but also the validation of the proposed techniques by applying them to the Official Statistics Data. In fact, among the partecipants at these projects there are both universitary research centers and National Statistics Institutes (ONS - Great Britain, INE - Portugal, EUSTAT - Spain). On the trace of the success of this first project, a new one has been started (Esprit ISO3D). This last aims to apply the methodologies of the Symbolic Data Analysis to business data, such as the Italian RAI ones.
The methodological developments in the domain of the Symbolic Data Analysis and the principal results of the applications have been for some time object of contributions at international meetings, such as OSDA95 - Paris; OSDA97 - Darmstadt, KESDA97 - Luxembourg, NTTS98 - Sorrento, and at workshops such as Journées Symbolique et Numérique (1992, 1994, 1996) LISE-CEREMADE Université Paris IX Dauphine and the Indo - French Workshop on Symbolic Data Analysis and its Applications (1997)Univ. Paris IX Dauphine.
Specific sessions on the SDA techniques have been dedicated in recent national meetings, as SIS98 - Sorrento, CLADAG99 - Roma.

2.2.a Riferimenti bibliografici

Diday E. (1987), “From Data to Knowledge, Boolean, Probabilistic, Possibilist and Belief objects for symbolique data analysis”, Tutorial at IV Conference of International Federation of Classification Societes, Paris 1993.
Induction Symbolique-Numérique. CEPADUES Edition, 1991.
New Approaches in Classification and Data Analysis. E. Diday et al. eds., Springer Verlag, 1996.
Ordinal and Symbolic Data Analysis. E. Diday, Y. Lechevallier and O. Opiz eds., Springer Verlag, 1996.
SODAS Scientific Report. H.H. Boch ed. Springer Verlag (in corso di pubblicazione).
Diday E., Emilion R., Hillali Y. (1996), "Symbolic Data Analysis of Probabilistic objects by capacities and credibilities". Atti della XXXVIII Riunione SIS. Rimini.
Gettler-Summa M., "Factorial axis interpretation by symbolic objects", Acts des
Journées Symbolique-Numérique. Ed. E. Diday, Y. Kondratoff, S. Pinson. Univ. Paris IX-Dauphine.
Lebart L., Morineau A. Piron M. (1995), "Statistique Exploratoire Multidimensionelle", Dunod, Paris.
Michalski R.S., Diday E., Stepp R.E. (1981), "A recent advances in data analysis: clustering objects into classes charaterized by conjunctive concepts", Progress in Pattern Recognition vol. 1, L. Kanal and A. Rosenfeld Eds.
Chavent M., Stéphan V. (1998), "From generalization to clustering in Relational Database context", KESDA 98, Luxembourg, (in corso di pubblicazione).
Chouakria A., Diday E. Cazes P. (1998), "An improved Factorial representation of Symbolic Objects", KESDA 98, Luxembourg, (in corso di pubblicazione).

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

La ricerca intende orientarsi verso due aspetti particolarmente interessanti:
Il primo si riferisce all'approfondimento di tecniche di classificazione da basi di dati o da dati di inchiesta, al fine di individuare strutture coerenti, definite sulla base di tipologie comportamentali (tipologie di consumatori/utenti, categorie socio professionali, ecc.).
La coerenza nella definizione di dati complessi, estratti, ad esempio, da basi di dati, è da mettere in relazione con l'architettura del sistema di gestione dell'informazione, nel caso di database relazionali, così come proposto in recenti lavori (Csernel, De Carvalho, 1998; Verde, De Carvalho, 1998) e di caratterizzare tali strutture di dati sulla base di un numero ristretto di descrittori che ben rappresentino le differenti tipologie.
A tal proposito, va affrontato il problema della selezione dei descrittori al fine di individuare quelli che al meglio permettono di definire delle regole di classificazione di osservazioni (tuple) e di definire, quindi, a livello concettuale un oggetto simbolico.
Accanto all'analisi di alcune proposte avanzate nell'ambito delle tecniche di partizione di oggetti simbolici (Lebbe, Vigne, 1992), si intende procedere a definire nuove strategie basate su misure di omogeneità tra dati complessi.
Il secondo aspetto si rivolge all'interpretazione complessa di risultati di analisi esplorative di dati tradizionali. In quest'ambito, si intende caratterizzare classi o tipologie attraverso opportune regole di discriminazione che consentano di individuare quelle modalità che maggiormente hanno contribuito alla separazione dei gruppi. In questa direzione particolarmente efficace si è rivelata l'applicazione di una recente tecnica, il Marcaggio semantico (Gettler Summa et al., 1992), alla descrizione di segmenti di mercato individuati sulla base di analisi su dati preferenza (Verde, Giordano, Gettler Summa, 1997). Un'ulteriore proposta è quella dell'utilizzo di opportune tecniche di classificazione "non rigida" al fine di individuare, ad esempio nello stesso contesto di analisi di mercato, segmenti trasversali, sia reali che potenziali o nuove nicchie di mercato.
La strutturazione di dati complessi trova quindi un immediato campo applicativo nel soddisfare esigenze di descrizione di segmenti di mercato nell’ambito del marketing, nella formulazione di modelli di comportamento o di utilità nell’ambito dell’analisi di dati di preferenza, nell'individuazione di profili di utenza nell’ambito del credit scoring.
Articolazione delle fasi di ricerca.
1° anno
ricerca bibliografica e definizione dello stato dell'arte (3 mesi)
sviluppo metodologico
primo sviluppo software
2° anno
completamento dello sviluppo software
validazione delle metodologia proposta attraverso applicazione su dati reali.

Testo inglese

The research aims to investigate two particularly interesting objects:

The first one is related to the deepening of techniques of classification from bases of data or from data of investigation, with the purpose to individualize coherent structures, defined on the base of behavioral typologies (typologies of consumers, professional categories, etc.).

The coherence in the definition of complex data, that could be extracted, for instance, from databases, is to put in relationship with the architecture of the information management system, in the case of relational database, as proposed in recent works (Csernel, De Carvalho, 1998; Green, De Carvalho, 1998) and to characterize such structures of data on the base of a narrow number of descriptors that well represents the different typologies.

From this point of view, the problem of the descriptors selection must be faced with the purpose of individualizing those descriptors allowing to define as well as possible some rules of classification of observations (tuple) and, therefore, at a conceptual level, symbolic objects.

Close to the analysis of some advanced proposals made within the techniques of partition of symbolic objects (Lebbe, Vineyards, 1992), it is intended to proceed with the definition of new strategies based on measures of homogeneity among complex data.

The second object is turned to the complex interpretation of the exploratory analysis results from traditional data. In this domain, it is intended to characterize classes or typologies through suitable rules of discrimination that allow to individualize those categories that have mostly contributed to the separation of the groups. In this particularly effective direction it is revealed the application of a recent technique, such as the semantic marking (Gettler-Summa et to the., 1992) for the description of segments of market individualized on the base of preference data analysis (Green, Jordan, Gettler-Summa, 1997). A further proposal is that of using suitable techniques of non rigid classification with the purpose to individualize, for instance, in the same context of the market analysis, transversal segments, real or potential ones, or new niche markets.

Therefore, the structuration of complex data finds an immediate applicative field in the satisfaction of the needs of description of market segments in the domain of marketing, or in the formulation of models of behavior or utility in the domain of analysis of preference data, or in the individualization of profiles of users in the domain of credit scoring.

Articulation of the phases of search.

1st year

- bibliographical research and definition of the state of the art (3 months)
- methodological development
- first software development

2nd year

- completion of the software development
- validation of the methodology proposed through application on real data.

2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 1.549  LIBRI, SOFTWARE  BOOKS, SOFTWARE 
Grandi Attrezzature        
Materiale di consumo e funzionamento        
Spese per calcolo ed elaborazione dati 516  Elaborazione dati  Data processing 
Personale a contratto        
Servizi esterni        
Missioni 1.549  Conferenze  Conferences 
Altro        


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 7  3.615 
 
Costo minimo per garantire la possibilità di verifica dei risultati 6  3.099 
 
Fondi disponibili (RD) 2  1.033 
 
Fondi acquisibili (RA) 0   
 
Cofinanziamento richiesto al MURST 5  2.582 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università          
Dipartimento 1998   1.033     
MURST (ex 40%)          
CNR          
Unione Europea          
Altro          
TOTAL   1.033     

4.1.1 Altro


4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università          
Dipartimento          
CNR          
Unione Europea          
Altro          
TOTAL        

4.2.1 Altro


4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 30/03/1999 19:51:52