Testo italiano
MODELLI STATISTICI DI CLASSIFICAZIONE E DI SEGMENTAZIONE PER L'ANALISI DI DATI STRUTTURATI IN FORMA COMPLESSA: METODOLOGIE, SOFTWARE E APPLICAZIONITesto inglese
STATISTICAL MODELS FOR CLASSIFICATION AND SEGMENTATION OF COMPLEX DATA STRUCTURES: METHODOLOGIES, SOFTWARE AND APPLICATIONS
SICILIANO | ROBERTA | |
---|---|---|
(cognome) | (nome) | |
Università degli Studi di NAPOLI "Federico II" | Facoltà di ECONOMIA | |
(università) | (facoltà) | |
S01A | Dipartimento di MATEMATICO-STATISTICO | |
(settore scient.discipl.) | (Dipartimento/Istituto) |
r.sic@dmsna.dms.unina.it |
---|
(E-mail) |
VERDE | ROSANNA | |
---|---|---|
(cognome) | (nome) |
Professore associato | 10/04/1966 | VRDRNN66D50F839K |
---|---|---|
(qualifica) | (data di nascita) | (codice di identificazione personale) |
Seconda Università degli Studi di NAPOLI | Facoltà di ECONOMIA |
---|---|
(università) | (facoltà) |
S01A | Istituto Ricerche aziendali e metodologie quantitative |
(settore scient.discipl.) | (Dipartimento/Istituto) |
0823/622988 | 0823/622984 | VERDE@DMS.UNINA.IT |
---|---|---|
(prefisso e telefono) | (numero fax) | (E-mail) |
S01A |
Testo italiano
ANALISI DI DATI SIMBOLICI ; CLASSIFICAZIONE ; DISCRIMINAZIONE
Testo inglese
SYMBOLIC DATA ANALYSIS ; CLASSIFICATION ; DISCRIMINATION
Testo italiano
Prof. associato di Statistica - Facoltà di Economia, Seconda Università di Napoli.
1995/98 - ricercatore in Statistica, Dip. di Mat. e Statistica, Univ. di Napoli "Federico II".
1994/95 - post-dottorato sul progetto: Classificazione e Segmentazione Fuzzy, Univ. di Napoli “Federico II”.
1993 - dottorato di ricerca in Stat. Comp. ed App. (V ciclo),
Soggiorni all'estero:
3/92 - stage presso il TNO Inst. of Preventive Health Care of Leiden (The Netherlands), tema di ricerca: L’Analisi Non Lineare dei Dati.
6-7/94 e 3-9/96 - attività di spec. e perfezionamento INRIA - Rocquencourt (FRANCIA), tema di ricerca: Analisi dei Dati Simbolici.
Campi di ricerca:
Analisi dei Dati
Tecniche per l'analisi di dati di preferenza
Analisi dei Dati Simbolici
Basi di Dati Relazionali e Dati simbolici
Partecipazione a progetti:
europeo Esprit ISO-3D - (dal 1998)
coop. scient. tra i Paesi europei e dell’America Latina - ALFA (1997-1999).
europeo Esprit SODAS - Symbolic Official Data Analysis System (1996-1998).
resp. Scient. ex quota 60% - Seconda Università di Napoli: Tecniche di Analisi Progetti nazionali:
Analisi dei Dati e Statistica Computazionale - (resp. N.C. Lauro) - CNR
Metodi statistici e informatici per la produzione dei sistemi cati, capi, casi - resp. nazionale L. Fabbris, resp. DMS, S.Balbi - MURST n. 685/96
Metodi di selezione e trattamento dei predittori qualitativi nell’analisi discriminante - resp. R. Siciliano - MURST
Nuovi strumenti CA per la progettazione e il controllo della qualità di dati di indagine - resp. S. Balbi - CNR
Membro
dal 1999 della Societé Française de Statistique;
dal 1992 della SIS e dell’IASC.
dal 1990 redattrice della rivista "Statistica applicata".
Attività didattiche:
dal 1995 presso l'Univ. di Napoli "Federico II"
corsi e seminari in:
Statistica
Analisi dei dati
Calcolo delle probabilità
dal 1998 presso la Seconda Univ. di Napoli, corsi in:
Statistica metodologica
Statistica aziendaleTesto inglese
Associated professor in Statististics - “Seconda Università di Napoli” (since 1998)
(1995-98)Researcher in Statistics, Univ. of Naples Federico II
(1994-95)Post-doctoral scholarship holder, Univ. of Naples “Federico II” Research project: Classification and Segmentation fuzzy.
(1993) Doctorate degree in Computational Statistics
Stages of research abroad:
(6-7/94 and 3-9/96)INRIA, Paris,Research project: Symbolic Data Analysis.
(3/92)TNO Institute of Preventive Health Care, Leiden, Netherlands: Fuzzy Coding in Data Analysis
Fields of research:
Multivariate Analysis (Cluster Analysis, Discriminant Analysis, Factorial anlysis)
Symbolic Data Analysis
Non linear Multivariate Data Analysis
Factorial Analysis of Categorical Data
European projects partecipation:
Esprit ISO-3D (1998)
Esprit SODAS (1996-1999)
ALFA (1997-1999).
National projects partecipation:
Analisi dei Dati e Statistica Computazionale - (resp. N.C. Lauro) - CNR
Metodi statistici e informatici per la produzione dei sistemi cati, capi, casi -resp. L. Fabbris, resp. DMS, S.Balbi - MURST n. 685/96
Metodi di selezione e trattamento dei predittori qualitativi nell’analisi discriminante - resp. R. Siciliano - MURST
Nuovi strumenti computer assisted per la progettazione e il controllo della qualità di dati di indagine - resp. S. Balbi - CNR
Member of:
SIS and IASC (since 1992)
Societé Française de Statistique (since 1999)
Editorial Staff of the review "Statistica Applicata" (since 1990)
Teaching records:
Univ. of Naples Federico II (since 1995)
courses and seminaries in
Statistics
Data analysis
Probability theory
Second Univ. of Naples (since 1998)
courses in:
Methodological statistics
Business statistics
Nº | Cognome | Nome | Dipart./Istituto | Qualifica | Settore scient. |
Mesi uomo |
|
---|---|---|---|---|---|---|---|
1999 | 2000 | ||||||
1 | VERDE | ROSANNA | Ricerche aziendali e metodologie quantitative | Prof. associato | S01A | 2 | 2 |
2 | LOMBARDO | ROSARIA | Ricerche aziendali e metodologie quantitative | Ricercatore | 2 | 2 | |
1.10.2 Personale universitario di altre Università
Nº | Cognome | Nome | Università | Dipart./Istituto | Qualifica | Settore scient. |
Mesi uomo |
|
---|---|---|---|---|---|---|---|---|
1999 | 2000 | |||||||
1 | BALBI | SIMONA | NAPOLI | MATEMATICO-STATISTICO | Prof. associato | S01A | 1 | 1 |
2 | PALUMBO | FRANCESCO | MACERATA | ISTITUZIONI ECONOMICHE E FINANZIARIE | Ricercatore | S01A | 1 | 1 |
1.10.3 Titolari di assegni di ricerca
Nº | Cognome | Nome | Dipart./Istituto | Anno del titolo | Mesi uomo |
---|
Nº | Cognome | Nome | Dipart./Istituto | Anno del titolo | Mesi uomo |
---|
Nº | Qualifica | Costo previsto | Mesi uomo |
---|
Nº | Cognome | Nome | Dipart./Istituto | Qualifica | Mesi uomo |
---|---|---|---|---|---|
1. | BALZANO | SIMONA | ISTITUTO ONCOLOGICO ITALIANO - MILANO | BORSISTA | 2 |
2. | BENEDETTO | MARIA | UNIVERSITA' FEDERICO II DI NAPOLI | DOTTORANDO | 2 |
3. | GIORDANO | GIUSEPPE | UNIVERSITA' DI MACERATA | POST-DOTTORATO | 1 |
4. | IRPINO | ANTONIO | UNIVERSITA' FEDERICO II DI NAPOLI | DOTTORANDO | 2 |
Testo italiano
TECNICHE DI CLASSIFICAZIONE PER L'ANALISI E LA STRUTTURAZIONE DI DATI COMPLESSITesto inglese
CLASSIFICATION TECHNIQUES FOR ANALYSING AND BUILDING THE STRUCTURE OF COMPLEX DATA
Testo italiano
La crescente complessità di informazione di cui oggi si dispone e le moderne architetture dei database, capaci di gestire grosse moli di dati permettono di riferirsi al dato, non più come semplice unità elementare, ma come entità complessa in grado di tener conto di relazioni tra variabili (tassinomie, dipendenze condizionate), della variabilità del dato nel tempo o nello spazio, di più valori che ciascuna variabile più presentare per ogni osservazione, di eventuali valutazioni esperte.
La tendenza che si rivela in diversi campi, dal marketing alla medicina, all'economia, alle scienze sociali, di trattare dati complessi richiede, pertanto, la messa a punto di tecniche per la strutturazione per la definizione e l'analisi di tali tipi di dati.
Una prima soddisfacente formulazione di dati complessi è stata formita da Diday (1987) in termini di "oggetti simbolici".Nel corso dell’ultimo decennio l’oggetto simbolico si è arricchito di nuovi significati legati ad una definizione concettuale del dato. Tra i principali vantaggi derivanti dal considerare dati simbolici in luogo di dati tradizionali vi è innanzitutto quello di poter trattare le informazioni, intese a un livello concettuale più elevato, direttamente attraverso le nuove tecniche sviluppate per l'analisi dei dati simbolici (ADS) e, dal momento che le informazioni strutturate sono alla base di tutti i processi decisionali, questa possibilità di trattamento diretto dei dati complessi si rivela particolarmente interessante.Lo sviluppo di queste nuove metodologie statistiche è oggetto di progetti di ricerca europei quali, ad esempio, l’Esprit SODAS - Symbolic Official Data Analysis System (1997/99), rivolto non solo alla realizzazione di metodologie e software per l’ADS, ma anche alla validazione delle tecniche proposte su dati di Statistiche Ufficiali. Partecipano, infatti, al progetto oltre a centri di ricerca universitari anche Enti Nazionali di Statistica (ONS - Gran Bretagna, INE - Portogallo, EUSTAT - Spagna). Sul successo di questo primo progetto è stato recentemente avviato un nuovo progetto (Esprit ISO3D) rivolto all’applicazione delle metodologie per l’ADS su dati aziendali, tra i quali quelli della RAI Italiana.
Gli sviluppi metodologici nell’ambito dell’ADS e i principali risultati applicativi sono già da tempo oggetto di comunicazioni a convegni internazionali quali OSDA95 - Parigi; OSDA97 - Darmstadt (Germania) - KESDA97 - Lussemburgo, NTTS98 - Sorrento e a giornate di studio come le Journées Symbolique et Numérique (1992, 1994, 1996) LISE-CEREMADE Université Paris IX Dauphine e l’ Indo - French Workshop on Symbolic Data Analysis and its Applications (1997)Univ. Paris IX Dauphine.
In recenti convegni nazionali sono state dedicate sessioni alla presentazione di tecniche per l’ADS, ad esempio SIS98 - Sorrento, CLADAG99 - Roma.Testo inglese
The increasing complexity of information and the modern architectures of databases, able to manage large sets of data, allow us to refer to the datum, not only as simple unit, but as complex entity, in order to consider the relationships among variables (taxonomies, conditional dependences), the variability of the datum along time or in space, the different values that each variable can assumes for each observation or the possible evaluations or experts knowledge.
The tendency that is showing up in different fields, from marketing to medicine, from economics to social sciences, of treating complex data, requires the tuning up of techniques for the structuration, the definition and the analysis of such kinds of data.
A first satisfactory formulation of complex data has been done by Diday (1987) in terms of "symbolic objects". During the last decade, the symbolic object has been enriched of new meanings, which are tied to a conceptual definition of the datum. Among the main advantages deriving from considering symbolic data, in place of traditional data, there is that consisting in being able to treat information, at a more elevated conceptual level, directly through the new techniques developed for the symbolic data analysis (SDA) and, since that structured information is at the base of all the decisional processes, the possibility of a direct treatment of the complex data is revealed particularly interesting. The developement of these new statistical methodologies is the aim of some European research projects such as, for example, the Esprit SODAS - Symbolic Official Data Analysis System (1997/99), whose aim is not only the realization of methodoligies and software for the Symbolic Data Analysis, but also the validation of the proposed techniques by applying them to the Official Statistics Data. In fact, among the partecipants at these projects there are both universitary research centers and National Statistics Institutes (ONS - Great Britain, INE - Portugal, EUSTAT - Spain). On the trace of the success of this first project, a new one has been started (Esprit ISO3D). This last aims to apply the methodologies of the Symbolic Data Analysis to business data, such as the Italian RAI ones.
The methodological developments in the domain of the Symbolic Data Analysis and the principal results of the applications have been for some time object of contributions at international meetings, such as OSDA95 - Paris; OSDA97 - Darmstadt, KESDA97 - Luxembourg, NTTS98 - Sorrento, and at workshops such as Journées Symbolique et Numérique (1992, 1994, 1996) LISE-CEREMADE Université Paris IX Dauphine and the Indo - French Workshop on Symbolic Data Analysis and its Applications (1997)Univ. Paris IX Dauphine.
Specific sessions on the SDA techniques have been dedicated in recent national meetings, as SIS98 - Sorrento, CLADAG99 - Roma.
Diday E. (1987), “From Data to Knowledge, Boolean, Probabilistic, Possibilist and Belief objects for symbolique data analysis”, Tutorial at IV Conference of International Federation of Classification Societes, Paris 1993.
Induction Symbolique-Numérique. CEPADUES Edition, 1991.
New Approaches in Classification and Data Analysis. E. Diday et al. eds., Springer Verlag, 1996.
Ordinal and Symbolic Data Analysis. E. Diday, Y. Lechevallier and O. Opiz eds., Springer Verlag, 1996.
SODAS Scientific Report. H.H. Boch ed. Springer Verlag (in corso di pubblicazione).
Diday E., Emilion R., Hillali Y. (1996), "Symbolic Data Analysis of Probabilistic objects by capacities and credibilities". Atti della XXXVIII Riunione SIS. Rimini.
Gettler-Summa M., "Factorial axis interpretation by symbolic objects", Acts des
Journées Symbolique-Numérique. Ed. E. Diday, Y. Kondratoff, S. Pinson. Univ. Paris IX-Dauphine.
Lebart L., Morineau A. Piron M. (1995), "Statistique Exploratoire Multidimensionelle", Dunod, Paris.
Michalski R.S., Diday E., Stepp R.E. (1981), "A recent advances in data analysis: clustering objects into classes charaterized by conjunctive concepts", Progress in Pattern Recognition vol. 1, L. Kanal and A. Rosenfeld Eds.
Chavent M., Stéphan V. (1998), "From generalization to clustering in Relational Database context", KESDA 98, Luxembourg, (in corso di pubblicazione).
Chouakria A., Diday E. Cazes P. (1998), "An improved Factorial representation of Symbolic Objects", KESDA 98, Luxembourg, (in corso di pubblicazione).
Testo italiano
La ricerca intende orientarsi verso due aspetti particolarmente interessanti:
Il primo si riferisce all'approfondimento di tecniche di classificazione da basi di dati o da dati di inchiesta, al fine di individuare strutture coerenti, definite sulla base di tipologie comportamentali (tipologie di consumatori/utenti, categorie socio professionali, ecc.).
La coerenza nella definizione di dati complessi, estratti, ad esempio, da basi di dati, è da mettere in relazione con l'architettura del sistema di gestione dell'informazione, nel caso di database relazionali, così come proposto in recenti lavori (Csernel, De Carvalho, 1998; Verde, De Carvalho, 1998) e di caratterizzare tali strutture di dati sulla base di un numero ristretto di descrittori che ben rappresentino le differenti tipologie.
A tal proposito, va affrontato il problema della selezione dei descrittori al fine di individuare quelli che al meglio permettono di definire delle regole di classificazione di osservazioni (tuple) e di definire, quindi, a livello concettuale un oggetto simbolico.
Accanto all'analisi di alcune proposte avanzate nell'ambito delle tecniche di partizione di oggetti simbolici (Lebbe, Vigne, 1992), si intende procedere a definire nuove strategie basate su misure di omogeneità tra dati complessi.
Il secondo aspetto si rivolge all'interpretazione complessa di risultati di analisi esplorative di dati tradizionali. In quest'ambito, si intende caratterizzare classi o tipologie attraverso opportune regole di discriminazione che consentano di individuare quelle modalità che maggiormente hanno contribuito alla separazione dei gruppi. In questa direzione particolarmente efficace si è rivelata l'applicazione di una recente tecnica, il Marcaggio semantico (Gettler Summa et al., 1992), alla descrizione di segmenti di mercato individuati sulla base di analisi su dati preferenza (Verde, Giordano, Gettler Summa, 1997). Un'ulteriore proposta è quella dell'utilizzo di opportune tecniche di classificazione "non rigida" al fine di individuare, ad esempio nello stesso contesto di analisi di mercato, segmenti trasversali, sia reali che potenziali o nuove nicchie di mercato.
La strutturazione di dati complessi trova quindi un immediato campo applicativo nel soddisfare esigenze di descrizione di segmenti di mercato nell’ambito del marketing, nella formulazione di modelli di comportamento o di utilità nell’ambito dell’analisi di dati di preferenza, nell'individuazione di profili di utenza nell’ambito del credit scoring.
Articolazione delle fasi di ricerca.
1° anno
ricerca bibliografica e definizione dello stato dell'arte (3 mesi)
sviluppo metodologico
primo sviluppo software
2° anno
completamento dello sviluppo software
validazione delle metodologia proposta attraverso applicazione su dati reali.Testo inglese
The research aims to investigate two particularly interesting objects:
The first one is related to the deepening of techniques of classification from bases of data or from data of investigation, with the purpose to individualize coherent structures, defined on the base of behavioral typologies (typologies of consumers, professional categories, etc.).
The coherence in the definition of complex data, that could be extracted, for instance, from databases, is to put in relationship with the architecture of the information management system, in the case of relational database, as proposed in recent works (Csernel, De Carvalho, 1998; Green, De Carvalho, 1998) and to characterize such structures of data on the base of a narrow number of descriptors that well represents the different typologies.
From this point of view, the problem of the descriptors selection must be faced with the purpose of individualizing those descriptors allowing to define as well as possible some rules of classification of observations (tuple) and, therefore, at a conceptual level, symbolic objects.
Close to the analysis of some advanced proposals made within the techniques of partition of symbolic objects (Lebbe, Vineyards, 1992), it is intended to proceed with the definition of new strategies based on measures of homogeneity among complex data.
The second object is turned to the complex interpretation of the exploratory analysis results from traditional data. In this domain, it is intended to characterize classes or typologies through suitable rules of discrimination that allow to individualize those categories that have mostly contributed to the separation of the groups. In this particularly effective direction it is revealed the application of a recent technique, such as the semantic marking (Gettler-Summa et to the., 1992) for the description of segments of market individualized on the base of preference data analysis (Green, Jordan, Gettler-Summa, 1997). A further proposal is that of using suitable techniques of non rigid classification with the purpose to individualize, for instance, in the same context of the market analysis, transversal segments, real or potential ones, or new niche markets.
Therefore, the structuration of complex data finds an immediate applicative field in the satisfaction of the needs of description of market segments in the domain of marketing, or in the formulation of models of behavior or utility in the domain of analysis of preference data, or in the individualization of profiles of users in the domain of credit scoring.
Articulation of the phases of search.
1st year
- bibliographical research and definition of the state of the art (3 months)
- methodological development
- first software development
2nd year
- completion of the software development
- validation of the methodology proposed through application on real data.
Nº | Anno di acquisizione | Descrizione | |
---|---|---|---|
Testo italiano | Testo inglese |
Attrezzatura I
Descrizione
valore presunto (milioni) percentuale di utilizzo per il programma
Attrezzatura II
Descrizione
valore presunto (milioni) percentuale di utilizzo per il programma
Voce di spesa | Spesa | Descrizione | ||
---|---|---|---|---|
M£ | Euro | Testo italiano | Testo inglese | |
Materiale inventariabile | 3 | 1.549 | LIBRI, SOFTWARE | BOOKS, SOFTWARE |
Grandi Attrezzature | ||||
Materiale di consumo e funzionamento | ||||
Spese per calcolo ed elaborazione dati | 1 | 516 | Elaborazione dati | Data processing |
Personale a contratto | ||||
Servizi esterni | ||||
Missioni | 3 | 1.549 | Conferenze | Conferences |
Altro |
M£ | Euro | |
---|---|---|
Costo complessivo del Programma dell'Unità di Ricerca | 7 | 3.615 |
Costo minimo per garantire la possibilità di verifica dei risultati | 6 | 3.099 |
Fondi disponibili (RD) | 2 | 1.033 |
Fondi acquisibili (RA) | 0 | |
Cofinanziamento richiesto al MURST | 5 | 2.582 |
QUADRO RD
Provenienza | Anno | Importo disponibile | nome Resp. Naz. | Note | |
---|---|---|---|---|---|
M£ | Euro | ||||
Università | |||||
Dipartimento | 1998 | 2 | 1.033 | ||
MURST (ex 40%) | |||||
CNR | |||||
Unione Europea | |||||
Altro | |||||
TOTAL | 2 | 1.033 |
4.1.1 Altro
QUADRO RA
Provenienza | Anno della domanda o stipula del contratto | Stato di approvazione | Quota disponibile per il programma | Note | |
---|---|---|---|---|---|
M£ | Euro | ||||
Università | |||||
Dipartimento | |||||
CNR | |||||
Unione Europea | |||||
Altro | |||||
TOTAL | 0 |
4.2.1 Altro
Firma ____________________________________________ |
---|
Firma ____________________________________________ | 30/03/1999 19:51:52 |
---|