MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO PER LA PROGRAMMAZIONE IL COORDINAMENTO E GLI AFFARI ECONOMICI - SAUS
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 10 del 23 gennaio 2001)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 2001 - prot. 2001134928_003


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Scienze economiche e statistiche

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Metodi di estrazione, di validazione e di rappresentazione
dell'informazione statistica in un contesto decisionale

1.4 Coordinatore Scientifico del Programma di Ricerca

SICILIANO ROBERTA  
(cognome) (nome)  
Università degli Studi di NAPOLI "Federico II" Facoltà di ECONOMIA
(università) (facoltà)
S01A Dipartimento di MATEMATICO STATISTICO
(settore scient.discipl.) (Dipartimento/Istituto)


roberta@unina.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

MALERBA DONATO  
(cognome) (nome)  


Professore associato 13/11/1964 MLRDNT64S13F376W
(qualifica) (data di nascita) (codice di identificazione personale)

Università degli Studi di BARI Facoltà di SCIENZE MATEMATICHE FISICHE e NATURALI
(università) (facoltà)
K05A Dipartimento di INFORMATICA
(settore scient.discipl.) (Dipartimento/Istituto)


080/5443269 080/5443196 malerba @ di.uniba.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Donato Malerba è professore associato presso il Dipartimento di Informatica dell'Università degli Studi di Bari, dove insegna nei corsi di "Basi di Dati e Basi di Conoscenza" e "Programmazione II". Nel 1992 è stato assistant specialist presso lo Institute of Computer Science, dell'Università della California, Irvine. La sua attività scientifica ha riguardato principalmente l'apprendimento automatico e il data mining, in modo particolare l'integrazione di metodi sia simbolici (concettuali) sia numerici (statistici) per l'inferenza induttiva, l'induzione di alberi di classificazione e di regressione, e le loro applicazioni all'elaborazione intelligente di documenti, alla interpretazione automatica di mappe topografiche, e alla scoperta di conoscenza sul Web. Ha pubblicato più di ottanta articoli su riviste e atti di convegno internazionali. È responsabile dell'Unità di Ricerca dell'Università di Bari per il progetto europeo IST-1999-10536 SPIN (Spatial Mining on Data of Public Interest), e per il progetto MURST Cofinanziato 1999 "Modelli statistici di classificazione e di segmentazione per l'analisi di dati strutturati in forma complessa". È responsabile del Workpackage "Data Management" del progetto europeo IST-2000-25161 Asso (Analysis System of Symbolic Official data). Collabora al progetto europeo IST-1999-20882 COLLATE (Collaboratory for Automation, Indexing and Retrieval of Digitized Historical Archive Material) e al progetto regionale POP "Datalight: uno strumento di innovazione per le piccole e medie imprese in Puglia". Ha fatto parte del comitato di programma di molte conferenze internazionali di apprendimento automatico e data mining (ICML'96, ICML'99, ISMIS'00, ECML'01, MLDM'01), ed è stato coordinatore scientifico di quattro workshop nazionali e internazionali. È membro del comitato organizzatore del Settimo Congresso dell'Associazione Italiana per l'Intelligenza Artificiale, Bari - Settembre 2001.

Testo inglese

Donato Malerba is an associate professor at the Department of Informatics, University of Bari, where he teaches in the courses of "Data Bases and Knowledge Bases" and "Computer Programming II". In 1992 he was assistant specialist at the Institute of Computer Science, University of California, Irvine. His research activity mainly concerns machine learning and data mining, in particular the integration of symbolic (conceptual) and numeric (statistical) methods for inductive inference, the induction of classification and regression trees, and their applications to intelligent document processing, map interpretation, and web mining. He has published more than eighty papers in international journals and conference proceedings. He is responsible of the unit of Bari in the European project IST-1999-10536 SPIN (Spatial Mining on Data of Public Interest) and in the MURST COFIN project on "Statistical models for classification and segmentation of complex data structures". He is responsible of the workpackage "Data Management" of the European project IST-2000-25161 Asso (Analysis System of Symbolic Official Data) and collaborates to the European project IST-1999-20882 COLLATE (Collaboratory for Automation, Indexing and Retrieval of Digitized Historical Archive Material) as well as to the regional project POP "Datalight: a tool of innovation for small and medium enterprises in Apulia". He has served in the program committee of many international conferences on machine learning and data mining (ICML'96, ICML'99, ISMIS'00, ECML'01, MLDM'01), and co-chaired four international and national workshops. He is in the organizing committee of the Seventh Conference of the Italian Association for Artificial Intelligence, Bari - September 2001.

1.7 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. MALERBA D., ESPOSITO F., LISI F.A. (2000). An ILP Approach to the Discovery of Spatial Association Rules. AI*IA NOTIZIE. vol. XIII(4), pp. 57-62.
  2. MALERBA D., ESPOSITO F., LANZA A., LISI F.A. (2000). Discovering Geographic Knowledge: The INGENS System.
    In RAS Z.W., OHSUGA S. Foundations of Intelligent Systems, 12th International Symposium, ISMIS'2000. (vol. 1932, pp. 40-48). Lecture Notes in Artificial Intelligence. BERLIN: Springer (GERMANY).
  3. ESPOSITO F., MALERBA D., TAMMA V. (2000). Dissimilarity Measures for Symbolic Objects.
    In BOCK H.-H., DIDAY E. Analysis of Symbolic Data. Exploratory methods for extracting statistical information from complex data. (vol. 15, pp. 165-185). Series: Studies in Classification, Data Analysis, and Knowledge Organization. BERLIN: Springer-Verlag (GERMANY).
  4. ESPOSITO F., MALERBA D., SEMERARO G., TAMMA V. (1999). The Effects of Pruning Methods on the Predictive Accuracy of Induced Decision Trees. APPLIED STOCHASTIC MODELS IN BUSINESS AND INDUSTRY. vol. 15(4), pp. 277-299.
  5. ESPOSITO F., MALERBA D., LISI F.A. (2000). Machine Learning for Intelligent Processing of Printed Documents. JOURNAL OF INTELLIGENT INFORMATION SYSTEMS. vol. 14(2/3), pp. 175-198.

1.8 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.8.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
2001 2002
Personale docente:
1  MALERBA  DONATO  INFORMATICA  Prof. associato  K05A  6
(ore: 825)
 5
(ore: 685)
2  LANZA  ANTONIETTA  INFORMATICA  Ricercatore  K05B  6
(ore: 825)
 5
(ore: 685)
Altro personale:

1.8.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
2001 2002
Personale docente:
Altro personale:

1.8.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi
uomo
2001 2002
 
1  LISI  FRANCESCA ALESSANDRA  Dip. INFORMATICA  1999  5
(ore: 685)
 0

1.8.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo

1.8.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo
1. Ricercatore  15 
(ore: 825) 

1.8.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. TAMMA  VALENTINA  Computer Science Dept. - Univ. of Liverpool  research assistant 
(ore: 825) 


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

Metodi computazionali per l'analisi di dati statistici ufficiali aggregati e georeferenziati

Testo inglese

Computational methods for the analysis of aggregated and georeferenced official statistical data

2.2 Settori scientifico-disciplinari interessati dal Programma di Ricerca
  • SECS-S/01 - STATISTICA
  • ING-INF/05 - SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI

2.3 Parole chiave

Testo italiano
DATI STATISTICI UFFICIALI ; DATI AGGREGATI ; DATI GEOREFERENZIATI ; ANALISI DI DATI SIMBOLICI ; ANALISI DI DATI SPAZIALI ; MISURE DI DISSIMILARITÀ ; REGOLE DI ASSOCIAZIONE SPAZIALE

Testo inglese
STATISTICAL OFFICIAL DATA ; AGGREGATED DATA ; GEOREFERENCED DATA ; SYMBOLIC DATA ANALYSIS ; SPATIAL DATA MINING ; DISSIMILARITY MEASURES ; SPATIAL ASSOCIATION RULES


2.4 Base di partenza scientifica nazionale o internazionale

Testo italiano

I censimenti rendono disponibile sia ai ricercatori che al grande pubblico una varietà di informazioni statistiche a carattere generale sulla società. Le informazioni sui censimenti sia della popolazione e sia economici sono di grande aiuto nella pianificazione dei servizi pubblici (istruzione, stanziamento di fondi, trasporti pubblici) così come nelle attività private (insediamento di nuove fabbriche, centri commerciali, o banche, così come la commercializzazione di particolari prodotti). L'applicazione di tecniche di data mining ai dati della statistica ufficiale ha grandi potenzialità [16], ciononostante è complicato da due inevitabili problemi di rappresentazione: i dati sono aggregati e geo-referenziati.
Il primo problema nasce dal fatto che gli Istituti Nazionali di Statistica (INS) fanno un grande sforzo per raccogliere i dati censuali, ma essi non sono l'unica organizzazione che li analizza: l'analisi dei dati è spesso condotta da istituti diversi. Per legge, agli INS viene fatto divieto di distribuire le risposte individuali ad un altro ente governativo o ad un qualsiasi individuo o organizzazione con fini commerciali, così che i dati vengono aggregati per ragioni di riservatezza prima di essere distribuiti ad agenzie ed istituti esterni. Gli analisti di dati si confrontano con il problema di elaborare dati che vanno al di là della struttura classica, come nel caso di dati che riguardano classi più o meno omogenee o gruppi di individui (oggetti del secondo ordine) invece che singoli individui (oggetti del primo ordine). L'estensione di tecniche classiche di analisi dei dati all'analisi di oggetti del second'ordine (anche denominati oggetti simbolici) è uno degli obiettivi principali di un nuovo campo di ricerca che va sotto il nome di "analisi di dati simbolici" [3].
Per quanto riguarda il secondo problema, la pratica di geo-referenziare i dati censuali si è diffusa sempre più negli ultimi decenni e le tecniche per associare dati socio-economici a specifiche locazioni sono notevolmente migliorate nel contempo. Nel Regno Unito, per esempio, i dati sulle spese nelle famiglie vengono forniti per ogni distretto di enumerazione (enumeration district, ED), l'unità di superficie più piccola per cui i dati censuali sono pubblicati. Nel contempo, i confini vettorizzati degli ED del censimento del 1991 consentono l'investigazione di fenomeni socio-economici in associazione con la locazione geografica degli ED. Questi progressi causano una crescente domanda di tecniche di analisi dei dati più potenti che siano in grado di collegare i dati sulla popolazione alla loro distribuzione spaziale. Attualmente la ricerca si è attestata sulla mera implementazione di costrutti spaziali al di sopra di tecniche statistiche ben consolidate al fine di tenere conto della dimensione spaziale [15]. Il data mining spaziale è un'altra area di ricerca sviluppatasi recentemente che mira a investigare sistematicamente l'estrazione di conoscenza implicita, di relazioni spaziali, o di altri pattern non esplicitamente memorizzati nelle basi di dati spaziali [10].
L'unità di Bari intende investigare questi due temi di rappresentazione nel contesto del "mining" di dati statistici ufficiali allo scopo di sviluppare nuovi metodi computazionali per l'analisi di dati aggregati e/o geo-referenziati. La suddetta unità ha già studiato alcune misure di dissimilarità per oggetti simbolici booleani [5,6,7], sviluppando uno strumento software per la loro computazione [11] che è stato poi testato su basi di dati disponibili in banche dati di pubblico dominio [12]. L'unità ha anche studiato il problema di scoprire conoscenza geografica nelle mappe topografiche della regione Puglia [4,14], e sviluppato un sistema informativo geografico innovativo con capacità di apprendimento induttivo [13]. Le lezioni apprese da entrambe le attività di ricerca saranno trasferite con profitto all'analisi di dati aggregati e/o geo-referenziati disseminati dagli INS.
Con la partecipazione a questo progetto intendiamo sviluppare due nuovi moduli software da integrare in sistemi di data mining esistenti per l'analisi di dati statistici ufficiali aggregati e/o geo-referenziati. Il modulo software per i dati aggregati sarà in grado di estrarre oggetti simbolici da basi di dati relazionali e supporterà un compito di data mining predittivo, ovvero la classificazione. Il secondo modulo software sarà in grado di estrarre predicati spaziali da una base di dati spaziali e di collegarli con dati censuali riepilogati al fine di supportare un compito di data mining descrittivo, ovvero la generazione di regole d'associazione.

Testo inglese

Censuses make a huge variety of general statistical information about society available to both researchers and the general public. Population and economic census information is of great value in planning public services (education, funds allocation, public transportation) as well as in private businesses (locating new factories, shopping malls, or banks, as well as marketing particular products). The application of data mining techniques to official statistical data has great potentialities [16], nevertheless it is complicated by two inevitable representation issues: data are aggregated and georeferenced.
The first issue originates from the fact that National Statistics Institutes (NSIs) make a great effort in collecting census data, but they are not the only organization that analyses them: data analysis is often done by different institutes. By law, NSIs are prohibited from releasing individual responses to any other government agency or to any individual or business, so that data are aggregated for confidentiality reasons before being distributed to external agencies and institutes. Data analysts are confronted with the problem of processing data that go beyond the classical framework, as in the case of data concerning more or less homogeneous classes or groups of individuals (second-order objects) instead of single individuals (first-order objects). The extension of classical data analysis techniques to the analysis of second-order objects (also named symbolic objects) is one of the main goal of a novel research field named "symbolic data analysis" [3].
As to the second issue, the practice of geo-referencing census data has increasingly spread over the last decades and the techniques for attaching socio-economic data to specific locations have markedly improved at the same time. In the UK, for instance, household expenditure data are provided for each enumeration district (ED), the smallest areal unit for which census data are published. At the same time, vectorized boundaries of 1991 census EDs enable the investigation of socio-economic phenomena in association with the geographical location of EDs. These advances cause growing demand for more powerful data analysis techniques that can link population data to their spatial distribution.
The research to date in the field has generally taken the path of merely embedding spatial constructs on the top of well-established statistical techniques in order to accommodate the space dimension [15]. Spatial data mining is another recently developed research area that aims at investigating more systematically how to extract implicit knowledge, spatial relations, or other patterns not explicitly stored in spatial databases [10].
The unit of Bari intends to investigate these two representation issues in the context of mining official statistical data with the aim of developing new computational methods for the analysis of aggregated and/or georeferenced data. We already investigated some dissimilarity measures proposed for boolean symbolic objects [5,6,7], we developed a software tool for their computation [11], and we tested them on databases available in public repositories [12]. We have also studied the problem of discovering geographic knowledge in topographic maps of the Apulia region (Italy) [4,14], and we developed an innovative geographic information system with inductive learning capabilities [13]. Lessons learned from both research activities will be profitably conveyed to the analysis of aggregated and/or georeferenced data disseminated by NSIs.
By participating in this Project we intend to develop two new software modules to be integrated into existing data mining tools for the analysis of aggregated and/or georeferenced official statistical data. The software module for aggregated data will be able to extract symbolic objects from relational databases and will support a predictive data mining task, namely classification. The second software module will be able to extract spatial predicates from a spatial database and to join them with summarized census data in order to support a descriptive data mining task, namely the generation of association rules.

2.4.a Riferimenti bibliografici

[1] Agrawal, R., Imielinski, T., Swami, A. (1993). Mining Association Rules between Sets of Items in Large Databases. Proceedings of the ACM SIGMOD Conference on Management of Data, pp. 207-216.
[2] Agrawal, R. & R. Srikant (1994). Fast Algorithms for Mining Association Rules. Proceedings of the 20th VLDB Conference, Santiago: Cile.
[3] Bock, H.H., & Diday, E. (eds.) (2000). Analysis of Symbolic Data. Exploratory Methods for Extracting Statistical Information from Complex Data, Series: Studies in Classification, Data Analysis, and Knowledge Organisation, Vol. 15, Springer-Verlag:Berlin.
[4] Esposito, F., Lanza, A., Malerba, D., & Semeraro, G. (1997). Machine Learning for Map Interpretation: An Intelligent Tool for Environmental Planning. Applied Artificial Intelligence, 11(10), pp. 673-696.
[5] Esposito, F., Malerba, D., Tamma, V., & Bock, H.H. (2000). Classical resemblance measures. In H.H. Bock and E. Diday (Eds.), Analysis of Symbolic Data. Exploratory methods for extracting statistical information from complex data, Series: Studies in Classification, Data Analysis, and Knowledge Organization, vol. 15, Springer-Verlag:Berlin, pp. 139-152.
[6] Esposito, F., Malerba, D., & Tamma, V. (2000). Dissimilarity Measures for Symbolic Objects. In H.H. Bock and E. Diday (Eds.), Analysis of Symbolic Data. Exploratory methods for extracting statistical information from complex data, Series: Studies in Classification, Data Analysis, and Knowledge Organization, vol. 15, Springer-Verlag:Berlin, pp. 165-185
[7] Esposito, F., Malerba, D., & Lisi, F.A. (2000). Matching Symbolic Objects. In H.H. Bock and E. Diday (Eds.), Analysis of Symbolic Data. Exploratory methods for extracting statistical information from complex data, Series: Studies in Classification, Data Analysis, and Knowledge Organization, vol. 15, Springer-Verlag:Berlin, pp. 186-197.
[8] Hand, D.J. (1981). Discrimination and Classification. John Wiley & Sons, Chichester, UK.
[9] Imielinski, T., & Mannila, H. (1996). A Database Perspective on Knowledge Discovery. Communications of the ACM, 39(11), pp. 58-64.
[10] Koperski, K., J. Adhikary, & J. Han (1996). Spatial Data Mining: Progress and Challenges. In Proc. Workshop on Research Issues on Data Mining and Knowledge Discovery, Montreal, Canada.
[11] Malerba, D. (2000). User Manual of the SODAS method DI: Dissimilarity Measures and Matching Operators. Technical report distributed at the school on "Symbolic Data Analysis: A Tool for Data Warehouse and Data Mining", Paris-Dauphine University, 7-11 February, (http://www.ceremade.dauphine.fr/~touati/aidedoc/aideDI/DI.htm)
[12] Malerba, D., Sanarico, L., & Tamma, V. (2000). A comparison of dissimilarity measures for Boolean symbolic data. In P. Brito, J. Costa, & D. Malerba (Eds.), Proceedings of the ECML 2000 Workshop on "Dealing with Structured Data in Machine Learning and Statistics", Barcelona, pp. 44-56.
[13] Malerba, D., Esposito, F., Lanza, A., Lisi, F.A., & Sanarico, L. (2000) INGENS: A geographical information system with inductive learning capabilities. Proceedings of the International Workshop on Emerging Technologies for geo-Based Applications, Ascona, Switzwerland, pp. 249-263.
[14] Malerba, D., Esposito, F., Lanza, A., & Lisi, F.A. (2001). Machine learning for information extraction from topographic maps. In H. Miller & J. Han (Eds.), Geographic Knowledge Discovery, Francis & Taylor (in corso di stampa)
[15] Roddick, J.F., & Spiliopoulou, M. (1999). A bibliography of temporal, spatial and spatio-temporal data mining research. SIGKDD Explorations 1(1): 34-38.
[16] Saporta, G. (2000). Data Mining and Official Statistics. Atti della Quinta Conferenza Nazionale di Statistica, Roma, 15-17 Novembre.

2.5 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

L'unità di ricerca dell'Università di Bari intende partecipare al Progetto studiando gli aspetti metodologici utili per sviluppare strumenti di data mining efficaci e user-friendly. La ricerca mira ad estendere due sistemi esistenti con nuovi moduli software per l'analisi di dati statistici ufficiali aggregati e/o geo-referenziati. In particolare, si intende trattare un compito predittivo nel caso di dati aggregati ed un compito descrittivo nel caso di dati geo-referenziati.
I compiti di data mining predittivo comportano l'uso di alcune variabili o campi in una base di dati per predire valori sconosciuti o futuri di altre variabili di interesse. Il compito predittivo che si studierà nel Progetto è la classificazione, cioè come associare una osservazione a una classe di un insieme predefinito. L'algoritmo "k-nearest-neighbour" (k-NN) [8] verrà esteso sia con un insieme di misure di dissimilarità già studiate per gli oggetti simbolici booleani, sia con un nuovo insieme di misure di dissimilarità adatte per gli oggetti simbolici probabilistici. L'algoritmo di classificazione verrà applicato a problemi decisionali come la classificazione di carriere lavorative rispetto a diversi scenari pensionistici.
I compiti di data mining descrittivo si focalizzano sulla ricerca di pattern che descrivano un insieme di dati in maniera comprensibile per l'uomo. Il compito descrittivo che si studierà nel Progetto è la scoperta di regole di associazione, le quali esprimono pattern inter-campo che mettono in relazione valori di campi nello stesso record corrispondente a una unità di osservazione. L'algoritmo Apriori [1,2] per la generazione di regole di associazione verrà esteso in modo che vengano prese in considerazione anche le interdipendenze fra unità di osservazione spazialmente correlate. L'estensione si baserà su metodi e tecniche mutuate dal settore della logica computazionale. Queste si fondano su un accresciuto potere espressivo che consente una rappresentazione naturale ed elegante sia delle relazioni spaziali che della conoscenza simbolica di fondo come gerarchie spaziali, vincoli spaziali e regole per il ragionamento qualitativo spaziale. L'algoritmo di estrazione di regole di associazione lavorerà su dati statistici ufficiali geo-referenziati e verrà testato su alcuni problemi di scoperta di conoscenza spaziale come la caratterizzazione del tipo di sviluppo urbano nei distretti di enumerazione censuali.
Al termine del Progetto verranno prodotti due Dimostratori: un Dimostratore per Dati Aggregati (DAD) ed un Dimostratore per Dati Georeferenziati (DGD).
Il DAD sarà in grado di estrarre oggetti simbolici sia booleani che probabilistici da una base di dati relazionale, di computare misure di dissimilarità fra gli oggetti simbolici estratti e di classificare nuovi oggetti simbolici estratti o dal medesimo o da un differente database. La classificazione si baserà su un algoritmo k-NN opportunamente esteso. Verrà anche supportata la funzionalità di ritrovamento mediante matching di oggetti simbolici contro individui in una base di dati.
I Temi di Ricerca da considerare nello sviluppo del DAD sono:
- Quali metodi computazionali applicare per aggregare i dati in oggetti simbolici.
- Quali misure di dissimilarità definire per gli oggetti simbolici probabilistici.
- Quali sono le proprietà teoriche (algebriche) ed empiricamente osservate di queste misure di dissimilarità.
- Se queste proprietà influenzano il compito di classificazione.
- Come guidare l'utente nella selezione della misura di dissimilarità appropriata.
Il DGD sarà in grado di estrarre sia predicati spaziali da una base di dati spaziali che dati riassunti da tabelle di dati censuali e fondere l'informazione in un singolo file di dati. La selezione di dati si baserà su una interrogazione utente espressa in un linguaggio di query per il data mining, cioè un linguaggio per la specifica di compiti di analisi dei dati [9]. L'algoritmo per la scoperta di regole d'associazione sarà a due fasi: in primo luogo, tutti i pattern spaziali che soddisfano alcuni vincoli definiti dall'utente (frequenza minima, numero massimo di letterali, ecc.) verranno generati, in secondo luogo tutte le regole d'associazione con alta confidenza saranno generate da tale insieme di pattern spaziali.
I Temi di Ricerca da considerare nello sviluppo del DGD sono:
- Quali predicati spaziali estrarre da una base di dati spaziali che memorizza l'informazione geografica sulle unità censuali.
- Che tipo di pre-elaborazione si richiede per generare regole di associazione spaziale da dati statistici ufficiali.
- Come estendere gli algoritmi di estrazione di regole d'associazione per trattare anche i predicati spaziali.
- Quali sono le proprietà algebriche dello spazio di ricerca dei pattern spaziali.
- Come queste proprietà possono essere efficacemente sfruttate per potare lo spazio di ricerca.
- Come validare le regole di associazione generate.
L'unità dell'Università di Bari intende contribuire al Progetto studiando il problema di analizzare dati statistici ufficiali con i seguenti obiettivi:
i) Definire procedure per la generazione efficace di dati aggregati da basi di dati relazionali.
ii) Definire nuove misure di dissimilarità per oggetti simbolici probabilistici.
iii) Confrontare le misure di dissimilarità sia analiticamente che empiricamente.
iv) Definire procedure per l'estrazione di predicati spaziali che mettono in relazione unità censuali.
v) Definire un nuovo algoritmo efficiente ed efficace per l'estrazione di regole d'associazione spaziali.
COMPITI DI RICERCA
Nel COMPITO 1, l'attività di questa Unità si soffermerà principalmente sulla raccolta ed analisi di dati statistici ufficiali, la definizione di adeguati predicati spaziali, la definizione di nuove misure di dissimilarità per l'analisi di dati aggregati, e l'estensione di un algoritmo di estrazione di regole d'associazione al caso di dati spaziali. Si studieranno altresì le proprietà teoriche sia delle misure di dissimilarità che dello spazio dei pattern spaziali.
Nel COMPITO 2, l'Unità implementerà i due Dimostratori e li proverà su data set costruiti in laboratorio così come su dati aggregati reali messi a disposizione dagli INS. I risultati sperimentali che riguardano le proprietà empiriche delle misure di dissimilarità saranno utilizzati per assistere l'utente nella selezione di una misura di dissimilarità, mentre i risultati sperimentali sui dati geo-referenziati saranno validati con l'aiuto di esperti del dominio.

Testo inglese

The research unit of the University of Bari intends to participate in the Project by investigating the methodological aspects useful for developing effective, user-friendly data mining tools. In particular, the research aims at extending two existing systems with new software modules for the analysis of aggregated and/or georeferenced official statistical data. In particular, we intend to to deal with a predictive task in the case of aggregated data and a descriptive task in the case of georeferenced data.
Predictive data mining tasks involve using some variables or fields in a database to predict unknown or future values of other variables of interest. The predictive task we will investigate in the Project is classification, that is mapping a data item into one of several predefined classes. The k-nearest-neighbour (k-NN) algorithm [8] will be extended with a set of dissimilarity measures already investigated for boolean symbolic objects, as well as with a new set of dissimilarity measures suitable for probabilistic symbolic objects. The classification algorithm will be applied to decision-making problems such as classification of working careers with respect to distinct retiring scenarios.
Descriptive data mining tasks focus on finding human-interpretable patterns describing a data set. The descriptive task we will investigate in the Project is the discovery of association rules, which express interfield patterns relating values of fields in the same record (observation unit). The Apriori algorithm for the generation of association rules [1,2] will be extended so that also interdependencies between spatially related observation units will be taken into account. The extension will be based on methods and techniques borrowed from the field of computational logic. They rely on an augmented expressive power which enable a natural and elegant representation of both spatial relations and symbolic background knowledge such as spatial hierarchies, spatial constraints and rules for spatial qualitative reasoning. The association rule discovery algorithm will work on georeferenced official statistical data and will be tested on some spatial knowledge discovery problems such as characterizing the kind of urban development in census EDs.
At the end of the Project two Demonstrators will be produced: a Demonstrator for Aggregated Data (DAD) and a Demonstrator for Georeferenced Data (DGD).
The DAD will be able to extract both boolean and probabilistic symbolic objects from a relational database, to compute dissimilarity measures between extracted symbolic objects and to classify new symbolic objects extracted from either the same or a different data base. Classification will be based on an extended k-NN algorithm. Matching symbolic objects against individual units in a database will also be supported.
The Research Issues to be considered in developing the DAD are:
· What computational method should be applied to aggregate data in symbolic objects.
· What dissimilarity measures can be defined for probabilistic symbolic objects.
· What the theoretical (algebraic) and empirically observed properties of these dissimilarity measures are.
· Whether these properties affect the classification task.
· How to guide the user in the selection of the appropriate dissimilarity measure.
The DGD will be able to extract both spatial predicates from a spatial database and summarised data from census data tables and to join information in a single data file. Data selection will be based on a user query expressed in a data mining query language, that is a language for the specification of data analysis tasks [9]. The algorithm for the discovery of association rules will be two-phased: firstly, all spatial patterns satisfying some user-defined constraints (minimum frequency, maximum number of literals, etc.) will be generated, secondly all association rules with high confidence will be generated from such set of spatial patterns.
The Research Issues to be considered in developing the DGD are:
· What spatial predicates should be extracted from a spatial database storing geographic information on census units.
· What kind of preprocessing is required to generate spatial association rules from statistical official data.
· How the association rule mining algorithms can be extended to deal with spatial predicates as well.
· What the algebraic properties of the search space of spatial patterns are.
· How these properties can be effectively exploited to prune the search space.
· How to validate generated association rules.
We plan to contribute to the Project by studying the problem of analyzing statistical official data with the following goals:
i) Defining procedures for effective generation of aggregated data from relational databases.
ii) Defining new dissimilarity measures for probabilistic symbolic objects.
iii) Comparing the dissimilarity measures both analytically and empirically.
iv) Defining procedures for the extraction of spatial predicates relating census units.
v) Defining a new efficient and effective algorithm for spatial association rule mining.
RESEARCH TASKS
In TASK 1, the activity of this Unit will be mainly focused on collecting and analyzing statistical official data, defining appropriate spatial predicates, defining new dissimilarity measures for the analysis of aggregated data, and extending an association rule mining algorithm to the case of spatial data. Theoretical properties of both the dissimilarity measures and the space of spatial patterns will be investigated.
In TASK 2, we will implement the two Demonstrators and we will test them on laboratory-sized data sets as well as on real aggregated data made available by NSI. Experimental results concerning the empirical properties of dissimilarity measures will be used to assist the user in the selection of a dissimilarity measure, while experimental results on georeferenced data will be validated with the help of domain experts.

2.6 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese
1.  2000un server IBM Net Finity (1)  one IBM Net Finity Server 
2.  2000quattro PC IBM 300GL  four PC IBM 300GL 
3.     
4.     
5.     


2.7 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


2.8 Mesi uomo complessivi dedicati al programma

  numero mesi uomo
Personale universitario dell'Università sede dell'Unità di Ricerca (docenti) 2 22
(ore: 3025)
Personale universitario dell'Università sede dell'Unità di Ricerca (altri) 0 0
Personale universitario di altre Università (docenti) 0 0
Personale universitario di altre Università (altri) 0 0
Titolari di assegni di ricerca 1 5
(ore: 685)
Titolari di borse dottorato e post-dottorato 0 0
Personale a contratto 1 6
(ore: 825)
Personale extrauniversitario 1 6
(ore: 825)
Totale 5 39
(ore: 5360) 


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 2.066  Acquisto di libri e riviste inerenti il progetto. Acquisto di software specializzato per la gestione di dati geografici. Acquisto di ambienti di sviluppo integrati.  Purchase of books and journals concerning the Project. Purchase of specific software products for spatial data management. Purchase of integrated developing environment. 
Grandi Attrezzature        
Materiale di consumo e funzionamento 1.549  Acquisto di carta, trasparenze, dischetti, toner, cartucce a getto di inchiostro. Manutenzione delle macchine. Fotocopie.  Purchase of paper, transparencies, floppy disks and CD-ROM, toner cartridges, inkjet cartridges. 
Spese per calcolo ed elaborazione dati        
Personale a contratto 15  7.747  Sviluppo di moduli software per i Dimostratori.  Development of software modules for the Demonstrators. 
Servizi esterni 516  Contratto per spese di spedizione urgente. Contratto di assistenza e manutenzione HW/SW.  Contract for express mail services. Contract for HW/SW assistance and maintenance. 
Missioni 20  10.329  Spesa prevista su 4 partecipanti, una media di 5 milioni su due anni per partecipare a eventi e incontri  Expected costs for partecipation to project meetings and events: 5 millions lire in two years for each of the four participants 
Pubblicazioni 516  Spese di pubblicazione di articoli su rivista e su atti di convegni.  Costs of extra copies and extra pages of papers published on journals or conference proceedings. 
Partecipazione / Organizzazione convegni 516  Spese di organizzazione di workshop inerenti il Progetto.  Organization of workshops on the topics of the project. 
Altro 516  Spese per relazioni invitate a convegni.  Payment of invited talks to workshops. 


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 46  23.757 
 
Costo minimo per garantire la possibilità di verifica dei risultati 36  18.592 
 
Fondi disponibili (RD) 7  3.615 
 
Fondi acquisibili (RA) 7  3.615 
 
Cofinanziamento richiesto al MURST 32  16.527 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile Note
Euro
Università        
Dipartimento        
CNR        
Unione Europea 2001   3.615  Progetti SPIN e ASSO 
Altro        
TOTAL   3.615   

4.1.1 Altro


4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università 2001   disponibile in caso di accettazione della domanda  3.615  Contributo aggiuntivo dell'Università di Bari per il COFIN, pari al 15% del costo ammesso. 
Dipartimento          
CNR          
Unione Europea          
Altro          
TOTAL     3.615   

4.2.1 Altro


4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 30/03/2001 19:07:25