SWAP - Semantic Web Access and Personalization Research Group

Gestione della Conoscenza d'Impresa A.A. 2009/2010 (sede di Brindisi)
Programma
N° ORE LEZIONI FRONTALI 56 (7 Crediti T1)
N° ORE LABORATORIO 15 (1 Credito T2)
N° ORE PROGETTO 25 (1 Credito T3)

PRE-REQUISITI
Linguaggi di Programmazione. Ingegneria del Software. Basi di dati. Calcolo delle probabilità e statistica. Algoritmi e Strutture Dati.
OBIETTIVI FORMATIVI
L'obiettivo del corso è quello di fornire gli strumenti fondamentali per la gestione di sorgenti di informazioni non strutturate. Nella prima parte del corso si presentano le basi delle discipline dell'elaborazione automatica di documenti testuali, dell’Information Filtering e dell’Information Retrieval. Nella seconda parte del corso si analizzano gli strumenti per la progettazione di sistemi avanzati per l’accesso semantico e personalizzato all’informazione introducendo i concetti di base per la realizzazione di sistemi intelligenti in grado di superare i classici problemi del linguaggio naturale: polisemia e sinonimia. Nella seconda parte del corso si introdurranno anche i concetti di base del Semantic Web approfondendo in particolare il livello delle ontologie. Il corso fornisce le conoscenze per la realizzazione in linguaggio Java di sistemi complessi per la gestione di informazioni non strutturate.
OBIETTIVI PROFESSIONALIZZANTI
Estrazione automatica di informazioni da sorgenti non strutturate. Conoscenza degli elementi essenziali per il filtraggio ed il ritrovamento di informazioni da sorgenti non strutturate. Conoscenza del Semantic Web e delle ontologie. Conoscenza del linguaggio Java per la programmazione di sistemi complessi.

  1. Gestire l'informazione non strutturata
    1. Text Mining: estrazione di conoscenza da informazioni non strutturate
      1. Definizione di Text Mining e processo di Text Mining
      2. Introduzione all'elaborazione del linguaggio naturale
      3. Text Mining nell’Impresa
    2. Information Retrieval (IR)
      1. Architettura di un sistema di IR
      2. Modelli di IR classici: modello booleano, vector space model, modello probabilistico
      3. Metriche per la valutazione dei sistemi di IR
    3. Text Categorization (TC)
      1. Generalità sul problema della classificazione
      2. Estensione del problema ai dati testuali: Text Categorization (TC)
      3. Machine Learning for TC: cenni sui metodi k-NN, Rocchio e analisi del metodo Naive Bayes
      4. Metriche per la valutazione dei sistemi di TC
      5. Casi applicativi
  2. Intelligent Information Access
    1. Information Overload
    2. Strategie di accesso all’informazione
    3. Information Filtering
      1. Personalizzazione: apprendimento di profili utente
      2. Il sistema ITem Recommender (ITR) e sue applicazioni
    4. Elaborazine semantica dei documenti
      1. Disambiguazione automatica di documenti testuali e WordNet
      2. Estrazioni automatica di entità da documenti testuali
      3. Il sistema MultilanguagE Text Analyzer (META)
    5. Semantic Web
      1. Ontologie e loro applicazioni nella condivisione di conoscenza
      2. Introduzione a eXtensible Markup Language (XML)
      3. Introduzione a Resource Description Framework (RDF)
    6. Utilizzazione della semantica e delle ontologie nei sistemi di accesso intelligente all'informazione
      1. Il sistema di IR SENSE (Semantic N-levels Search Engine)
      2. Semantic ITR
  3. Knowledge management: definizione, metodi, strumenti ed applicazioni
    1. I piani della conoscenza: fattuale, concettuale, metodologica (linee guida per la costruzione di una KB: ingegneria della conoscenza e meta-modelli)
    2. I livelli di formalizzazione della conoscenza
  4. Il linguaggio Java
    1. Introduzione e riepilogo dei concetti generali del linguaggio
    2. Java e il Semantic Web
      1. Java ed XML
      2. Java e RDF
    3. Java per l'estrazione di conoscenza
      1. Java per l'elaborazione dei documenti testuali
      2. Java per il Text Categorization
      3. Java per l'IR
    4. Esercitazioni

MODALITA' D'ESAME
L'esame si svolge sostenendo una prova scritta e una prova orale. La realizzazione di un caso di studio è finalizzata all'acquisizione dei 3 crediti di tipo T3 per progetto (nel caso di studenti iscritti al vecchio ordinamento). Si prevedono delle esercitazioni scritte (esoneri parziali) durante il corso.

Testi consigliati

Per i punti 1 e 2:

  • Baeza-Yates, R.A., Ribeiro-Neto, B.A., Modern Information Retrieval, ACM Press Addison-Wesley, 1999.
  • C.D. Manning, P. Raghavan and H. Schutze, Introduction to Information Retrieval. Cambridge Univ.Press, 2008 (preliminary draft).
  • Grishman, R., Information Extraction: Techniques and Challenges. Springer-Verlag, Lecture Notes in Artificial Intelligence, Rome (1997). Web: http://citeseer.nj.nec.com/grishman97information.html.
  • D. Jurafsky and J. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall Series in Artificial Intelligence, 2000. ISBN 0-13-095069-6
  • M. Grobelnik, D. Mladenic, and N. Milic-Frayling, Text Mining as Integration of Several Related Research Areas. Report on KDD’2000 Workshop on Text Mining, 2000.
  • T.M. Mitchell, Machine Learning, McGraw-Hill, 1997.
  • M. Pazzani, Machine Learning and Information Filtering on the Internet, IJCAI-97 Tutorial, Nagoya, Japan, Aug 1997.
  • Sebastiani F., Machine learning in automated text categorization, ACM Computing Surveys, 34(1):1-47, 2002.
  • Christiane Fellbaum (Editor), WordNet: An Electronic Lexical Database. Edited by. MIT Press. ISBN 0-262-06197-X.
  • Tamma, V., Ontologies and their applications in knowledge sharing, dispense.
  • Bradley, N., The XML Companion, Addison-Wesley, 1998.
  • C. Manning and H. Schutze, Foundations of Statistical Natural Language Processing. MIT press, 2000.
  • Eneko Agirre and Philip Edmonds, Word sense disambiguation: Algorithms and Applications. Springer Text, Speech and Language Technology, Vol. 33, 2007.
  • P. Basile, A. Caputo, M. de Gemmis, A. L. Gentile, P. Lops, and G. Semeraro. Improving Ranked Keyword Search with SENSE: SEmantic N-levels Search Engine. Communications of SIWN (formerly: System and Information Sciences Notes), 5:39-45, August 2008. ISSN 1757-4439 (Print) 1757-4447 (CD-ROM). SIWN: The Systemics and Informatics World Network.
  • G. Semeraro, P. Basile, M. de Gemmis, and P. Lops. User Profiles for Person- alizing Digital Libraries. In Y.-L. Theng, S. Foo, D. G. H. Lian, and J.-C. Na, editors, Handbook of Research on Digital Libraries: Design, Development and Impact. IGI Global, 2009. ISBN 978-1-59904-879-6.
  • P. Basile, M. de Gemmis, A. Gentile, L. Iaquinta, P. Lops, and G. Semer- aro. META - MultilanguagE Text Analyzer. In Proceedings of the Language and Speech Technnology Conference - LangTech 2008, Rome, Italy, February 28-29 , pages 137-140. 2008.
  • G. Semeraro, M. Degemmis, P. Lops, and P. Basile. Combining Learning and Word Sense Disambiguation for Intelligent User Profiling. In M. M. Veloso, editor, IJCAI 2007, Proceedings of the 20th International Joint Conference on Artificial Intelligence, Hyderabad, India, January 6-12, 2007 , pages 2856-2861. Morgan Kaufmann, 2007.



Per il punto 3:

  • Missikoff, M., Gestione della conoscenza d’impresa: metodi strumenti ed applicazioni, AI*IA Notizie, Vol. XIII, N° 2, pp. 5-7, Giugno 2000.
  • Missikoff, M., Ernani, E., La Gestione della Conoscenza d’Impresa, AICA 2000: Le Tecnologie dell’informazione e della Comunicazione come motore di sviluppo del Paese, pp. 785-794, 2000.



Per il punto 4:

(top)