SWAP - Semantic Web Access and Personalization Research Group

Gestione della Conoscenza di Impresa A.A. 2012/2013 Laurea Triennale in Informatica, Università degli Studi di Bari Aldo Moro


N° ORE LEZIONI FRONTALI 56 (7 CFU)
N° ORE LABORATORIO 30 (2 CFU)

NEWS

  • Pubblicati i risultati della prova scritta del 15 Aprile 2014. La prova orale si terrà il 17 Aprile 2014 in Aula B piano terra alle ore 09:30
  • Pubblicati i risultati della prova scritta del 13 Novembre 2013. La prova orale si terrà il 15 Novembre 2013 in Aula B piano terra alle ore 10:00
  • Il ricevimento studenti di lunedì 4 Novembre è rinviato a venerdì 8 Novembre dalle 11:00-13:00
  • Il ricevimento studenti di lunedì 7 Ottobre è rinviato alle 14:00-16:00
  • Pubblicati i risultati della prova scritta del 17 Settembre 2013
  • La prova scritta del secondo appello di settembre si terrà il 17/09/2013 alle ore 10:00 in aula A (piano terra), la prova orale del 19/09/2013 si terrà alle ore 10:00 in aula A (piano terra)
  • Pubblicati i risultati della prova scritta del 9 Settembre 2013
  • La prova scritta del primo appello di settembre si terrà il 09/09/2013 alle ore 10:00 in aula Magna (piano terra), la prova orale del 13/09/2013 si terrà alle ore 10:00 in aula A (piano terra)
  • Pubblicati i risultati dell'appello del 02 Luglio 2013
  • La prova scritta dell'appello di luglio si terrà il 02/07/2013 alle ore 10:00 in aula Magna (piano terra), la prova orale del 04/07/2013 si terrà alle ore 10:00 in aula A (piano terra)
  • Lunedì 13 maggio l'orario di ricevimento sarà posticipato dalle 15 alle 17
  • Pubblicati i risultati del pre-appello 19 Febbraio 2013
  • La prova scritta del II pre-appello di febbraio si terrà il 19/02/2013 alle ore 15:00 in aula Hume (II piano), la prova orale del 21/02/2013 si terrà alle ore 10:00 in aula Hume (II piano)
  • Pubblicati i risultati del pre-appello 05 Febbraio 2013
  • La prova scritta del I pre-appello di febbraio si terrà il 05/02/2013 alle ore 15:00 in aula Hume (II piano), la prova orale del 07/02/2013 si terrà alle ore 10:00 in aula Hume (II piano)
  • Il pre-appello orale del 24 Gennaio 2013 si terrà in Aula Magna del Dipartimento di Informatica alle ore 10:00
  • Pubblicati i risultati del pre-appello 22 Gennaio 2013
  • Per iscriversi agli appelli utilizzare il servizio di segreteria on-line ESSE3, prenotarsi sia alle prove parziali (scritto) che all'appello (orale)
  • Pubblicati i risultati del II esonero
  • Pubblicate le tracce del II esonero
  • Pubblicati i risultati del I esonero
  • Ricevimento studenti: LUN. 11:00-13:00 IV Piano-Laboratorio LACAM, SWAP Research Group
  • Pubblicato il materiale didattico (Materiale didattico)



PRE-REQUISITI

PROPEDEUTICITÀ OBBLIGATORIE come da Manifesto del Corso di Studi
PROPEDEUTICITÀ CONSIGLIATE Linguaggi di Programmazione. Ingegneria del Software. Basi di dati. Calcolo delle probabilità e statistica. Algoritmi e Strutture Dati.


OBIETTIVI FORMATIVI

L'obiettivo del corso è quello di fornire gli strumenti fondamentali per la gestione di sorgenti di informazioni non strutturate. Nella prima parte del corso si presentano le basi delle discipline dell'elaborazione automatica di documenti testuali, dell’Information Filtering e dell’Information Retrieval. Nella seconda parte del corso si analizzano gli strumenti per la progettazione di sistemi avanzati per l’accesso semantico e personalizzato all’informazione introducendo i concetti di base per la realizzazione di sistemi intelligenti in grado di superare i classici problemi dovuti all'utilizzo del linguaggio naturale: polisemia e sinonimia. Nella seconda parte del corso si introdurranno anche i concetti di base del Semantic Web. Il corso fornisce le conoscenze per la realizzazione in linguaggio Java di sistemi complessi per la gestione di informazioni non strutturate.


OBIETTIVI PROFESSIONALIZZANTI

Estrazione automatica di informazioni da sorgenti non strutturate. Conoscenza degli elementi essenziali per il filtraggio ed il ritrovamento di informazioni da sorgenti non strutturate. Conoscenza dei concetti base del Semantic Web. Conoscenza del linguaggio Java per la programmazione di sistemi complessi.


PROGRAMMA DEL CORSO

  1. Gestire l'informazione non strutturata
    1. Text Mining: estrazione di conoscenza da informazioni non strutturate
      1. Definizione di Text Mining e processo di Text Mining
      2. Introduzione all'elaborazione del linguaggio naturale
      3. Text Mining nell’Impresa
    2. Information Retrieval (IR)
      1. Architettura di un sistema di IR
      2. Modelli di IR classici: modello booleano, vector space model, modello probabilistico
      3. Metriche per la valutazione dei sistemi di IR
    3. Text Categorization (TC)
      1. Generalità sul problema della classificazione
      2. Estensione del problema ai dati testuali: Text Categorization (TC)
      3. Machine Learning for TC: cenni sui metodi k-NN, Rocchio e analisi del metodo Naive Bayes
      4. Metriche per la valutazione dei sistemi di TC
      5. Casi applicativi
  2. Intelligent Information Access
    1. Information Overload
    2. Strategie di accesso all’informazione
    3. Information Filtering
      1. Personalizzazione: apprendimento di profili utente
      2. Il sistema ITem Recommender (ITR) e sue applicazioni
    4. Elaborazine semantica dei documenti
      1. Disambiguazione automatica di documenti testuali e WordNet
      2. Estrazioni automatica di entità da documenti testuali
      3. Il sistema MultilanguagE Text Analyzer (META)
  3. Semantic Web
    1. Introduzione a eXtensible Markup Language (XML)
    2. Introduzione al Semantic Web
    3. I linguaggi del Semantic Web: RDF, SPARQL
    4. Introduzione a Linked Open Data e BigData
    5. Utilizzo della semantica e delle ontologie nei sistemi di accesso intelligente all'informazione
      1. Il sistema di IR SENSE (Semantic N-levels Search Engine)
      2. Semantic ITR
  4. Il linguaggio Java
    1. Introduzione e riepilogo dei concetti generali del linguaggio
    2. Java e il Semantic Web
      1. Java e XML
      2. Java e RDF
    3. Java per l'estrazione di conoscenza
      1. Java per l'elaborazione dei documenti testuali
      2. Java per il Text Categorization
      3. Java per l'IR
    4. Esercitazioni: OpenNLP, Lucene, JENA

MODALITA' D'ESAME

L'esame si svolge sostenendo una prova scritta e una prova orale. Si prevedono delle esercitazioni scritte (esoneri parziali) durante il corso.

ORARIO DELLE LEZIONI

Martedì 15:00-17:00 Aula A I Piano
Mercoledì 15:00-19:00 Aula A I Piano

ORARIO RICEVIMENTO STUDENTI

Lunedì 11:00-13:00 Laboratorio LACAM IV Piano

Testi consigliati

Per i punti 1 e 2:

  • Baeza-Yates, R.A., Ribeiro-Neto, B.A., Modern Information Retrieval, ACM Press/Addison-Wesley, 1999.
  • C.D. Manning, P. Raghavan and H. Schutze, Introduction to Information Retrieval. Cambridge Univ.Press, 2008 (preliminary draft).
  • Grishman, R., Information Extraction: Techniques and Challenges. Springer-Verlag, Lecture Notes in Artificial Intelligence, Rome (1997). Web: .
  • D. Jurafsky and J. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall Series in Artificial Intelligence, 2000. ISBN 0-13-095069-6
  • M. Grobelnik, D. Mladenic, and N. Milic-Frayling, Text Mining as Integration of Several Related Research Areas. Report on KDD’2000 Workshop on Text Mining, 2000.
  • T.M. Mitchell, Machine Learning, McGraw-Hill, 1997.
  • M. Pazzani, Machine Learning and Information Filtering on the Internet, IJCAI-97 Tutorial, Nagoya, Japan, Aug 1997.
  • Sebastiani F., Machine learning in automated text categorization, ACM Computing Surveys, 34(1):1-47, 2002.
  • Christiane Fellbaum (Editor), WordNet: An Electronic Lexical Database. Edited by. MIT Press. ISBN 0-262-06197-X.
  • Tamma, V., Ontologies and their applications in knowledge sharing, dispense.
  • Bradley, N., The XML Companion, Addison-Wesley, 1998.
  • C. Manning and H. Schutze, Foundations of Statistical Natural Language Processing. MIT press, 2000.
  • Eneko Agirre and Philip Edmonds, Word sense disambiguation: Algorithms and Applications. Springer Text, Speech and Language Technology, Vol. 33, 2007.
  • P. Basile, A. Caputo, M. de Gemmis, A. L. Gentile, P. Lops, and G. Semeraro. Improving Ranked Keyword Search with SENSE: SEmantic N-levels Search Engine. Communications of SIWN (formerly: System and Information Sciences Notes), 5:39-45, August 2008. ISSN 1757-4439 (Print) 1757-4447 (CD-ROM). SIWN: The Systemics and Informatics World Network.
  • G. Semeraro, P. Basile, M. de Gemmis, and P. Lops. User Profiles for Person- alizing Digital Libraries. In Y.-L. Theng, S. Foo, D. G. H. Lian, and J.-C. Na, editors, Handbook of Research on Digital Libraries: Design, Development and Impact. IGI Global, 2009. ISBN 978-1-59904-879-6.
  • P. Basile, M. de Gemmis, A. Gentile, L. Iaquinta, P. Lops, and G. Semer- aro. META - MultilanguagE Text Analyzer. In Proceedings of the Language and Speech Technnology Conference - LangTech 2008, Rome, Italy, February 28-29 , pages 137-140. 2008.
  • G. Semeraro, M. Degemmis, P. Lops, and P. Basile. Combining Learning and Word Sense Disambiguation for Intelligent User Profiling. In M. M. Veloso, editor, IJCAI 2007, Proceedings of the 20th International Joint Conference on Artificial Intelligence, Hyderabad, India, January 6-12, 2007 , pages 2856-2861. Morgan Kaufmann, 2007.

Per il punto 3:

  • T. Berners-Lee, J. Hendler, O. Lassila, The Semantic Web: A new form of Web content that is meaningful to computers will unleash a revolution of new possibilities, Scientific American, May, 2001
  • Della Valle Emanuele, Celino Irene, Cerizza Dario. Semantic Web. Dai fondamenti alla realizzazione di un'applicazione , Pearson (collana Addison Wesley) 2009
  • F. Manola, E. Miller, RDF Primer, W3C Recommendation 10/02/2004, http://www.w3.org/TR/rdf-primer/
  • D. Beckett, RDF/XML Syntax Specification (Revised), W3C Recommendation 10/02/2004, http://www.w3.org/TR/rdf-syntaxgrammar/
  • D. Brickley, R.V. Guha, RDF Vocabulary Description Language 1.0: RDF Schema, W3C Recommendation

Per il punto 4:

  • Lewis, J., Loftus, W., Java: Fondamenti di progettazione software, Addison-Wesley, 2001.
  • Naughton, P., Schildt, H., Java: La guida completa, McGraw-Hill, 1997.
  • Horstmann, C. S., Cornell, G., Java2: I fondamenti, McGraw-Hill, 1999. Eckel, B., Thinking in Java, Prentice-Hall, December 2002. Web: http://www.mindview.net/Books/TIJ/
  • Open NLP: a Java open-source framework for Natural Language Processing. http://opennlp.apache.org/
  • Lucene: an API for Indexing and Retrieval. http://lucene.apache.org
  • Jena: Semantic Web Framework. http://jena.apache.org/

(top)


Materiale didattico


(top)

Risultati prove

MatricolaValutazione
56379825 (ammesso)
456036(non ammesso)

MatricolaValutazione
54687627 (ammesso)
51315327 (ammesso)
45603625 (ammesso)
43572619 (ammesso)

MatricolaValutazione
57194330 (ammesso)
54506029 (ammesso)
51398115 (ammesso con riserva)
52769715 (ammesso con riserva)

MatricolaValutazione
54296129 (ammesso)
553609(non ammesso)
54248323 (ammesso)
57775828 (ammesso)
513334(non ammesso)

MatricolaValutazione
51333418 (ammesso)

MatricolaValutazione
55709728 (ammesso)

MatricolaValutazione
527853(non ammesso)
57273728 (ammesso)
52676830 (ammesso)
55360919 (ammesso)

MatricolaValutazione
45640614 (ammesso con riserva)
52785314 (ammesso con riserva)
57606427 (ammesso)
57640014 (ammesso con riserva)
57499324 (ammesso)
58582926 (ammesso)
57891926 (ammesso)
57495130 (ammesso)
54224428 (ammesso)
55792319 (ammesso)
57943120 (ammesso)
56418725 (ammesso)

(top)