Marco Dinarelli avec sa première publication dans une revue IEEE    Marco Dinarelli
Web site of Marco Dinarelli in English  Site web de Marco Dinarelli en français  Sito web di Marco Dinarelli in italiano 


LIG (UMR 5217)
Office 327
700 avenue Centrale
Campus de Saint-Martin-d’Hères, France

Email:
marco [dot] dinarelli [at] univ-grenoble-alpes [dot] fr
marco [dot] dinarelli [at] ens [dot] fr
marco [dot] dinarelli [at] gmail [dot] com

                        Curriculum Vitae           Profile de Marco Dinarelli sur LinkedIn


Dernières actualités

08 / 11 / 2018:
Groupe de lecture sur la résolution de coréférences au LIG

05 / 11 / 2018:
Mon projet local Emergence a été accepté au LIG

Thèmes de recherche

  • Apprentissage automatique avec des modèles neuronaux
  • Traitement Automatique de Langues (TAL)
  • Modèles probabilistes, notamment réseaux neuronaux, méthodes stochastiques à états finis (FSM), champs aléatoires conditionnels (CRF), machines à vecteurs de support (SVM), grammaires probabilistes
  • Conception de traits structurés pour le TAL
  • Extraction automatique d'informations sémantiques

Projets de recherche

  • ANR DEMOCRAT January 2016 - December 2019
    DEscription et MOdélisation des Chaïnes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique
Projets précedents

ActivitéŽs divers

Encadrement

Enseignement

Applications

Détection d'entités nommées étendues

La détection d'entités nommées est une tâche assez commune dans le traitement automatique de lingues (TAL). Elle est utilisée comme tâche préliminaire dans des tâches plus complexes pour l'extraction d'informations sémantiques. Au delà de tâches de détection d'entités nommées très simple comme la CoNLL shared task 2003, pendant les dernières années, des tâches de détection d'entités nommées plus complexes ont été définies, comme par exemple celle décrite dans (Sekine and Nobata, 2004). Malgré la complexité de l'ensemble d'entités utilisées, les tâches de détection d'entités nommées définies dans les dernières années peuvent être modélisées plus ou moins comme tâche d'étiquettage de séquences.
Pendant la première partie de mon post-doc au LIMSI-CNRS, j'ai travaillé sur un nouveau ensemble d'entités nommées défini dans le projet Quaero. Ce nouveau ensemble d'entités nommées est décrit dans (Grouin et Al., 2011), et la différence principale, par rapport aux ensembles d'entités précédents, est la structure à arbre des entités, c'est à dire que des entités simples et plus spécifiques, appelées composants, peuvent être combinées pour former des entités complexes et plus génériques en forme d'arbre.
Étant donnée que ces entités ont une structure en forme d'arbre, cette tâche ne peut pas être modélisée comme étiquetage de séquences, ce qui rend la tâche plus difficile. Un autre aspect qui contribue à rendre cette tâche plus difficile, est le type de données utilisées: il s'agit en effets de transcriptions d'emissions radiophoniques, provenant de plusieurs chaînes radio françaises et nord-africaines.
Pour résoudre tous ces problèmes, après avoir essayé sans succès des approches pour l'analyse syntaxique, j'ai proposé une approche qui combine la robustesse des champs aléatoires conditionnels (CRF) (Lafferty et Al.,2001) dans l'étiquettage de séquences, avec la capacité à traiter des structures en forme d'arbre des algorithmes pour l'analyse syntaxique (par exemple (Charniak, 1997)), cette combinaison ayant le but de pouvoir générer structures arborées à partir des séquences plates, de façon efficace et même sur des données bruitées.
Mon approche utilise les CRF pour étiqueter les mots de la phrase en entrée avec les composants des entités. Une fois que les composants ont été étiquetés, une grammaire probabiliste hors contexte (PCFG), avec un algorithme dit de chart-parsing, est utilisée pour reconstruire les arbres d'entités complets. L'avantage d'utiliser cette approche est que les CRF sont particulièrement efficace pour l'étiquettage de séquences, et ils sont très robustes à des données bruitées, ils peuvent donc produire un étiquetage précis des composants, même quand on utilise des données bruitées comme des transcriptions d'emissions radiophoniques. Une fois que les mots ont été étiquetés avec les composants des entités, les arbres d'entités nommées sont suffisamment simples pour pouvoir être reconstruits de façon efficace même avec un modèle simple comme une PCFG.
Cette approche a été évaluée dans la campagne d'évaluation pour les systèmes de détection d'entités nommées du projet Quaero, elle a été classée première avec une grande marge sur les autres participants.
Plus de détails sur cette approche sont décrits dans (Dinarelli Rosset, IJCNLP 2011). Récemment, cette approche a été améliorée en utilisant des représentations arborées différentes dans le modèle PCFG, ayant le but de coder le contexte des noeuds des arbres. Les détails sont publiés dans (Dinarelli Rosset, EACL 2012). La même approche a été également appliqué à des données OCR-isées datant 1890, après un proces de pre-traitement décrit un détails dans (Dinarelli Rosset, LREC 2012).

Systèmes de dialogue oral homme-machines

Les systèmes de dialogue homme-machine sont des applications pour le traitement de la parole qui permettent aux personnes de parler avec une machine avec le but de résoudre une tâche.
Pendant ma thèse, j'ai travaillé sur le système de dialogue homme-machine du projet européen LUNA, notamment j'ai conçu et développé le module de compréhension de la parole. Le but était le développement d'une évolution d'une application de transfert d'appels en italien, pour une tâche de résolution de problèmes avec logiciels et materiels. Le module de compréhension de l'application intègre modèles pour la compréhension de la parole qui sont état-de-l'art et il est complémenté avec un classificateur de phrase.
Une fois que le système a associé le problème a une de dix classes possibles prévues pour la tâche, il transfert l'utilisateur sur un opérateur capable de lui offrir assistance ultérieure.
Plus de détails sur ce système sont disponibles dans l'article (Dinarelli et Al., ICASSP 2010).

Ontologies pour la compréhension de langues naturelles

D'un point de vue informatique, une ontologie est une taxonomie de classes liées par un type quelconque de rélations. Dans un context de compréhension de la parole, les classes sont semantique, autrement dits concepts, et les rélations sont de rélations semantiques entre concepts.
De Plus des rélations ontologiques traditionelles, comme "is-a" ou "part-of", nous avons définies de rélations entre concetps specifiques de la tâche, pris du corpus en italien de dialogues homme-machine decrit dans l'article (Dinarelli et Al., EACL 2009b)
. Le corpus couvre le domaine de resolution de problèmes avec logiciels et materiels et il a été utilisé pour le developement et l'évaluation de systèmes de compréhension de la parole (regarder par exemple dans (Dinarelli et Al., EACL 2009a))
. On a utilisé les relations semantiques definies dans l'ontologie pour evaluer les hypothèses d'interpretation produites par un modèle de compréhension de la parole basé sur des automates à états finis, comme celui décrit dans (Dinarelli et Al., EACL 2009a).
On choisie l'hypothèse plus correcte par rapport à une mesure de parenté ontologique definie dans l'article (Quarteroni et Al., ASRU 2009)
. Même si les resultats en termes de precision de cette solution n'ont pas amelioré l'état-de-l'art, cette idée a obtenu de très bonnes remarques à la conference Interspeech 2009 et au workshop ASRU 2009.

Thèse

Le sujet principal de ma thèse a été la compréhension de la parole dans le context des systèmes de dialogue. Le but de mes traveux a été surtout l'étude de solutions pour l'integration de differents modèles probabilistes en utilisant de modèles de reordonnancement discriminants (Collins,2000).
Notamment j'ai utilisé deux modèles pour la generation des hypotheses pour le reordonnancement: Automates stochastiques à été finis (SFST), qui encodent un modèle de language semantique (Raymond et Al.,2006), et champs aleatoires conditionels (CRF) (Lafferty et Al.,2001). Les modèles de reordonnancement était basé sur machines à vecteurs de support (SVM) (Vapnik,1998) et fonctions noyeaux conçu en particulier pour le traitement de langues naturelles, notamment fonctions noyaux sur chaines, ou "String Kernel" (Shawe-Taylor&Cristianini,2004), et fonctions noyaux sur arbres, ou "Tree Kernels" (Collins&Duffy,2001) (Moschitti,2006).
Nouvelles structures sémantiques adaptées à les fonctions noyaux utilisées ont été conçu, avec le but de donner une representation efficace aux hypothèses semantiques dans le SVM, pour plus de détails regarder (Dinarelli et Al., EMNLP 2009).
Une contribution importante aux modèles de reordonnancement est le modèle de selection des hypothèses: une heuristique qui fournie une mesure de coherence semantiques des hypothèses et qui permet de selectionner les meilleures hypothèses, parmi celles generées par SFST ou CRF, pour les détails regarder dans (Dinarelli et Al., SLT 2010), (Dinarelli Rosset, EMNLP 2011), and (Dinarelli et Al., IEEE 2011).
Les modèles joints basés sur le reordonnancement ont été evalués sur quatre corpora differents en quetre language differents: ATIS (anglais), MEDIA (français), plus les corpus italien et polonais acquis pendant le projet européen LUNA (regarder dans (Dinarelli et Al., EACL 2009b) pour le corpus italien). Une evaluation exaustive et une comparaison avec les meilleurs modèles à l'état de l'art à été faite et montre la validité de cette approche, tous les détails sont dans mes mémoires de thèse (Dinarelli, Ph.D. Dissertation 2010).

Master

Pendant mon stage de master, dernière année, j'ai étudiée, implementée et évaluée un logiciel pour la clusterisation et la compression de données.
Les algorithmes de compression peuvent être pensés comme des fonctionnes qui transforment les données de façon de reduire la redondance locale. La redundance des données est detectée par l'algorithme dans une fenêtre virtuelle sue le flux de données en entrée. La capacité et la possibilité de detection de la redundance est donc limitée à cette fenêtre, ce qui peut constituer une forte limitation à la compression quand on comprime de quantitées de données importantes ou de données très redundantes. Les algorithmes de compression plus communs, comme les algorithmes de la famille Lempel-Ziv, utilisés dans les logiciels zip et gzip disponibles sous Linux, ou les algorithmes qui utilisent la transformée de Burrows-Wheeler (BWT), comme dans le logiciel bzip2 disponible sous Linux, utilisent une fenêtre de taille fixée à priori (par example les options -1,....,-9, utilisée en exclusion mutuelle, fixent la taille de la fenêtre à 100KB,...,900KB).
Une façon d'ameliorer la performance de compression est d'agrandir la taille de la fenêtre, de façon de detecter dans les données de redundances qui sont plus loin. Malheureusement cette solution augmente aussi le temps necessaire pour la compression qui, dans les cas plus mauvais, ne peut pas être limité à priori.
La solution étudiée pendant mon stage fonctionne du point de vue opposé: au lieu d'agrandir la fenêtre arbitrarement pour detecter de redundances qui sont plus loin, j'utilise un algorithme de clusterisation très rapide qui rapproche les portions de données similaires, en augmentant donc la redundance locale des données. Après l'étape de clusterisation les données sont comprimées avec un algorithme de compression basé sur la transformée de Burrows-Wheeler. Pour être encore plus efficace, en fait l'algorithme de compression utilise une fenêtre de taille arbitraire, la taille utilisée en pratique est un parametre optimisé une fois pour toutes avec de données de developement. L'étape de clusterisation est realisée en plusieurs pas dont le premier est basé sur l'utilisation de "min-wise independent linear permutation" (Bohman, Cooper, Frieze 2000) pour convertir les parts de documents en vecteurs de features. Les vecteurs sont aprés projectés dans l'éspace de nombres réels en utilisant les "Locality Sensitive Hashing" (LSH) (Andoni, Indyk 2006). En exploitant les proprietés de LSH (c'est-à-dire vecteurs similaires, et donc parts de documents similaires, sont projectés près dans l'éspace de nombres réels), je reordonne les parts des documents selon l'ordre de leurs projections dans l'éspace réel, ce qui donne en sortie de données très redundantes. Après cette étape les données sont comprimées avec un logiciel basé sur la transformée de Burrows-Wheeler, fourni par mon directeur le professeur Paolo Ferragina

Bibliographie

(Dinarelli et Al., IEEE 2012)
Marco Dinarelli, A. Moschitti, G. Riccardi
Discriminative Reranking for Spoken Language Understanding
IEEE Journal of Transactions on Audio, Speech and Language Processing (TASLP), volume 20, issue 2, pages 526 - 539, 2012.

(Dinarelli Rosset, LREC 2012)
Marco Dinarelli, S. Rosset
Tree-Structured Named Entity Recognition on OCR Data: Analysis, Processing and Results
In Proceedings of the Language Resources and Evaluation Conference (LREC), Istanbul, Turkey, 2012.

(Dinarelli Rosset, EACL 2012)
Marco Dinarelli, S. Rosset
Tree Representations in Probabilistic Models for Extended Named Entity Detection
In Proceedings of the European chapter of the Association for Computational Linguistics (EACL), Avignon, France, 2012.

(Dinarelli Rosset, IJCNLP 2011)
Marco Dinarelli, S. Rosset
Models Cascade for Tree-Structured Named Entity Detection
In Proceedings of International Joint Conference on Natural Language Processing (IJCNLP), Chiang Mai, Thailand, 2011.

(Dinarelli Rosset, EMNLP 2011)
Marco Dinarelli, S. Rosset
Hypotheses Selection Criteria in a Reranking Framework for Spoken Language Understanding
In Proceedings of Empirical Methods for Natural Language Processing (EMNLP), Edinburgh, U.K., 2011.

(Dinarelli et Al., SLT 2010)
Marco Dinarelli, A. Moschitti, G. Riccardi
Hypotheses Selection For Re-ranking Semantic Annotations
IEEE Workshop on Spoken Language Technology (SLT), Berkeley, U.S.A., 2010.

(Dinarelli, Ph.D. Dissertation 2010)
Marco Dinarelli
Spoken Language Understanding: from Spoken Utterances to Semantic Structures
Ph.D. Dissertation, University of Trento
Department of Computer Science and Information Engineering (DISI), Italy, 2010.

(Dinarelli et Al., ICASSP 2010)
Marco Dinarelli, E. Stepanov, S. Varges, G. Riccardi
The LUNA Spoken Dialog System: Beyond Utterance Classification
In Proceedings of International Conference of Acoustics, Speech and Signal Processing (ICASSP), Dallas, USA, 2010.

(Dinarelli et Al., EMNLP 2009)
Marco Dinarelli, A. Moschitti, G. Riccardi
Reranking Models Based On Small Training Data For Spoken Language Understanding
In Proceedings of Empirical Methods for Natural Language Processing (EMNLP), Singapore, 2009.

(Dinarelli et Al., EACL 2009a)
Marco Dinarelli, A. Moschitti, G. Riccardi
Reranking Models for Spoken Language Understanding
In Proceedings of the European chapter of the Association for Computational Linguistics (EACL), Athens, Greece, 2009.

(Dinarelli et Al., EACL 2009b)
Marco Dinarelli, S. Quarteroni, S. Tonelli, A. Moschitti, G. Riccardi
Annotating Spoken Dialogs: from Speech Segments to Dialog Acts and Frame Semantics
EACL Workshop on Semantic Representation of Spoken Language, Athens, Greece, 2009.

(Quarteroni et Al., ASRU 2009)
S. Quarteroni, Marco Dinarelli, G. Riccardi
Ontology-Based Grounding Of Spoken Language Understanding
IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), Merano, Italy, 2009.