Thèmes de recherche

Apprentissage automatique et apprentissage profond
Traitement Automatique de Langues (TAL), en particulier modélisation de séquences
Reconnaissance et compréhension de la parole (ASRU)
Modèles probabilistes, notamment réseaux neuronaux, champs aléatoires conditionnels (CRF), méthodes stochastiques à états finis (FSM), machines à vecteurs de support (SVM), grammaires probabilistes
Apprentissage de représentations

Projets de recherche

Pantagruel: Modèles de langue multimodaux et inclusifs pour le français général et clinique (Responsable Lot2), Octobre 2023 - Avril 2027
E-SSL: Efficient Self-Supervised Learning for Inclusive and Innovative Speech Technologies (Collaborateur), Novembre 2022 - Avril 2026
ANR PRC project (CE23)
CREMA: Coreference REsolution into MAchine translation (Porteur), Janvier 2022 - Décembre 2025
ANR JCJC (Jeunes Chercheuses Jeunes Chercheurs) project (CE23)

Projets précedents

MAKE-NMTViz: Visualisation and explanation of NMT models (Collaborateur), Septembre 2022 - Septembre 2024

Chaire MIAI (Multidisciplinary Institute in Artificial Intelligence) (Collaborateur), Octobre 2019 - Décembre 2024

Multi-Task Sequence Prediction for NLP (Porteur), Janvier 2021 - Décembre 2021
LIG local Emergence project
Neural Coreference Resolution (Porteur), Janvier 2019 - Décembre 2019
LIG local Emergence project
ANR DEMOCRAT (Collaborateur), Janvier 2016 - Décembre 2019
DEscription et MOdélisation des Chaïnes de Référence : outils pour l'Annotation de corpus (en diachronie et en langues comparées) et le Traitement automatique
Quaero (Collaborateur), Juin 2010 - Septembre 2013
TRACE (Collaborateur), Décembre 2011 - Novembre 2012
Live Memories (Collaborateur), Novembre 2009 - Mars 2010
LUNA (Collaborateur), Octobre 2006 - Octobre 2009

Encadrement

Post doctorants

Gabriela Gonzales-Saez, 10/2024 - 09/2025, financé par ANR JCJC CREMA
Sujet : Context-Aware NMT models explainability

Hang Le, 10/2023 - 12/2024, financé par Pantagruel
Sujet : Multi-Modal SSL Models for Text, Speech and Image

Gabriela Gonzales-Saez, 07/2023 - 09/2024, financé par MAKE-NMTViz
Sujet : NMT models visualisation and explainability

Elisa Gugliotta, 06/2022 - 02/2023, financé par Chaire MIAI (Multidisciplinary Institute in Artificial Intelligence)
Sujet : NLP for Arabish analysis

Doctorants

Yuxuan Zhang, 2024 - 2027, doctorant/e CIFRE chez Eloquant
avec Fabien Ringeval, Ruslan Kalitvianski
Sujet : Prediction of user satisfaction
Thèse en cours

Ryan Whetten, 2023 - 2026, doctorant/e à LIA, UGA, Samsung AI Center Cambridge
avec Yannick Estève, Titouan Parcollet
Sujet : Efficient SSL Models for Speech
Thèse en cours

Mariam Nakhlé, 2022 - 2025, doctorant/e CIFRE chez Lingua Custodia
avec Emmanuelle Esperança-Rodier, Raheel Qader
Sujet : Document-Level Machine Translation Evaluation
Thèse en cours

Fabien Lopez, 2022 - 2025, doctorant/e à UGA
avec Didier Schwab, Emmanuelle Esperança-Rodier
Sujet : Coreference Resolution and Machine Translation
Thèse en cours

Lorenzo Lupo, 2019 - 2022, doctorant/e à UGA
avec Laurent Besacier
Sujet : Document-Level Neural Machine Translation
Thèse soutenue en Mars 2023

Elisa Gugliotta, 2019 - 2022, doctorant/e à La Sapienza, UGA
avec Giuliano Mion, Olivier Kraif
Sujet : NLP for Arabish analysis
Thèse soutenue en Mai 2022

Loïc Grobol, 2016 - 2020, doctorant/e à Paris 3
avec Isabelle Tellier/Frédéric Landragin, Eric De La Clergerie
Sujet : Coreference Resolution
Thèse soutenue en Juillet 2020

Tian Tian, 2014 - 2019, doctorant/e CIFRE chez Synthesio
avec Isabelle Tellier/Thierry Poibeau
Sujet : NLP for User-Generated-Content analysis
Thèse soutenue en Octobre 2019

Yoann Dupont, 2013 - 2017, doctorant/e CIFRE chez Expert System (ex Temis)
avec Isabelle Tellier
Sujet : Named Entity Detection
Thèse soutenue en Novembre 2017

Étudiants de master

2025 Master 2 Ilya Kholosha, Sujet : Context-Aware NMT Evaluation: evaluation procedure

2025 Master 2 Rachel Atherly, Sujet : Context-Aware NMT Evaluation: document-level data

2023 Master 2 Dimitra Niaouri, Sujet : Context-Aware Machine Translation Evaluation

2022 Master 2 Romaissa Kessi, Sujet : Classification of political adds

2021 Master 2 Lyheang Ung, Sujet : Multi-task sequence-to-sequence learning

2021 Master 2 Marco Naguib, Sujet : End-to-End Spoken Language Understanding

2021 Master 2 Laura Alonzo Canul, Sujet : Document-Level Neural Machine Translation

2019 Master 2 Julien Sfeir, Sujet : Neural Coreference Resolution

2019 Master 2 Nikita Kapoor, Sujet : End-to-End Spoken Language Understanding

2017 Master 2 Evann Cordier, Sujet : Entity-Aware Language Models

2016 Master 2 Nour El Houda Belhaouane, Sujet : Mention detection for coreference resolution

2015 Master 2 Abdelwahed Zaki, Sujet : Mention detection for coreference resolution

2015 Master 1 Sina Ahmadi, Sujet : Entity detection for coreference resolution

Enseignement

CM Natural Language Processing for master Mosig 2024 (English only) @ UGA (8h)
Material:

Coreference Resolution slides
Introduction to Statistical Machine Translation slides
Neural Machine Translation slides

For going further with NMT, suggested readings:

LSTM based NMT
Transformer based NMT
CNN based NMT
Concatenation based Context-Aware NMT (CA-NMT)
Multi-Encoder based CA-NMT
BLEU evaluation metric for MT
Contrastive test-suite evaluation for MT

Neural Machine Translation Evaluation slides

CM Natural Language Processing for master Mosig 2023 (English only) @ UGA (5h)

CM Natural Language Processing for master Mosig 2022 (English only) @ UGA (5h)
TD Analyse Syntaxique 2019 @ UGA (40h)
TD Traitement Automatique de Langues (TAL) 2015 @ Paris 6 (40h)
CM Introduction au TAL @ Paris 3 (4h)

Divers

Je suis régulièrement relecteur pour des revues nationales et internationales
Je suis régulièrement dans le programme scientifique (relecteur) de conférences comme IJCAI, AAAI, IJCNLP, TALN, ...

2024, Area chair à la conférence internationale Coling 2025
2024, Examinateur à la soutenance de thèse de Gaëlle Laperrière
2024, Évaluateur de projet pour MIAI
2024, Évaluateur de projet pour l'IRGA
2024, Évaluateur de projet pour l'ANR
2023, Membre du comité d'évaluation des articles à EMNLP
2023, Membre d'un comité d'évaluation de projets pour l'ANR
2022, Co-organisateur du workshop "Rumore di fondo o valore aggiunto" à Grenoble portant sur la détection du bruit dans les données annotées
2022, exposé sur le projet LeBenchmark à la journée des grands challenges du GENCI au LPS, Orsay, France
2022, Chair de la session Spoken Language Modeling and Understanding à Interspeech 2022
2022, Membre du comité de programme des Journées Jointes des GDR LIFT et TAL
2022, exposé sur le projet LeBenchmark au workshop franco-allemand sur l'IA, INRIA Rocancourt, Paris
2022, Co-organisateur de la journée GDR TAL Parole
2019, Examinateur à la soutenance de thèse d'Edwin Simonnet
2018, Évaluateur de projet pour l'ANR
2017, Area chair à la conférence française TALN
2016, Évaluateur de projet pour le Fond de recherche Nature et Technologies Québec
Membre du comité de programme de la Conférence international ACL 2015 (International Conference of the Association for Computational Linguistics)
Relecteur pour la revue Journal of IEEE Signal Processing Letters 2015
Membre du comité de programme de la Conférence international ACL 2014 (International Conference of the Association for Computational Linguistics)
Relecteur pour la revue Journal of Natural Language Engineering (JNLE) 2013
Membre du comitÃ© de programme de la ConfÃ©rence international ACL 2013 (International Conference of the Association for Computational Linguistics)
Membre du comitÃ© de programme de la ConfÃ©rence international IJCAI 2013 (International Joint Conference on Artificial Intelligence)

Projets pratiques précedents

Détection d'entités nommées étendues
La détection d'entités nommées est une tâche assez commune dans le traitement automatique des langues (TAL). Elle est souvent utilisée comme tâche préliminaire dans des tâches plus complexes pour l'extraction d'informations sémantiques. Au delà des tâches de détection d'entités nommées classiques comme la CoNLL shared task 2003, pendant les dernières années, des tâches de détection d'entités nommées plus complexes ont été définies, comme par exemple celle décrite dans (Sekine and Nobata, 2004). Malgré la complexité de l'ensemble d'entités utilisées, les tâches de détection d'entités nommées définies dans les dernières années peuvent être modélisées comme tâche d'étiquettage de séquences.
Pendant la première partie de mon post-doc au LIMSI-CNRS, j'ai travaillé sur un nouveau ensemble d'entités nommées défini dans le projet Quaero. Ce nouveau ensemble d'entités nommées est décrit dans (Grouin et Al., 2011), et la différence principale, par rapport aux ensembles d'entités précédents, est la structure arborée des entités, c'est à dire que des entités simples et plus spécifiques, appelées composants, peuvent être combinées pour former des entités complexes et plus génériques sous la forme d'un arbre.
Étant donnée que ces entités ont une structure en forme d'arbre, cette tâche ne peut pas être modélisée comme un étiquetage de séquences, ce qui rend la tâche plus difficile. Un autre aspect qui contribue à rendre cette tâche plus difficile, est le type de données utilisées: il s'agit en effet de transcriptions d'emissions radiophoniques, provenant de plusieurs chaînes radio françaises et nord-africaines.
Pour résoudre tous ces problèmes, après avoir essayé sans succès des approches issues de l'analyse syntaxique, j'ai proposé une approche qui combine la robustesse des champs aléatoires conditionnels (CRF) (Lafferty et Al.,2001) dans l'étiquettage de séquences, avec la capacité à traiter des structures en forme d'arbre des algorithmes pour l'analyse syntaxique (par exemple (Charniak, 1997)), cette combinaison ayant le but de pouvoir générer structures arborées à partir des séquences plates, de façon efficace et même sur des données bruitées.
Mon approche utilise les CRF pour étiqueter les mots de la phrase en entrée avec les composants des entités. Une fois que les composants ont été étiquetés, une grammaire probabiliste hors contexte (PCFG), avec un algorithme dit de chart-parsing, est utilisée pour reconstruire les arbres d'entités complets. L'avantage d'utiliser cette approche est que les CRF sont particulièrement efficace pour l'étiquettage de séquences, et ils sont très robustes à des données bruitées, ils peuvent donc produire un étiquetage précis des composants, même quand on utilise des données bruitées comme des transcriptions d'emissions radiophoniques. Une fois que les mots ont été étiquetés avec les composants des entités, les arbres d'entités nommées sont suffisamment simples pour pouvoir être reconstruits de façon efficace même avec un modèle simple comme une PCFG.
Cette approche a été évaluée dans la campagne d'évaluation pour les systèmes de détection d'entités nommées du projet Quaero, elle a été classée première avec une grande marge sur les autres participants.
Plus de détails sur cette approche sont décrits dans (Dinarelli Rosset, IJCNLP 2011). Récemment, cette approche a été améliorée en utilisant des représentations arborées différentes dans le modèle PCFG, ayant le but de coder le contexte des noeuds des arbres. Les détails sont publiés dans (Dinarelli Rosset, EACL 2012). La même approche a été également appliqué à des données OCR-isées datant de 1890, après un proces de pre-traitement décrit un détails dans (Dinarelli Rosset, LREC 2012).

Systèmes de dialogue oral homme-machines
Les systèmes de dialogue humain-machine sont des applications pour le traitement de la parole qui permettent aux personnes de parler avec une machine, avec le but de résoudre une tâche.
Pendant ma thèse, j'ai travaillé sur le système de dialogue humain-machine du projet européen LUNA, notamment j'ai conçu et développé le module de compréhension de la parole. Le but était le développement d'une évolution d'une application de transfert d'appels en italien, pour une tâche de résolution de problèmes avec logiciels et materiels informatiques. Le module de compréhension de l'application intègre des modèles pour la compréhension de la parole qui sont état-de-l'art et il est complété avec un classificateur de phrase.
Une fois que le système a associé le problème a une des dix classes possibles prévues pour la tâche, il transfert l'utilisateur sur un opérateur capable de lui offrir une assistance plus précise.
Plus de détails sur ce système sont disponibles dans l'article (Dinarelli et Al., ICASSP 2010).

Ontologies pour la compréhension de langues naturelles
D'un point de vue informatique, une ontologie est une taxonomie de classes liées par un type quelconque de rélations. Dans un contexte de compréhension de la parole, les classes sont semantique, autrement dits des concepts, et les rélations sont des rélations semantiques entre concepts.
De plus des rélations ontologiques traditionelles, comme "is-a" ou "part-of", nous avons définies des rélations entre concetps specifiques de la tâche, pris du corpus en italien des dialogues humain-machine decrit dans l'article (Dinarelli et Al., EACL 2009b)
. Le corpus couvre le domaine de la resolution de problèmes avec logiciels et materiels informatiques et il a été utilisé pour le developement et l'évaluation de systèmes de compréhension de la parole (regarder par exemple dans (Dinarelli et Al., EACL 2009a))
. Nous avons utilisé les relations semantiques definies dans l'ontologie pour evaluer les hypothèses d'interprétation, produites par un modèle de compréhension de la parole basé sur des automates à états finis, comme celui décrit dans (Dinarelli et Al., EACL 2009a).
Nous choisissons l'hypothèse plus correcte par rapport à une mesure de parenté ontologique definie dans l'article (Quarteroni et Al., ASRU 2009)
. Même si les resultats, en termes de précision, de cette solution n'ont pas amelioré l'état-de-l'art, cette idée a obtenu des très bonnes remarques à la conference Interspeech 2009 et au workshop ASRU 2009.

Thèse

Le sujet principal de ma thèse a été la compréhension automatique de la parole dans le contexte des systèmes de dialogue. Le but des mes traveux a été surtout l'étude de solutions pour l'integration de differents modèles probabilistes en utilisant des modèles de reordonnancement discriminants (Collins,2000).
Notamment j'ai utilisé deux modèles pour la generation d'hypotheses pour le reordonnancement: un modèle de language semantique (Raymond et Al.,2006), encodé dans des automates stochastiques à états finis (SFST), et des champs aleatoires conditionels (CRF) (Lafferty et Al.,2001). Les modèles de reordonnancement étaient basés sur des machines à vecteurs de support (SVM) (Vapnik,1998) avec des fonctions noyeaux conçues en particulier pour le traitement de langues naturelles, notamment des fonctions noyaux pour les chaines de caractères, ou "String Kernel" (Shawe-Taylor&Cristianini,2004), et des fonctions noyaux pour des structures arborées, ou "Tree Kernels" (Collins&Duffy,2001) (Moschitti,2006).
Des nouvelles structures sémantiques adaptées aux fonctions noyaux utilisées ont été conçues, avec le but de donner une representation efficace aux hypothèses semantiques dans le SVM, pour plus de détails regarder (Dinarelli et Al., EMNLP 2009).
Une contribution importante aux modèles de reordonnancement est le modèle de selection des hypothèses: une heuristique qui fournie une mesure de coherence semantiques des hypothèses et qui permet de selectionner les meilleures hypothèses, parmi celles generées par les SFST ou les CRF, pour les détails regarder dans (Dinarelli et Al., SLT 2010), (Dinarelli Rosset, EMNLP 2011), and (Dinarelli et Al., IEEE 2011).
Les modèles joints basés sur le reordonnancement ont été evalués sur quatre corpus differents en quatre langues differentes: ATIS (anglais), MEDIA (français), plus les corpus italien et polonais acquis pendant le projet européen LUNA (regarder dans (Dinarelli et Al., EACL 2009b) pour le corpus italien). Une evaluation exaustive et une comparaison avec les meilleurs modèles à l'état de l'art à été faite et montre la validité de cette approche, tous les détails sont dans mes mémoires de thèse (Dinarelli, Ph.D. Dissertation 2010).

Master

Pendant mon stage de master, dernière année, j'ai étudié, implementé et évalué un logiciel pour la clusterisation et la compression de données.
Les algorithmes de compression de données peuvent être pensés comme des fonctions qui transforment les données de façon à reduire la redondance locale. La redondance des données est detectée par l'algorithme dans une fenêtre de taille fixée sur le flux de données en entrée. La capacité et la possibilité de detection de la redondance est donc limitée à cette fenêtre, ce qui peut constituer une forte limitation à la compression quand on comprime des quantités de données importantes ou des données très redondantes. Les algorithmes de compression plus communs, comme les algorithmes de la famille Lempel-Ziv, utilisés par exemple dans les logiciels zip et gzip disponibles sous Linux, ou les algorithmes qui utilisent la transformation de Burrows-Wheeler (BWT), comme par exemple dans le logiciel bzip2 disponible sous Linux, utilisent une fenêtre de taille fixée à priori (par example les options -1,....,-9, utilisées en exclusion mutuelle, fixent la taille de la fenêtre à 100KB,...,900KB).
Une façon d'ameliorer la performance de compression est d'agrandir la taille de la fenêtre, afin de detecter dans les données de redondances à plus grande distance les unes par rapport aux autres. Malheureusement cette solution augmente aussi le temps necessaire pour la compression qui, dans le pire des cas, ne peut pas être connu et limité à priori.
La solution étudiée pendant mon stage fonctionne du point de vue opposé: au lieu d'agrandir la fenêtre arbitrarement pour detecter de redundances qui sont plus loin, j'ai utilisé un algorithme de clusterisation très rapide qui rapproche les portions de données similaires, en augmentant donc la redondance locale des données. Après l'étape de clusterisation les données sont comprimées avec un algorithme de compression basé sur la transformation de Burrows-Wheeler. Pour être encore plus efficace, en fait l'algorithme de compression peut utiliser une fenêtre de taille arbitraire, la taille utilisée en pratique est un parametre optimisé une fois pour toutes avec des données de validation. L'étape de clusterisation est realisée en plusieurs pas dont le premier est basé sur l'utilisation de "min-wise independent linear permutation" (Bohman, Cooper, Frieze 2000) pour convertir des portions de document en vecteurs de caractéristiques. Les vecteurs sont aprés projectés dans l'éspace des nombres réels en utilisant les "Locality Sensitive Hashing" (LSH) (Andoni, Indyk 2006). En exploitant les proprietés des LSH, c'est-à-dire que des vecteurs similaires, et donc des parties de documents similaires, sont projectés proches les uns des autres dans l'éspace des nombres réels, je reordonne les parties des documents selon l'ordre de leurs projections dans l'éspace réel, ce qui donne en sortie des données très redondantes et donc fortement compressibles. Après cette étape les données sont comprimées avec un logiciel basé sur la transformée de Burrows-Wheeler, fourni par mon directeur le professeur Paolo Ferragina

Bibliographie

(Dinarelli et Al., IEEE 2012)
Marco Dinarelli, A. Moschitti, G. Riccardi
Discriminative Reranking for Spoken Language Understanding
IEEE Journal of Transactions on Audio, Speech and Language Processing (TASLP), volume 20, issue 2, pages 526 - 539, 2012.

(Dinarelli Rosset, LREC 2012)
Marco Dinarelli, S. Rosset
Tree-Structured Named Entity Recognition on OCR Data: Analysis, Processing and Results
In Proceedings of the Language Resources and Evaluation Conference (LREC), Istanbul, Turkey, 2012.

(Dinarelli Rosset, EACL 2012)
Marco Dinarelli, S. Rosset
Tree Representations in Probabilistic Models for Extended Named Entity Detection
In Proceedings of the European chapter of the Association for Computational Linguistics (EACL), Avignon, France, 2012.

(Dinarelli Rosset, IJCNLP 2011)
Marco Dinarelli, S. Rosset
Models Cascade for Tree-Structured Named Entity Detection
In Proceedings of International Joint Conference on Natural Language Processing (IJCNLP), Chiang Mai, Thailand, 2011.

(Dinarelli Rosset, EMNLP 2011)
Marco Dinarelli, S. Rosset
Hypotheses Selection Criteria in a Reranking Framework for Spoken Language Understanding
In Proceedings of Empirical Methods for Natural Language Processing (EMNLP), Edinburgh, U.K., 2011.

(Dinarelli et Al., SLT 2010)
Marco Dinarelli, A. Moschitti, G. Riccardi
Hypotheses Selection For Re-ranking Semantic Annotations
IEEE Workshop on Spoken Language Technology (SLT), Berkeley, U.S.A., 2010.

(Dinarelli, Ph.D. Dissertation 2010)
Marco Dinarelli
Spoken Language Understanding: from Spoken Utterances to Semantic Structures
Ph.D. Dissertation, University of Trento
Department of Computer Science and Information Engineering (DISI), Italy, 2010.

(Dinarelli et Al., ICASSP 2010)
Marco Dinarelli, E. Stepanov, S. Varges, G. Riccardi
The LUNA Spoken Dialog System: Beyond Utterance Classification
In Proceedings of International Conference of Acoustics, Speech and Signal Processing (ICASSP), Dallas, USA, 2010.

(Dinarelli et Al., EMNLP 2009)
Marco Dinarelli, A. Moschitti, G. Riccardi
Reranking Models Based On Small Training Data For Spoken Language Understanding
In Proceedings of Empirical Methods for Natural Language Processing (EMNLP), Singapore, 2009.

(Dinarelli et Al., EACL 2009a)
Marco Dinarelli, A. Moschitti, G. Riccardi
Reranking Models for Spoken Language Understanding
In Proceedings of the European chapter of the Association for Computational Linguistics (EACL), Athens, Greece, 2009.

(Dinarelli et Al., EACL 2009b)
Marco Dinarelli, S. Quarteroni, S. Tonelli, A. Moschitti, G. Riccardi
Annotating Spoken Dialogs: from Speech Segments to Dialog Acts and Frame Semantics
EACL Workshop on Semantic Representation of Spoken Language, Athens, Greece, 2009.

(Quarteroni et Al., ASRU 2009)
S. Quarteroni, Marco Dinarelli, G. Riccardi
Ontology-Based Grounding Of Spoken Language Understanding
IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), Merano, Italy, 2009.