Orateur.trices invité.es

Nous aurons le plaisir d'accueillir et d'écouter

Olivier FERRET (LASTI, CEA List)
Ha NGUYEN (LIA - Avignon Université) [vidéo] [diaporama]
Lila BOUALILI (LIG - Université Grenoble Alpes) [vidéo] [diaporama]

qui nous parleront d'adaptation des modèles de langue et d'apprentissage profond, respectivement du point de vue du Traitement Automatique des Langues, de la Parole et de la Recherche d'Information.

Olivier Ferret (LASTI, CEA List)

Olivier Ferret est directeur de recherche au CEA et travaille au sein du laboratoire LASTI de l'institut List principalement dans le domaine du traitement automatique des langues. Ses recherches se concentrent depuis plusieurs années parallèlement sur la sémantique distributionnelle et l'extraction d'information. Dans le cas de la sémantique distributionnelle, cette focalisation s'est faite sur la problématique de l'extraction de relations lexicales, en particulier de nature paradigmatique, que ce soit à partir de modèles à base de compte, de modèles neuronaux statiques ou plus récemment contextuels. Une partie de ces travaux a en particulier pris place dans le cadre du projet ANR ADDICTE sur la sémantique distributionnelle pour les domaines spécialisés. Ses recherches en extraction d'information portent quant à elles sur l'extraction d'événements à partir de textes, avec un accent récent sur les approches par apprentissage à partir de peu d'exemples.

"Adaptation des grands modèles de langue au domaine : le point de vue du Traitement Automatique des Langues"

Dans cette présentation, je m'intéresserai à l'adaptation au domaine des grands modèles de langue préentraînés, en évoquant notamment quelques résultats du projet ANR ADDICTE. Après un rappel de la notion d'adaptation au domaine dans ce contexte, je présenterai trois principales approches, non exclusives les unes des autres, pour réaliser une telle adaptation. En premier lieu, je me pencherai sur l'utilisation d'un corpus représentatif du domaine cible pour prolonger le préentraînement d'un modèle de langue, en examinant en particulier l'intérêt de cette approche par rapport à un entraînement à partir de zéro. La deuxième approche se focalisera quant à elle sur la question du vocabulaire des modèles de langue et de leur extension pour intégrer les termes le plus représentatifs du domaine cible. Enfin, dans un dernier temps, je présenterai la piste de l'adaptation par le biais de l'injection de connaissances dans les modèles de langue.

Ha Nguyen (LIA)

Ha Nguyen is a postdoc at Laboratoire informatique d'Avignon (LIA), Avignon Université. He defended his Ph.D. thesis "End-to-End Neural Approaches for Speech Translation" in 2022 under the supervision of Laurent Becasier and Yannick Estève. His research interests include end-to-end deep learning approaches for Automatic Speech Translation, Automatic Speech Recognition, and Spoken Language Understanding. He is also highly interested in exploiting Self-Supervised Learning (SSL) to improve the performance of these systems. He co-authored LeBenchmark, a reproducible framework for assessing self-supervised representation learning from speech. At LIA, he also plays a role as a core member of SpeechBrain.

Self-Supervised Learning approaches for Spoken Language Processing

Self-supervised Learning (SSL) has recently become one of the hottest topics in Natural Language Processing in general and in Spoken Language Processing (SLP) in particular, because it allows leveraging a huge amount of much less expensive unannotated data for pretraining foundation models which then greatly help improve the performance of a wide range of downstream tasks, for example, Automatic Speech Recognition, Automatic Speech Translation, Spoken Language Understanding, etc. Booming interest in SSL results in the ever-growing of pre-trained SSL models, which directly makes the comparison between SSL models much less trivial than it might seem. This presentation gently introduces different SSL models available for SLP research and discusses how these models are being benchmarked. This presentation also focuses on illustrating how SSL models can be exploited in SLP downstream tasks based on the examples with wav2vec2.0, an outstanding SSL speech model.

Lila Boualili (LIG)

Lila Boualili est chercheur en post-doctorat au Laboratoire d'Informatique de Grenoble (LIG) de l'Université de Grenoble Alpes. Ses travaux de recherche actuels se concentrent sur l'amélioration des capacités de généralisation compositionnelle des modèles seq2seq en utilisant des outils de la géométrie hyperbolique.

Pendant sa thèse effectuée à l'Institut de Recherche en Informatique de Toulouse (IRIT) de l'Université de Toulouse III, elle s'est particulièrement intéressée à l'adaptation des modèles de langue pré-entraînés aux tâches de recherche d'information. Son travail consistait à analyser les signaux pertinents permettant une exploitation efficace des modèles de langue dans le contexte spécifique de la recherche ad-hoc.

"Adapter les LLMs au domaine de la Recherche d'Information"

L’introduction de modèles de langues toujours plus larges et flexibles a engendré une convergence remarquable entre les modèles utilisés pour les différentes tâches du Traitement Automatique de Langues (TAL) et de la Recherche d'Information (RI). Les modèles de langues, devenus la pierre angulaire des modèles de RI, sont généralement intégrés en tant que boîtes noires avec des ajustements minimes. Cette application directe permet aux chercheurs en RI de profiter "gratuitement" (sans refaire l’entraînement) des innovations en matière de représentation issues du TAL, et s'inscrit parfaitement dans la stratégie "plus de données, modèles plus larges". Aujourd'hui, la distinction entre les modèles de TAL destinés à l'appariement sémantique et les modèles de RI pour l'appariement de pertinence est virtuellement inexistante. Or, il existe des distinctions fondamentales entre ces deux domaines.

Malgré leur succès, l’élargissement continu des modèles de langues limite l'accès à ces modèles à une poignée d'organisations disposant des ressources nécessaires à leur utilisation et plus encore leur entraînement. Alternativement, une autre piste est envisagée: celle qui capitalise sur les connaissances spécialisées en RI pour adapter de manière optimale les modèles de langues aux particularités du domaine et des tâches. Cette piste de recherche se concentre sur les signaux de pertinence bien établis en RI, notamment l’appariement exact, et réexamine l’utilisation des index inversés dans l’ère des modèles de langues larges. En exploitant les connaissances propres à la RI, ces approches cherchent à affiner la manière dont les modèles de langues sont appliqués pour les tâches spécifiques de RI et cherche à les optimiser (e.g., temps de réponse, mémoire utilisée).

Dans cette présentation, nous explorerons quelques travaux en RI qui tirent parti de l'incroyable potentiel des modèles de langues tout en adaptant ces modèles au contexte spécifique de la recherche d'information. Nous discuterons des différences cruciales entre l'appariement sémantique et l'appariement de pertinence et nous mettrons en évidence les avantages de l’exploitation des connaissances du domaine. En fin de compte, l’objectif est de fusionner harmonieusement les modèles de langues avec les connaissances de la RI pour créer des systèmes de recherche performants et efficaces.

Vie privée | Accessibilité