Scientific direction Development of key enabling technologies
Transfer of knowledge to industry

Programme de stages

Informatique >> Fabrication de logiciels libres
1 proposition(s).

Ajout du support de nouvelles langues à l'analyseur linguistique LIMA

DIASI/LVIC

Informatique - Fabrication de logiciels libres

Saclay

Région parisienne (91)

4 à 6 mois

Ingénieur/Master

3358708

Les candidatures doivent être adressées par email et sous forme d'un CV et d'une lettre de motivation détaillant les compétences à :
CEA Grenoble

17 rue des martyrs
38054 Grenoble
e-mail : gael.de-chalendar@cea.fr

Le laboratoire LVIC a développé un analyseur linguistique multilingue nommé LIMA (LIST Multilingual Analyzer) [1]. LIMA a été placé sous licence libre (AGPL) début 2014 [2]. À cette occasion, des ressources linguistiques libres ont été collectées et adaptées pour le français et l'anglais [3]. Mais LIMA supporte bien d'autres langues. Le laboratoire dispose par exemple de ressources propriétaires qu'il n'a pas le droit de redistribuer sous licence libre pour des langues telles que chinois, arabe, allemand, espagnol, italien, etc. L'objectif de ce stage est de collecter et adapter à LIMA des ressources libres pour de nouvelles langues. On commencera par des langues latines, en particulier le portugais (dans ses variantes portugaise et brésilienne), l'espagnol et l'italien. Le travail du stagiaire consistera à : - se familiariser avec LIMA, son fonctionnement, ses ressources linguistiques et leur production ; - rechercher et sélectionner les ressources libres nécessaires pour les langues sélectionnées ; - adapter les ressources choisies et les intégrer au processus de génération de LIMA. Les ressources concernées sont: - automate de tokenisation ; - jeu d'étiquettes grammaticales ; - dictionnaire de lemmes ou full-form ; - dictionnaire - corpus annoté pour l'apprentissage de modèles de désambiguïsation morphosyntaxique ; - règles (grammaire) pour l'analyse syntaxique ; - règles de reconnaissance d'entités nommées. Bien entendu, il ne sera pas possible d'obtenir à l'issue d'un tel stage un ensemble complet de toutes les ressources pour toutes les langues envisagées. L'objectif sera de fournir une base utilisable pouvant être étendue par la suite.

Voir toutes nos offres