Stage Text - Réseaux de neurones à convolution pour modèle de langue

Type: Internship
Location: Nantes, France
Duration: 6 months

Job description

Sujet de stage : Réseaux de neurones à convolution pour modèles de langue au niveau caractère

Dans le domaine du traitement de l'image, les réseaux de neurones à convolution (CNN) sont présents dans la plupart des systèmes état-de-l'art aujourd'hui. En traitement automatique des langues, l'adoption de ce type de modèles est plus lente, notamment car les réseaux récurrents type LSTM (Long Short-Term Memory) se sont imposés comme la solution de référence pour la modélisation de la langue.

Néanmoins, plusieurs travaux autour des CNN ont été proposés en NLP ces dernières années (cf par exemple Yin et al., 2017), a fortiori pour les modèles de langues caractère (Kim et al, 2016). Dans ce contexte, les CNN apparaissent comme une façon d'aggréger l'information « bas niveau » apportée par les caractères. 

Le moteur de reconnaissance d'écriture de MyScript utilise des modèles de langue au niveau mot et caractère pour évaluer la vraisemblance de différentes hypothèses. Dans ce stage, nous proposons d'évaluer l'apport de modèles de langue CNN au niveau caractère pour la reconnaissance d'écriture. Au sein du département R&D MyScript Labs, le stagiaire conduira ses expériences en s'appuyant à la fois sur les outils développés chez MyScript, des librairies externes (par exemple, Bai et al, 2018) et du code spécifique dans un framework de deep learning.

Profile

  • École d’ingénieur ou M2.
  • Connaissances en Python, PyTorch ou Tensorflow, Git.
  • Connaissances additionnelles intéressantes : C, NLP, Bash, industrialisation (Jenkins), Unicode.
Apply