Traduction automatique statistique et adaptation au domaine des médias sociaux

Mallek, Fatma (2017). « Traduction automatique statistique et adaptation au domaine des médias sociaux » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (6MB)

Résumé

Le besoin de communiquer en plusieurs langues est devenu une nécessité dans un monde envahi par les nouvelles technologies de communication et les médias sociaux, comme les blagues, les wikis, les microblogues, etc. Ainsi, Twitter constitue une source continue et illimitée de données en langage naturel, qui est particulièrement non structurée et hautement bruitée, ce qui la rend difficile à traiter avec les approches classiques de Traitement Automatique du Langage Naturel (TALN). Ce travail de recherche consiste donc en l'élaboration d'un système de traduction automatique statistique à base de segments pour la traduction des tweets d'une langue à morphologie riche et complexe, l'arabe vers l'anglais. Notre premier intérêt est le prétraitement des tweets hautement bruités pour la langue source (arabe) et la langue cible (anglais). Cette phase comprend la normalisation, la segmentation des mots ainsi que l'adaptation des outils linguistiques existants pour le traitement de ces deux langues naturelles au domaine des médias sociaux. Notre deuxième intérêt est l'incorporation de données hors domaine lors de l'entraînement des deux modèles de traduction et de langue, afin de concevoir un système de traduction automatique statistique performant pour les tweets. Nos évaluations confirment notre thèse selon laquelle le prétraitement des langues source et cible améliore la performance du système de traduction automatique statistique. De plus, l'utilisation d'un système hybride du domaine et hors domaine pour l'entraînement des modèles de langues ainsi qu'une optimisation des poids du décodeur Moses avec un corpus de développement du domaine a donné un système de traduction automatique statistique plus efficace, pour les tweets de la langue arabe vers l'anglais. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : médias sociaux, tweets, traduction automatique statistique à base de segments, modèle de langue, modèle de traduction, normalisation.

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Sadat, Fatiha
Mots-clés ou Sujets: Traduction automatique statistique / Arabe -- Traduction automatique / Arabe -- Traduction en anglais / Micromessages / Médias sociaux / Traitement automatique des langues naturelles
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 13 sept. 2017 13:42
Dernière modification: 13 sept. 2017 13:42
Adresse URL : http://www.archipel.uqam.ca/id/eprint/9943

Statistiques

Voir les statistiques sur cinq ans...