Classification de courriels au moyen de diverses méthodes d'apprentissage et conception d'un outil de préparation des données textuelles basé sur la programmation modulaire : PDTPM

Ziri, Oussama (2013). « Classification de courriels au moyen de diverses méthodes d'apprentissage et conception d'un outil de préparation des données textuelles basé sur la programmation modulaire : PDTPM » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (16MB)

Résumé

Les technologies numériques de l'information et de la communication sont de plus en plus utilisées. Certes, ces technologies offrent des moyens de communication pratiques, mais elles soulèvent des préoccupations concernant la protection de la vie privée et le respect en ligne. Les utilisations malveillantes des courriels ne cessent de croître et la quantité de spams a rendu pratiquement impossible d'analyser les courriels manuellement. Vu ces problématiques, le besoin de techniques automatisées, capables d'analyser des données est devenu primordial. Plusieurs applications se basant sur l'apprentissage automatique se sont établies pour analyser des données textuelles de grand volume. Les techniques du « Text Mining » analysent des données textuelles en utilisant des méthodes d'apprentissage automatique afin d'extraire les principales tendances. Cependant, les techniques de « Text Mining » ne sont capables d'être utilisées que si les données sont déjà préparées et bien structurées. Cette recherche a deux objectifs : 1) Concevoir un outil original de préparation de données qui offre et regroupe des fonctionnalités primordiales dans l'étape de préparation de données textuelles. Nous n'avons pas trouvé ces fonctionnalités dans d'autres outils de préparation de données (Sato, Alceste, WordStat, NLTK) ce qui a créé un besoin de concevoir notre logiciel. Nous l'avons appelé outil de Préparation de Données Textuelles basé sur la Programmation Modulaire, PDTPM. 2) Application des méthodes d'apprentissage automatiques dédiées au « Text Mining » pour classifier un ensemble de courriels et détecter les spams. Pour le premier objectif, après avoir étudié le processus de préparation de données, l'étude propose un outil de Préparation de Données Textuelles. Cette plateforme permet de considérer en entrée un ensemble de données textuelles brutes et de générer en sortie ces données sous une forme bien structurée qui consiste en une matrice de données documents-mots. En ce qui concerne le deuxième objectif de notre recherche, nous explorons des courriels d'une base de données publique, Lingspam, pour les classifier au moyen de méthodes d'apprentissage automatique en spams et courriels légitimes. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : text mining, apprentissage automatique, préparation des données textuelles, détection de spams, filtrage de courriels.

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur
Directeur de thèse: Lounis, Hakim
Mots-clés ou Sujets: Apprentissage automatique, Classification automatique (Statistique), Courrier électronique, Exploration de texte, Filtrage de l'information, Pourriel, Préparation des données (Informatique)
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 14 févr. 2014 16:40
Dernière modification: 01 nov. 2014 02:26
Adresse URL : http://www.archipel.uqam.ca/id/eprint/5679

Statistiques

Voir les statistiques sur cinq ans...