Analyse de données de grande dimension à l'aide de méthodes d'apprentissage statistique

Lafond, Marie-Hélène (2017). « Analyse de données de grande dimension à l'aide de méthodes d'apprentissage statistique » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en mathématiques.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (9MB)

Résumé

Les données massives sont une partie intégrante des nouvelles recherches. Nous recueillons des milliers de données dans le but de mieux comprendre certaines maladies complexes et la génétique sous-jacente à ces maladies. Lors des analyses statistiques, nos principaux objectifs étaient de vérifier l'association entre les gènes et la maladie (la variable réponse) et de prédire l'état de santé (malade ou non malade) des sujets. Nous avons dû faire face à deux grands défis. Tout d'abord, dans des jeux de données de grande dimension, plusieurs gènes ne sont pas informatifs. En effet, parmi tous les gènes recueillis, plusieurs n'ont pas de lien avec la maladie ni avec les autres gènes présents dans l'étude. Ce qui nous amène au deuxième défi qui est d'extraire l'information utile tout en tenant compte de la structure de dépendance dans les données. Afin de réduire la dimension du jeu de données, d'extraire l'information utile et de prédire la maladie de façon appropriée, nous avons développé quelques méthodes. Nous avons entre autres combiné des méthodes de régularisation avec des méthodes classiques de classification telles que la régression logistique et l'analyse discriminante. Nous avons également combiné des méthodes non supervisées, par exemple la méthode des K-moyennes et la méthode « Weigthed Gene Co-expression Network Analysis » (WGCNA), avec des méthodes classiques et de régularisation. Par la suite, nous avons comparé toutes ces approches. Nous avons conclu que les approches constituées de la méthode WGCNA sont les plus performantes tant au niveau de l'association que de la prédiction. Nous avons donc analysé un jeu de données réelles sur la leucémie grâce à la méthode basée sur la WGCNA et nous avons conclu que la voie biologique reliée à la protéine p53 a un effet sur le gène RAS. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Régression logistique, analyse discriminante, méthodes de régularisation, « Weighted Gene Co-expression Network Analysis », réseaux biologiques

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Oualkacha, Karim
Mots-clés ou Sujets: Données volumineuses / Apprentissage statistique / Exploration de données / Régression logistique / Analyse discriminante / Ajustement (Statistique) / Weighted Gene Co-Expression Network Analysis (WGCNA) / Génétique / Maladies -- Prévision
Unité d'appartenance: Faculté des sciences > Département de mathématiques
Déposé par: Service des bibliothèques
Date de dépôt: 13 sept. 2017 14:02
Dernière modification: 13 sept. 2017 14:02
Adresse URL : http://www.archipel.uqam.ca/id/eprint/9945

Statistiques

Voir les statistiques sur cinq ans...