Utilisation de techniques de fouille de données dans l'analyse de données de génotypage

Godefroid, Gilles (2016). « Utilisation de techniques de fouille de données dans l'analyse de données de génotypage » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (12MB)

Résumé

Le génotypage est une technique permettant l'identification d'une variation génétique dans une localisation précise du génome d'un individu, contrairement aux techniques de séquençage qui vont décoder le génome entier d'un individu. Les Genome-Wide Associations (GWAS) sont des analyses statistiques utilisées pour analyser ces données de génotypage afin de déterminer les variantes génétiques responsables d'une pathologie ou d'un trait phénotypique. Ces analyses mettent en valeur l'importance de telle ou telle variation génétique au sein de la population présentant cette caractéristique (population cas), par opposition à la population ne présentant pas cette caractéristique (population contrôle). Cette méthode statistique a donné des résultats très intéressants pour des pathologies dites mono-géniques qui ne dépendent que d'un seul gène telles que la fibrose kystique. Cependant le résultat face à des pathologies poly-géniques telles que le diabète de type 2, ou encore le syndrome métabolique, sont plus limités (Pearson et Manolio, 2008). En effet, alors que les GWAS ont permis d'identifier plusieurs gènes associés à la maladie, une grande partie de la composante génétique demeure encore inconnue pour ces maladies. Cela tient sans doute de la méthode même de GWAS qui évalue l'importance des variations génétiques une par une, alors que leur action est simultanée, déclenchée par la présence conjointe de plusieurs facteurs génétiques chez un même individu. Nous avons tenté dans ce travail de caractériser des ensembles de variations génétiques, dont la présence simultanée chez un individu permettrait de déterminer un risque accru de présenter une pathologie ou un trait phénotypique. Donc nous allons rechercher des ensembles de variations génétiques (ou motifs) dont la fréquence est significativement plus grande dans la population atteinte que dans la population saine. Pour caractériser ces motifs nous allons utiliser les techniques de fouille de données (ou data mining), plus particulièrement les techniques de recherche de motifs fréquents, à l'analyse de ces données de génotypage. En effet la fouille de données est spécialisée dans la recherche de motifs plus ou moins fréquents au sein d'une masse de données gigantesque. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Data mining, Motifs fréquents fermés, Génotypage, GWAS, Syndrome poly-génique.

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Valtchev, Petko
Mots-clés ou Sujets: Exploration de données / Dépistage génétique / Variabilité génétique / Genome-Wide Associations (GWAS) / Génétique -- Informatique
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 08 juin 2016 13:45
Dernière modification: 08 juin 2016 13:45
Adresse URL : http://www.archipel.uqam.ca/id/eprint/8573

Statistiques

Voir les statistiques sur cinq ans...