Méthodes efficaces pour l'extraction d'attributs et la classification de séquences génomiques virales basées sur une approche indépendante de l'alignement

Lebatteux, Dylan (2019). « Méthodes efficaces pour l'extraction d'attributs et la classification de séquences génomiques virales basées sur une approche indépendante de l'alignement » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en informatique.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (9MB)

Résumé

Les avancées technologiques des dernières années dans le séquençage des biomolécules ont eu pour conséquence la génération d'immenses quantités de séquences et de données biologiques. Dans les domaines de la virologie et l'épidémiologie exploitant la biologie moléculaire, l'avènement de ces quantités massives de données ont apporté de nouveaux défis aux disciplines de l'analyse des séquences biologiques et de leur classification. En effet, la classification des pathogènes appartenant aux virus émergents et ré-émergents présente des intérêts majeurs au sein des études taxonomiques, de la génomique fonctionnelle, de l'interaction hôte-pathogène, ainsi que dans la prévention et le traitement des maladies. Elle consiste à assigner une séquence donnée à son groupe apparenté de séquences connues partageant des traits et caractéristiques similaires. Cependant, les méthodes de classification actuelles sont souvent confrontées à de nombreuses contraintes : performance globale de prédiction, dépendance à l'alignement impliquant des difficultés face aux pathogènes à forte variation génomique, spécificité des méthodes à certains types de virus, temps et coût de traitement ou encore interprétabilité des décisions. Dans ce mémoire, nous introduisons CASTOR-KRFE, une méthode indépendante de l'alignement basée sur l'apprentissage automatique. Cette dernière détecte les sous-séquences nucléotidiques discriminantes au sein de séquences pathogènes connues dans l'objectif de classifier précisément celles encore inconnues. Nous avons évalué notre approche sur de nombreux jeux de données constitués, couvrant les différents groupes de virus. Enfin, CASTOR-KRFE a été comparée aux prédicteurs spécialisés du virus de l'immunodéficience humaine ainsi qu'à des méthodes populaires et récentes dans les domaines de la classification virale et de l'extraction d'attributs basés sur les k-mers (sous-séquences nucléotidiques de longueur k). Notre nouvelle méthode sera prochainement incluse sur la plateforme web CASTOR, disponible à cette adresse : http://castor.bioinfo.uqam.ca. _____________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : Classification des virus, Séquences nucléotidiques, Apprentissage automatique, Extraction d'attributs

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Diallo, Abdoulaye Baniré
Mots-clés ou Sujets: Séquence nucléotidique / Alignement de séquences / Apprentissage automatique / Virus / Classification
Unité d'appartenance: Faculté des sciences > Département d'informatique
Déposé par: Service des bibliothèques
Date de dépôt: 29 juill. 2020 13:09
Dernière modification: 29 juill. 2020 13:09
Adresse URL : http://archipel.uqam.ca/id/eprint/13409

Statistiques

Voir les statistiques sur cinq ans...