Étude d'une loi a priori pour les arbres binaires de régression

Jolicoeur-Martineau, Alexia (2016). « Étude d'une loi a priori pour les arbres binaires de régression » Mémoire. Montréal (Québec, Canada), Université du Québec à Montréal, Maîtrise en mathématiques.

Fichier(s) associé(s) à ce document :
[img]
Prévisualisation
PDF
Télécharger (9MB)

Résumé

Dans ce mémoire, on introduit les modèles d'arbres de régression fréquentiste et bayésien. On s'intéresse en particulier au modèle d'arbres bayésien proposé par Chipman et al. (1998). La loi a priori de l'arbre définie par Chipman et al. (1998) est spécifiée indirectement par un processus récursif et dépend de deux hyperparamètres. Selon les auteurs, le premier hyperparamètre sert à contrôler la grandeur de l'arbre et le deuxième hyperparamètre sert à contrôler sa forme. On tente de confirmer ces assertions et de mieux comprendre le fonctionnement de la loi a priori. Plus précisément, on étudie, dans ce travail, l'impact du choix des hyperparamètres et de la matrice des variables explicatives sur les propriétés de la loi a priori de l'arbre de régression. De plus, on étudie l'impact d'un choix approprié d'hyperparamètres sur la loi a posteriori de l'arbre lorsque la réelle structure est connue. On commence par dériver les formules théoriques de l'espérance et de la variance du nombre de feuilles selon la loi a priori de l'arbre dans un cas spécial et idéal, c'est-à-dire, avec un hyperparamètre fixé à zéro et une infinité d'observations distinctes. Dans ce cas spécial, la profondeur de l'arbre est directement liée à son nombre de feuilles. Dans le cas général, sans hyperparamètre fixé à zéro, on ne peut dériver analytiquement les formules de l'espérance et de la variance du nombre de feuilles et de la profondeur. On procède donc à l'estimation de ces quantités par simulation des arbres a priori. Ensuite, pour étudier l'impact de la loi a priori sur les arbres a posteriori, on ajuste un arbre de régression avec différents choix d'hyperparamètres, du nombre d'observations et du rapport signal sur bruit. On constate en premier que le nombre moyen de feuilles des arbres a priori est associé positivement avec le premier hyperparamètre et négativement avec le deuxième hyperparamètre. Il est donc possible d'obtenir le même nombre moyen de feuilles avec une infinité de combinaisons différentes des hyperparamètres. En choisissant de grandes valeurs pour les deux hyperparamètres, de façon à obtenir le même nombre de feuilles qu'avec de petites valeurs, on obtient moins de variabilité dans le nombre de feuilles et la profondeur des arbres. On observe de plus que de changer directement un hyperparamètre en fixant l'autre hyperparamètre ne permet pas de réduire la profondeur des arbres sans réduire le nombre de feuilles. Ces résultats révèlent que les deux hyperparamètres contrôlent non seulement la moyenne du nombre de feuilles des arbres, mais aussi la variance de celui-ci. À cause des restrictions sur les hyperparamètres et des limites imposées par la taille échantillonnale, il est toutefois impossible d'obtenir une loi a priori avec une moyenne arbitrairement grande et une variance arbitrairement petite du nombre de feuilles. La loi a priori de l'arbre dépend implicitement de la matrice des variables explicatives. On constate que de réduire le nombre d'observations distinctes, lorsqu'on a une seule variable explicative, réduit de façon considérable le nombre de feuilles moyen des arbres a priori. Finalement, dans l'exemple synthétique, on constate que le modèle d'arbres bayésien performe mieux lorsque l'on choisit les hyperparamètres de façon à centrer la loi a priori de l'arbre sur le véritable nombre de feuilles que lorsqu'on utilise les hyperparamètres par défaut du paquet tgp du progiciel R. ______________________________________________________________________________ MOTS-CLÉS DE L’AUTEUR : arbres de régression et classification (CART), modèle bayésien, loi a priori, hyperparamètres

Type: Mémoire accepté
Informations complémentaires: Le mémoire a été numérisé tel que transmis par l'auteur.
Directeur de thèse: Lefebvre, Geneviève
Mots-clés ou Sujets: Arbres de régression et de classification (CART) / Analyse de régression / Arbres (Théorie des graphes) / Théorème de Bayes / Loi a priori / Hyperparamètres
Unité d'appartenance: Faculté des sciences > Département de mathématiques
Déposé par: Service des bibliothèques
Date de dépôt: 26 oct. 2016 20:12
Dernière modification: 26 oct. 2016 20:12
Adresse URL : http://archipel.uqam.ca/id/eprint/8973

Statistiques

Voir les statistiques sur cinq ans...