Thèse Année : 2024

Deep learning for molecular evolution

Apprentissage automatique pour l'évolution moléculaire

Résumé

Understanding the evolutionary history of a group of organisms is a central task in biology. In particular, given a set of sequences encoding the same protein in multiple species, an important objective is to reconstruct the tree describing their evolution from a common ancestor. While being an important step in several bioinformatic pipelines this is a hard problem in itself given that with more and more species the number of possible trees grows superexponentially. The state-of-the-art relies on probabilistic models of sequence evolution and seeks the tree that maximizes the corresponding likelihood. This strategy is only feasible with very simplified models. Moreover, it is very computationally expensive and sometimes leads to imprecise estimates. On the other hand, via simulations, it is simple to sample large quantities of data from these models. The main objective of this thesis has been to explore a supervised learning approach to the problem in a likelihood-free, simulation based inference framework. Instead of maximizing the likelihood of a sequence evolution model, we generated phylogenetic trees as well as sequences having evolved according to these models, and used them to learn a function, parameterized by a deep neural network, that transforms a set of homologous sequences into a set of evolutionary distances. The tree itself can be reconstructed then from these distances via so called distance-based methods. While in the last decades noticeable progress has been made in improving these methods, the distance estimation in itself is typically still performed in the maximum likelihood framework via simple pairwise comparisons that fail to fully exploit the information contained in the input multiple sequence alignment, eventually leading to worse reconstruction accuracies with respect to a full scale maximum likelihood approach. The present work then aims to fill this gap with a joint prediction of all evolutionary distances leveraging the recent developments and successes of deep learning in dealing with high dimensional and sequence data. We show that this new paradigm can improve existing phylogenetic reconstruction methods or lead to similar accuracies on large sets of species for which existing methods would be too resource intensive. The approach also paves the way to the adoption of more complex and realistic evolution models under which inference, with existing likelihood-based methods, would be intractable. We discuss the advantages and flexibility provided by the developed neural network architecture which can easily be adapted to deal with different related biological inference tasks showcasing its effectiveness in dealing with molecular sequence data.
Comprendre l'histoire évolutive d'un groupe d'organismes est une tâche centrale en biologie. En particulier, étant donné un ensemble de séquences codant pour la même protéine chez plusieurs espèces, un objectif important est de reconstruire l'arbre décrivant leur évolution à partir d'un ancêtre commun. Bien qu'étant une étape cruciale dans plusieurs pipelines bioinformatiques, cela représente un problème difficile en soi, car le nombre d'arbres possibles augmente de manière superexponentielle avec le nombre d'espèces. Les méthodes de pointe reposent sur des modèles probabilistes de l'évolution des séquences et cherchent à maximiser la vraisemblance de l'arbre correspondant. Cette stratégie n'est réalisable qu'avec des modèles très simplifiés. De plus, elle est extrêmement coûteuse en termes de calculs et conduit parfois à des estimations imprécises. D'un autre côté, les simulations permettent de générer facilement de grandes quantités de données à partir de ces modèles. L'objectif principal de cette thèse a été d'explorer une approche d'apprentissage supervisé pour résoudre ce problème dans un cadre d'inférence basé sur la simulation, sans recours à la vraisemblance. Au lieu de maximiser la vraisemblance d'un modèle d'évolution des séquences, nous avons généré des arbres phylogénétiques ainsi que des séquences ayant évolué selon ces modèles, et les avons utilisés pour apprendre une fonction, paramétrée par un réseau de neurones profond, qui transforme un ensemble de séquences homologues en un ensemble de distances évolutives. L'arbre lui-même peut ensuite être reconstruit à partir de ces distances via les méthodes dites basées sur la distance. Bien que des progrès notables aient été réalisés ces dernières décennies pour améliorer ces méthodes, l'estimation des distances est encore généralement effectuée dans le cadre du maximum de vraisemblance par des simples comparaisons par paires, ce qui ne permet pas d'exploiter pleinement l'information contenue dans l'alignement multiple des séquences en entré et qui conduit finalement à des précisions de reconstruction inférieures par rapport à une approche de maximum de vraisemblance complète. Le présent travail vise donc à combler cette lacune en proposant une prédiction conjointe de toutes les distances évolutives, en tirant parti des développements récents et des succès de l'apprentissage profond dans le traitement de données à haute dimension et de séquences. Nous montrons que ce nouveau paradigme peut améliorer les méthodes de reconstruction phylogénétique existantes ou aboutir à des précisions similaires pour de grands ensembles d'espèces pour lesquelles les méthodes actuelles seraient trop coûteuses en ressources. Cette approche ouvre également la voie à l'adoption de modèles d'évolution plus complexes et réalistes, pour lesquels l'inférence, avec les méthodes basées sur la vraisemblance, serait intractable. Nous discutons des avantages et de la flexibilité offerts par l'architecture de réseau de neurones développée, qui peut facilement être adaptée pour traiter différentes tâches d'inférence biologique connexes, démontrant ainsi son efficacité dans l'analyse des données de séquences moléculaires.
Fichier principal
Vignette du fichier
TH2024NESTERENKOLUCA.pdf (7) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04958728 , version 1 (20-02-2025)

Identifiants

  • HAL Id : tel-04958728 , version 1

Citer

Luca Nesterenko. Apprentissage automatique pour l'évolution moléculaire. Machine Learning [stat.ML]. Université Claude Bernard - Lyon I, 2024. Français. ⟨NNT : 2024LYO10225⟩. ⟨tel-04958728⟩
0 Consultations
0 Téléchargements

Partager

More