Alignement multiple et séquençage de troisième génération - CRISTAL-BONSAI
Thèse Année : 2023

Multiple sequence alignment and third generation sequencing

Alignement multiple et séquençage de troisième génération

Résumé

DNA sequencing has continuously evolved over recent decades, especially with the advent of high- throughput sequencing. The third generation of sequencers has produced new data, referred to as long reads, which provide access to new biological information while overcoming the constraints of previous generations, such as short sequence length and sequence composition biases. However, due to their high error rates and error profiles, these long reads also pose new data analysis challenges. This thesis addresses this issue and specifically deals with the topic of multiple sequence alignment of long reads. Multiple sequence alignment, as its name suggests, allows for the alignment of several DNA sequences with each other. This field plays a very useful role in sequence analysis. Among other things, it allows for the identification of functional domains shared between closely related species, the identification of variants between different individuals, and the analysis of genes from the same genetic family to trace their evolutionary history in phylogeny. It is in this context that most multiple sequence alignment methods have been developed. The application to long reads is unique, as it involves detecting and correcting errors made during sequencing, as well as identifying variations within the DNA between different individuals. In this context, the objective of this thesis is to determine whether it is possible to apply existing tools, which use various multiple sequence alignment methods, to long reads. For this purpose, I developed an automated pipeline for comparing such tools, as well as an original benchmark on which I was able to conduct a reproducible evaluation of nine alignment tools.
Le séquençage d’ADN n’a cessé d’évoluer ces dernières décennies, notamment avec l’arrivée du séquençage à haut-débit. La troisième génération de séquenceurs a produit de nouvelles données, que l’on nomme long reads, qui permettent d’accéder à de nouvelles informations biologiques en surmontant les contraintes des générations précédentes, telles que la faible longueur et les biais de composition des séquences. Néanmoins, du fait de leurs forts taux et profil d’erreur, ces long reads posent égale- ment de nouvelles questions d’analyses de données. Cette thèse s’inscrit dans cette problématique et traite plus précisément du sujet de l’alignement multiple des long reads. L’alignement multiple permet, comme son nom le suggère, d’aligner plusieurs séquences d’ADN entre elles. Ce domaine joue un rôle très utile dans l’analyse de séquences. Cela permet, entre autres, d’identifier des domaines fonctionnels partagés entre espèces proches, d’identifier des variations entre différents individus ou d’analyser des gènes issus d’une même famille génétique pour en retracer l’histoire évolutive en phylogénie. C’est dans ce cadre que la plupart des méthodes d’alignement multiple ont vu le jour. L’application aux long reads est particulière, puisqu’il s’agit de détecter et corriger des erreurs commises lors du séquençage mais aussi d’identifier les variations au sein de l’ADN entre différents individus. Par conséquent, l’objectif de cette thèse est de vérifier s’il est possible d’appliquer les outils déjà existants, utilisant différentes méthodes d’alignement multiple, sur les long reads. Pour cela, j’ai développé un pipeline automatisé permettant la comparaison d’outils d’alignement multiples, ainsi qu’un benchmark original sur lequel j’ai pu mener l’évaluation de neuf outils d’alignement, de manière reproductible.
Fichier principal
Vignette du fichier
thèse_Rohmer_Coralie.pdf (4.65 Mo) Télécharger le fichier
Origine Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04455674 , version 1 (13-02-2024)
tel-04455674 , version 2 (27-05-2024)

Identifiants

  • HAL Id : tel-04455674 , version 1

Citer

Coralie Rohmer. Alignement multiple et séquençage de troisième génération. Bio-informatique [q-bio.QM]. Université de Lille, 2023. Français. ⟨NNT : ⟩. ⟨tel-04455674v1⟩

Collections

CRISTAL-BONSAI
371 Consultations
142 Téléchargements

Partager

More