Réunion projet C3G - Paris 5 et 6 sept 2017
Le projet de recherche mastodons C3G, qui traite de la correction de données de séquençage et d'assemblage de génomes, se réunit à Paris pour deux jours d'exposés et d'échanges.
Déroulement 5 sept
- installation 10h45
- 11h00 - 11h10 introduction
- 11h15 - 11h45 F. Legeai (assemblage)
- 11h45 - 12h30 C. Marchet
- 12h30 - 14h00 repas
- 14h00 - 14h30 G. Castel et E. Rivals
- 14h40 - 15h20 P. Morisse
- 15h20 - 16h00 G. Koutsovoulos
- 16h00 - 16h30 Pause
- 16h30 - 17h10 A. Limasset
- 17h10 - 17h30 Discussion : conclusions scientifiques, actions envisagées, communication
Déroulement 6 sept 2017
- 9h10 - 9h50 F. Legeai (transcriptome)
- 9h50 - 10h30 B. Cazaux
- 10h30 - 11h00 pause
- 11h00 - 11h40 J-F. Flot
- 11h40 - 12h00 E. Danchin
- 12h00 - 13h30 repas
- 13h40 - 14h40 Discussion : questions algorithmiques
- 14h40 - 15h10 pause
- 15h20 - 16h20 Discussion : questions biologiques et données
- 16h20 - 17h00 Conclusions
Informations pratiques
- Lieu - INRA 11 rue Jean Nicot
- début 5 septembre 2017 à 10 h 45
- fin 6 septembre à 17h00
- Diner du 5 septembre : Restaurant Le Tourbillon 19h45
Titre et résumés
Assemblage hybride du puceron du pois
Fabrice Legeai
La version actuelle du génome du puceron du pois a été assemblée en 2012 à partir de séquences Sanger et 454. Ce génome présente des caractéristiques correctes (N50 = 500kbp), et une séquence de bonne qualité ayant permis d'identifier efficacement un grand nombre de gènes. Pourtant, à partir d'un jeu de données particulier, nous avons montré qu'une partie de ce génome est chimérique, et ainsi que l'ordonnancement de larges fragments de séquences est douteux, rendant problématique de nombreuses approches populationnelles (genomescan). Après plusieurs tentatives infructueuses de correction du génome, nous tentons d'assembler une nouvelle version de ce génome, à partir de données PacBio récemment acquises et d'un jeu de lectures Illumina (PE et MP), en utilisant plusieurs stratégies.
Long reads auto-correction based on micro assembly, and perspectives about correcting transcriptomics long reads
Camille Marchet
I will present an overview of a preliminar algorithmic solution we work on at GenScale in order to correct long read in a non-hybrid way (auto-correction).
In order to correct reads, we have to 1-gather reads from the same genomic locus in order to have redundant (and spurious nevertheless) sequences, 2- align similar sequences in some way, 3- decide which nucleotide is the good one at each base (= produce a consensus), 4- replace spurious sequences in reads with their consensus.
The approach relies on fast k-mer based comparison of reads to find similar (parts of) reads. It avoids (multi)mapping of reads by using a k-mer anchoring strategy. Anchors help delineating small regions in reads that can be corrected independantly. Then, we search a consensus sequence for a given region by performing micro assembly with small k-mers of the region. Finally consensus sequences are placed in reads.
I will show how we position ourselves regarding other approaches of the litterature, as well as the future work and the challenges we pinpointed.
As a perspective I will talk about the particular difficulties encountered when trying to correct transcriptomics long reads.
Reads chimèriques pacbio dans un séquençage de virus
Valentin Klein, Guillaume Castel, Eric Rivals
D'abord, G. Castel présentera le projet PIRATE qui porte sur le séquençage de souches virales du virus Puumala (hantavirus à génome ARN segmenté). Ce virus est porté par des campagnols roussâtres et peut infecter l'homme et provoquer des néphropathies épidémiques. Il s'agit donc d'une zoonose qui est émergente en France.
Le séquençage Pacbio produit des erreurs ponctuelles (insertions, délétions et substitutions), mais aussi des lectures dites chimériques, c.-à.-d. composées de portions provenant de molécules séparées. Si on a des informations sur les quantités d'erreurs ponctuelles, on connaît moins les erreurs de type chimères. Dans ce travail nous avons analysés les séquences PacBio d'un hantavirus et détectés des séquences chimériques. L'exposé on décrira la forme de ces chimères et donnera quelques informations quantitatives. Ici, leur nombre et leur proportion sont relativement importants, ce qui pose la question de leur détection systématique "en aveugle" dans un projet de séquençage de novo.
Correction hybride et non-hybride de reads longs
Pierre Morisse et al.
Pour la partie hybride, nous présentons l'outil HG-CoLoR. Cet outil se base sur l'originalité de NaS, en proposant d'utiliser les lectures longues comme templates afin de générer des corrections à partir d'assemblages de reads courts, plutôt que d'apporter des corrections locales aux reads longs. HG-CoLoR se démarque de NaS en se débarrassant de la nécessité d'aligner les reads courts entre eux, et en se basant sur un algorithme de type seed-and-extend. Les seeds sont découverts en alignant les lectures courtes sur les lectures longues, et sont ensuite étendus en suivant les chemins dictés par un graphe de de Bruijn augmenté. HG-CoLoR se montre ainsi plusieurs dizaines de fois plus rapide que NaS, tout en permettant d'obtenir une qualité de correction similaire, et offre également le meilleur compromis entre temps d'exécution et qualité des résultats, comparé aux autres méthodes de l’état de l’art actuel.
Pour la partie non-hybride, nous présentons les deux principales approches ayant été explorées. La première repose sur l'étude des k-mers et des k-mers espacés, dans lesquels des nucléotides sont ajoutées ou supprimées, afin de mimer des corrections aux erreurs d'insertions et de suppressions. La seconde repose sur les mots minimaux absents, qui sont des mots n'apparaissant pas dans une séquence donnée, mais dont les plus longs préfixes et suffixes propres, eux, apparaissent. Ces approches étant plus exploratoires que la méthode de correction hybride, nous présentons quelques résultats, ainsi que des pistes de travail restant à explorer au vu des résultats obtenus.
Genome assembly of the polyploid nematode Meloidogyne enterolobii using PacBio long reads.
Georgios Koutsovoulos et al.
Meloidogyne enterolobii is an aggressive parasitic root-knot nematode species with a wide range of plant hosts. The reproduction mode is mitotic parthenogenetic which most likely arose by hybridization as evident in other members of the genus Meloidogyne. Therefore, a contiguous genome can provide invaluable information and resources to combat M. enterolobii infections, and to shed light on the processes affected by hybridization and asexuality. To achieve this, we used a 60X coverage of PacBio long reads and a 100X Illumina paired end library.
Here, we present the different programs used during the assembly stage and describe the differences between the algorithms and their impact on the genome assembly.
Long reads assembly perspectives (polyploidy, large genomes, etc.)
A. Limasset et al.
Presentation of a Bwise-like project to assemble longs reads and how we could address the problems of handling heterozygous data and large genomes.
Une approche pour l'auto-correction de lectures longues basée sur le superstring graphe tronqué
Bastien Cazaux, Rodrigo Canovas et al.
Nous décrivons une nouvelle approche pour l'auto-correction des longues lectures. Cette approche consiste à calculer des régions de séquences fortement soutenues dans la collection de reads, créer un graphe des relations entre ces régions et ancrer chaque read sur ce graphe pour le corriger en parcourant le graphe entre les ancres correspondantes à des régions fortement soutenues. Pour calculer la régions de séquences fortement soutenues, on utilise une Transformée de Burrows Wheeler bidirectionnelle où chaque région doit satisfaire un critère de minimum d'occurrence, ainsi qu'un critère de longueur minimale. Le graphe de relation choisi est le Superstring Graphe Tronqué (TSG) ce qui nous permet de filtrer l'ensemble des régions et d'en éliminer certaines. De plus, le superstring graphe tronqué contient les solutions gloutonnes pour le problème du Shortest Mixed Cover of Strings (une variante du problème Shortest Cyclic Cover of String). En parcourant le TSG, on peut reconstruire un version du génome sous-jacent faite de portions de reads corrigés. Cette méthode est appliquée au séquençage du virus Puumala (projet PIRATE).
Petite revue de l'usage des lectures longues pour l'analyse du transcriptome
Fabrice Legeai
La 3ème génération de séquençage permet de séquencer des lectures de grande taille, ce qui est très utile pour produire des génomes de bonne qualité. Aussi, en transcriptomique, elle permet de produire directement la séquence de nombreux ARN messager présents dans un tissu. Par rapport au séquençage de 2ème génération (lectures courtes), cette technologie présente donc l'avantage de ne pas nécessiter la reconstruction de séquences complètes, par assemblage guidé ou non par un génome de référence, démarches qui pouvaient se révéler coûteuses et hasardeuses dans les cas fréquents d'épissage alternatif. Je présenterai quelques applications du séquençage de transcriptome en lectures longues (Iso-Seq).
Les lectures longues sont-elles une panacée? Le cas de l'assemblage du génome d'Adineta vaga
J.-F. Flot
L'idée selon laquelle les lectures longues (Nanopore, PacBio) permettent de résoudre tous les problèmes d'assemblage est de plus en plus répandue. C'est sans doute vrai pour les génomes microbiens haploïdes de petite taille, mais qu'en est-il pour des génomes complexes diploïdes voire polyploïdes dégénérés? J'exposerai mes résultats récents concernant le réassemblage du génome du rotifère bdelloïde Adineta vaga, tétraploïde dégénéré caractérisé par des palindromes génomiques résultant de réarrangements entre allèles, à partir d'une couverture de 100X de lectures PacBio corrigées de diverses manières.
ALPAGA (Asexual Lineages and Populations of Animals: a Genomic Analysis): aims and objectives
Etienne GJ Danchin et al.
ALPAGA's main aim is to characterize animal genome evolution in the absence of sex and identify genomic features of asexually‐reproducing animals that may allow them to compete with their sexual relatives and / or persist over evolutionary times, without the benefits of sex. We will compare the genomes of asexual and sexual lineages across different animal clades to identify singularities associated to an asexual mode of reproduction. The three animal clades selected for ALPAGA-I are the root-knot nematodes, the rotifers and the stick insects. Each of these groups of animals comprise asexually reproducing species as well as sexual relatives.
The preliminary goal of the project is to generate high quality reference genomes for asexual animals as well as their sexual relatives. For this, we will use a hybrid approach, combining 3rd generation sequencing technology (ONT) to obtain long reads and 2nd generation sequencing (Illumina) to correct errors and reach high genome coverage. We will also use Pool‐seq and RAD‐seq approaches on different populations and isolates of sexual and asexual species to measure variations within and between the samples. This sequencing effort is a prerequisite to be able to address the main work packages of the project. Briefly, in ALPAGA‐I we will study the levels of heterozygosity and rates of gene conversion, the prevalence of horizontal gene transfers, the load of transposable elements and their mobility, gene copy number variations as well as the possible functional consequences associated to these mechanisms of genomic plasticity. In the framework of this project, we will have the occasion to compare different lineages of animals that have developed the ability to survive without sex and at different times.