Détection des variants structuraux en génomique : short‑reads vs long‑reads

Détection des variants structuraux en génomique : short‑reads vs long‑reads | BIOEDUC
🧬 Génomique & Bioinformatique

Détection des variants structuraux en génomique : des short‑reads aux long‑reads

Par Abdelmalek | Mis à jour le

1. Introduction et définition des variants structuraux

Les avancées technologiques en séquençage à haut débit (NGS) ont révolutionné notre compréhension des génomes. Longtemps occultés par la simplicité d’analyse des polymorphismes nucléotidiques uniques (SNP), les variants structuraux (SVs) émergent aujourd’hui comme des acteurs clés de la diversité génétique, de l’évolution et des pathologies complexes. Par convention, un variant structural est défini comme une altération génomique affectant un segment d’ADN d’au moins 50 paires de bases (pb). Contrairement aux SNPs ou aux petites indels, les SVs modifient profondément l’architecture du génome. Ils interviennent dans les maladies humaines (cancers, maladies neurodéveloppementales), l’évolution (duplications de gènes) et l’adaptation des organismes non‑modèles.

2. Typologie des variants structuraux

  • Délétions (DEL) : perte d’un fragment d’ADN, pouvant entraîner une haploinsuffisance.
  • Insertions (INS) : ajout d’un segment (souvent d’éléments transposables).
  • Duplications (DUP) : copie d’une région génomique (CNV).
  • Inversions (INV) : retournement à 180° d’un segment (variant équilibré).
  • Translocations (TRA) : déplacement d’un segment d’ADN entre chromosomes ou au sein d’un même chromosome.

3. Technologies de séquençage : short‑reads vs long‑reads

Le choix de la technologie conditionne la capacité à détecter les SVs. Les lectures courtes (Illumina) (150 pb, précision >99,9 %) peinent à traverser les régions répétées. Les lectures longues (PacBio HiFi, Oxford Nanopore) (10 kb à >1 Mb) enjambent facilement les zones répétées et fournissent une résolution inégalée aux points de rupture (breakpoints).

Tableau comparatif

CaractéristiqueIllumina (short‑reads)PacBio HiFiOxford Nanopore (ONT)
Longueur moyenne150 – 300 pb10 – 25 kb10 kb – >1 Mb
Taux d’erreur<0,1%<0,1%1 – 5%
Sensibilité (SVs)Faible à moyenneExcellenteExcellente
Coût par GbTrès faibleModéré à élevéModéré

4. Approches bioinformatiques de détection

  • Read‑Pair (RP) / Discordant mapping : analyse des distances d’insert et des orientations anormales.
  • Split‑Read (SR) : découpe d’une lecture chevauchant un point de rupture – très précise.
  • Depth of Coverage (DoC) : baisse ou augmentation de la couverture locale (CNV).
  • Assembly‑based (AS) : assemblage de novo puis alignement sur la référence – approche la plus robuste avec les long‑reads.

5. Outils populaires pour la détection des SVs

Pour les short‑reads (Illumina)

  • Manta : combine RP et SR, très rapide, développé par Illumina.
  • DELLY : intègre RP, SR et profondeur de couverture.
  • LUMPY : framework probabiliste pour maximiser la sensibilité.

Pour les long‑reads (PacBio / ONT)

  • Sniffles : conçu pour les longs reads, détecte les SVs complexes et imbriqués.
  • SVIM : analyse les signatures complexes issues de Minimap2.
# Pipeline type avec Sniffles (long‑reads)
minimap2 -ax map-ont -t 8 reference.fa reads.fastq.gz | samtools sort -@ 4 -o aligned.bam
samtools index aligned.bam
sniffles --input aligned.bam --vcf output_sv.vcf --threads 8

6. Pipeline d’analyse type (workflow)

FASTQ → FastQC → Alignement (BWA-MEM/Minimap2) → SAMtools (tri/index) → Appel des SVs (Manta/Sniffles) → VCF → Annotation (Annovar/SnpEff)

7. Visualisation et validation

IGV (Integrative Genomics Viewer) permet l’inspection visuelle des alignements discordants et des split‑reads. La validation expérimentale repose sur la PCR classique (amorces encadrant le SV) ou le séquençage Sanger pour vérifier le point de rupture exact.

8. Défis actuels et applications

Le principal défi reste le taux élevé de faux positifs dans les régions répétées (centromères, télomères). Les applications sont majeures : oncologie (fusions de gènes), génomique des organismes non‑modèles (adaptation, co‑évolution hôte‑parasite), et médecine génomique.

💡 Perspectives futures : La transition vers les pangénomes (génomes en graphes) permettra de capturer toute la diversité structurelle d’une population sans biais de référence, couplée aux données de conformation de la chromatine (Hi‑C).

9. Liens internes pour approfondir

📝 Quiz : Détection des variants structuraux (SVs)
📚 Références : Manta (Illumina), Sniffles (Sedlazeck et al.), Sedlazeck et al. (2018) “Accurate detection of complex structural variations using long‑reads”.

Discussion Thread