Bio-informatique pratique

À propos de ce guide

Ce guide, à l'intention des chercheurs en biologie moléculaire, propose une sélection d'outils d'analyse et de bases de données en génétique, génomique, protéomique et biologie des systèmes. Des outils de forage de texte dans PubMed sont aussi présentés.

Disciplines connexes

Voir aussi les guides suivants:

Bio-informatique théorique

Pour toute question concernant les aspects théoriques de ce domaine interdisciplinaire (programmation, algorithmes, etc.), veuillez vous adresser à Ferroudja Nazef, à la Bibliothèque de mathématiques et informatique: guide Bio-informatique

Tutoriels

Manuels de base

Voir tous les livres en bio-informatique

Big Data Analysis for Bioinformatics and Biomedical Discoveries
Aperçu dans Google livres
Aperçu dans Google livres

Encyclopedia of Systems Biology
Aperçu dans Google livres
Aperçu dans Google livres

Statistical Bioinformatics : a Guide for Life and Biomedical Science Researchers
Aperçu dans Google livres
Aperçu dans Google livres

Vue d'ensemble des bases de données

Survol des principales ressources (Open Helix)

Comment repérer, parmi les centaines de bases de données en bio-informatique disponibles, celle qui vous convient? Voir un tour d'horizon.

Guide annuel de Nucleic Acids Research

Nucleic Acids Research - Database Issue

Dans ce numéro  spécial, NAR présente des mises à jour de bases de données établies ainsi que de nouvelles ressources.

Consultez également la compilation des bases de données publiées dans NAR au fil des ans. Voir aussi le numéro spécial annuel sur les serveurs: 2016 Web Server Issue.

Questions... et réponses

Vous avez une question spécifique? Consultez le forum de discussion BioStar pour obtenir des conseils de la communauté de bio-informatique.

Répertoires de bases de données et d'outils d'analyse

Repérez des ressources en bio-informatique en tapant votre sujet dans la boîte de recherche.

You do allow embedded content.

Visitez également ces répertoires de ressources:

Protocoles

Des jeux... sérieux!

Phylo (Université McGill)

Le but de Phylo est d'aligner des séquences multiples en créant des colonnes de même couleur, où chaque carré représente un nucléotide. Éventuellement, l'information recueillie pourrait être utilisée pour aider à déterminer la source de certaines maladies génétiques. Appli disponible pour iOS ou Android.

Phylo

DataMed: moteur de recherche de données

DataMed

Cet outil vous permet de découvrir des jeux de données dans plus de 60 dépôts à la fois, incluant ArrayExpress, UniProt et PDB.

Outils d'analyse d'ADN et de protéines

  • Galaxy (Center for Comparative Genomics and Bioinformatics)
    Suite d'outils d'analyse qui vous permet d'intégrer des données provenant de diverses sources.
  • FancyGene est un outil convivial et rapide pour représenter graphiquement des gènes. Voir le tutoriel.

Partir du bon pied avec RefSeq

Quelle séquence de départ choisir, par exemple pour dessiner des amorces d'amplification ou une sonde moléculaire? Toutes les données n'ont pas la même valeur... si disponible, choisissez la séquence de référence (RefSeq). Vous trouverez l'encadré "Reference Sequence Information" dans les notices des bases de données Nucleotide (qui inclut GenBank) et Protein au NCBI.

Trouver des séquences homologues: alternatives au BLAST par défaut

Des liens pré-calculés par les experts du NCBI vous évitent de faire la recherche vous-même. Conseil : utiliser la séquence fonctionnelle en acides aminés (si applicable) plutôt que la séquence en nucléotides pour identifier des séquences homologues.

Liens pré-calculés au NCBI

§Lien disponible pour toutes les séquences de Nucleotide et Protein.
§Conditions plus stringentes que les paramètres par défaut de l’outil = moins de résultats qu’un BLAST conventionnel, mais souvent plus pertinents.
§Permet de sauver du temps!
§Conseil : utiliser la séquence fonctionnelle en acides aminés (si applicable) plutôt que la séquence en nucléotides pour identifier des séquences homologues.

Entrez Gene (NCBI)

  • La base de données Entrez Gene est la porte d’entrée à utiliser pour débuter une recherche, si on connaît un nom de gène ou sa description. C'est une base à valeur ajoutée, contrairement à Nucleotide (GenBank), qui contient des données brutes.

Autres outils de recherche

  • DNA Patent Database (Georgetown University's Kennedy Institute of Ethics and the Foundation for Genetic Medicine)
    Base de données offrant un accès gratuit aux versions intégrales des brevets sur l'ADN provenant du United States Patent and Trademark Office (USPTO).
  • The GenomeNet Database Service (Institute for Chemical Research, Kyoto University)
    Système intégré permettant l'interrogation de plusieurs bases de données en biologie moléculaire. Accès à de nombreux outils pour l'interprétation des séquences et à Kyoto Encyclopedia of Genes and Genomes (KEGG).

Génétique

  • Online Mendelian Inheritance in Man (Johns Hopkins University School of Medicine)
    Base de données sur les gènes humains et les maladies génétiques, contenant des résumés cliniques. Excellent point de départ pour une recherche d'information. Voir aussi : Clinical Utility Gene Cards.
  • GeneReviews (University of Washington at Seattle)
    Description de maladies génétiques avec une emphase sur l'utilisation de tests génétiques dans le diagnostic, le traitement et le counseling. Révision régulière par des pairs et des experts.
  • Medical Genetics Summaries (NCBI)
    Sommaires décrivant l'impact de variations génétiques spécifiques sur la santé.

Protein Data Bank (RCSB)

La base de données PDB est une autre source incontournable d'information spécialisée sur les protéines. L'accès aux données brutes permet de les extraire et de les utiliser pour nos propres besoins, ou de les visualiser en mode tridimensionnel.

Trouver des polymorphismes ou SNP

La base de données Single Nucleotide Polymorphisms (NCBI) répertorie les petites variations dans les séquences d’ADN, qui peuvent modifier la fonction d’une protéine (et donc le phénotype). Guide d'utilisation

Séquences de protéines: UNIProt

UNIProt est la ressource la plus complète de séquences et d'information fonctionnelle sur les protéines. Elle regroupe les données contenues dans Swiss-Prot, TrEMBL et PIR. Les données sont annotées manuellement. Voir la vidéo pour une visite du site et les guides d'utilisation.

Obtenir des séquences d'un organisme

Le tutoriel suivant vous présente comment obtenir une ou plusieurs séquences d'ADN dans les bases de données du NCBI.

Mutations

Les sources suivantes répertorient les changements détectables et transmissibles dans la matière génétique.

Sites Web à découvrir

  • Encyclopedia of DNA Elements (ENCODE)
    Interprétation du génome humain afin de comprendre la biologie humaine et améliorer la santé.
  • Public Population Project in Genomics (P³G)
    Ce consortium international (dont fait partie Cart@gene) donne accès à l'expertise, à des ressources, à des outils et à de l'information actuelle en génétique des populations. Il encourage la collaboration entre chercheurs et dépositaires de données.

Navigateurs spécialisés

Genome Data Viewer

Le Genome Data Viewer permet d'explorer et d'analyser des assemblages de séquences de génomes eukaryotes. Aide

Genome Data Viewer

Variations

dbVar (NCBI)

dbVar contient des données collaboratives de variations structurelles de l'ADN (inversions, translocations, insertions et délétions). Navigation par organisme ou maladie, ou recherche en appliquant des limites comme la méthodologie employée ou le type d'allèle. Exemple: variations répertoriées pour l'autisme. Guide d'utilisation

Comparaison de génomes avec VISTA

VISTA est un ensemble de programmes et de bases de données qui permet l'analyse comparative de séquences génomiques. Vous pouvez soumettre vos propres séquences et alignements, ou examiner des alignements génomiques précalculés pour différentes espèces.

Autre ressource de comparaison de génomes apparentés à explorer: Mugsy (voir la description dans Bioinformatics)

Graphique avec VISTA - Clic pour agrandir

Divers aspects du génome du maïs, illustrés avec VISTA. Figure tirée de Schnable, P., et al. (2009). The B73 Maize Genome: Complexity, Diversity, and Dynamics. Science, 326 (5956), 1112-1115.

Trouver des clones, des banques génomiques ou des données ouvertes

  • Les projets de séquençage de génomes mettent du matériel à votre disposition, repérable dans la base de données CloneDB (NCBI). Recherche par organisme, type de vecteur ou distributeur. L'outil Clone finder fait correspondre les clones de ces banques à des régions sur le génome assemblé.
  • GenomeSpace recense des sources de données, permettant un large spectre d'analyses génomiques. Vous pouvez aussi stocker vos fichiers de données dans le nuage d'Amazon et utiliser des applications d'analyse ou de visualisation des données.

Bases de données par organisme

Suggestions de lecture

Voir tous nos livres sur la génomique

Precision Medicine : a Guide to Genomics in Clinical Practice
Aperçu dans Google livres
Aperçu dans Google livres

Epigenetics
Aperçu dans Google livres
Aperçu dans Google livres

Handbook on Analyzing Human Genetic Data
Aperçu dans Google livres
Aperçu dans Google livres

Genomics: Essential Methods
Aperçu dans Google livres
Aperçu dans Google livres

Assemblage de génomes

La base Assembly (NCBI) répertorie les principaux projets d'assemblage de séquences d'organismes; possibilité de télécharger les données. Les modalités d'assemblage de génomes sont également présentées.

Métagénomique

Le portail EBI metagenomics propose des outils d'analyse et un dépôt de données provenant des génomes retrouvés dans des environnements particuliers, comme par exemple des insectes sur un pare-brise ou les microbes d'un glacier.

Metagenomics : Methods and Protocols
Aperçu dans Google livres
Aperçu dans Google livres

Metagenomics of the Human Body
Aperçu dans Google livres
Aperçu dans Google livres

Design expérimental: les pièges à éviter

Le chercheur d'or

L'article A Field Guide to Genomics Research vous présente de façon ludique 6 personnages qui pourraient compromettre la recherche en génomique. Illustration: Dan Madsen.

Trouver des données brutes d'expression

ArrayExpress (EMBL-EBI)

ArrayExpress est un dépôt public de données de génomique fonctionelle. L'ArrayExpress Atlas, qui contient un sous-ensemble annoté des données archivées, permet d'explorer dans quelles conditions un gène est exprimé, ou encore quels gènes sont exprimés dans une condition particulière, tissu, type de cellule, etc. Tutoriel

Unigene et Gene Expression Omnibus (NCBI)

Unigene regroupe tous les ARNm et ESTs associés à un gène ou pseudogène. De là, on peut passer à la base GEO, qui permet également de télécharger des données brutes (voir une vidéo). Dans Unigene, on peut cliquer sur le lien EST profile pour voir un sommaire de l'expression rapportée dans différents tissus ou conditions.

Tutoriels

  • StarBiogene (MIT)
    Cet ensemble de logiciels d'analyse de données générées par des puces à ADN permet de comparer l'expression de nombreux gènes dans des échantillons biologiques variés. Voir les instructions

Portail ExPASy (Swiss Institute of Bioinformatics)

ExPASy est un portail regroupant tous les outils d'analyse et bases de données développés par le SIB. Il inclut entre autres:

  • PROSITE, qui répertorie les domaines, familles et sites fonctionnels des protéines;
  • Swiss2DPAGE, base de données d'électrophorèse en 2D;
  • STRING, qui recense les interactions protéines-protéines;

Modélisation moléculaire

  • MoDEL (IRB) contient des vidéos de simulations dynamiques pour plus de 1700 protéines; la visualisation de ces molécules en mouvement permet un design plus efficace de médicaments.
  • Swissdock (SIB) permet de prédire les interactions entre une protéine et une petite molécule.
  • Click2Drugs (SIB) est un répertoire d'outils de design in silico de médicaments.

Visualisation de protéines en 3D

Conserved Domains Database (NCBI)

La base Conserved Domains est une collection d’alignements de séquences multiples de protéines. Elle contient des domaines de protéines analysés et annotés par le NCBI, en ayant recours à des modèles en 3D (télécharger le logiciel gratuit Cn3D). CDD permet d’établir des relations entre la séquence, la structure et la fonction des protéines. Guide d'utilisation

Site actif de la superoxyde dismutase à Cu et Zn

Source de l'image: Conserved Domains Database

Analyse de profils d'expression avec GenePattern

GenePattern est une plateforme d'analyse génomique donnant accès à plus de 125 outils pour l'analyse d'expression de gènes et la protéomique. Voir les vidéos ainsi que le tutoriel qui vous permettra de vous familiariser avec les outils.

Carte d'expression - Clic pour agrandir

Source de l'image: GenePattern

Suggestions de lecture

Voir tous nos livres sur la protéomique

How Proteins Work
Aperçu dans Google livres
Aperçu dans Google livres

Molecular Modelling : Principles and Applications
Aperçu dans Google livres
Aperçu dans Google livres

Proteomics : a Cold Spring Harbor Laboratory Course Manual
Aperçu dans Google livres
Aperçu dans Google livres

Trouver des liens entre vos données avec FLink

FLink est un outil du NCBI qui permet de découvir des associations entre des données provenant des bases BioSystems, Conserved Domains Database, Gene, Protein, PubMed, PubChem et Structure. Les résultats se présentent sous la forme d'une liste exportable, triée par pertinence. Vous pouvez:

BioSystems (NCBI)

BioSystems

BioSystems donne de l'information sur les interactions entre molécules au moyen de diagrammes. Il peut s’agir de sentiers biologiques (gènes, protéines, petites molécules…) ou de maladies (gènes, biomarqueurs, médicaments…).

Les données intégrées proviennent des bases KEGG, PID, BioCyc et Reactome et offrent des liens vers PubMed, Protein, Entrez Gene et PubChem (substrats, siRNA, petites molécules). Guide d'utilisation

Voici un exemple d'un biosystème associé à la superoxyde dismutase à Cu et Zn (SOD1):

§Information sur les interactions entre molécules (diagrammes). Il peut s’agir:
D’un sentier biologique (gènes, protéines, petites molécules…)
D’une maladie (gènes, biomarqueurs, médicaments…)
§Intégration de données provenant des bases KEGG, PID, BioCyc et Reactome; plus de 135 000 notices.
§Permet également d’identifier des biosystèmes apparentés entre eux.
§Liens vers PubMed, Protein, Entrez Gene et PubChem (substrats, siRNA, petites molécules).

GeneMANIA (U. de Toronto)

Découvrez les relations entre protéines en soumettant une liste de gènes à GeneMANIA. L'outil vous présentera les résultats sous forme de diagramme interactif, en plus de suggérer des interactions avec d'autres protéines. Voir le tutoriel chez OpenHelix.

Voici le résultat pour le gène SOD1 chez l'humain:

Trouver des sentiers biologiques

PathCards est une ressource intégrée de sentiers biologiques provenant de 12 sources différentes. Utile pour identifier un sentier en particulier.

Besoin de plus d'info? Pathguide est un répertoire de plus de 300 ressources de sentiers biologiques et d'interactions moléculaires. Vous y trouverez sûrement des sources d'images, de schémas et de diagrammes pour votre sujet d'études.

Autres outils de recherche d'interactions entre protéines

Suggestions de lecture

Voir tous nos livres sur les systèmes biologiques

Introduction to biological networks
Aperçu dans Google livres
Aperçu dans Google livres

Introduction to Systems Biology
Aperçu dans Google livres
Aperçu dans Google livres

Metabolomics: A Powerful Tool in Systems Biology
Aperçu dans Google livres
Aperçu dans Google livres

Cytoscape

Cytoscape est une plateforme logicielle en accès libre qui permet de visualiser des réseaux d'interactions moléculaires et des systèmes biologiques tout en intégrant des annotations, des profils d'expression ou autres données. Guides d'utilisation

Source de l'image: Cytoscape

Bio-informatique translationnelle

La revue PLOS Computational Biology a produit un recueil d'articles de référence recensant les défis de l'intégration de la quantité croissante de données cliniques et moléculaires. On y aborde par exemple la pharmacogénomique, l'analyse du microbiome humain et la génomique du cancer.

Ontologies

Une ontologie rassemble les termes et les concepts d'un domaine de la connaissance tout en établissant des relations taxinomiques et sémantiques.

Le site BioPortal répertorie plus de trois cents ontologies en sciences biomédicales. Par exemple, le NCBI utilise la Gene Ontology pour standardiser la représentation des gènes et protéines dans ses bases de données.

Bases de données spécialisées en oncologie

  • Atlas of Cancer Signalling Networks (Institut Curie)
    "Carte mondiale" géographique  et interactive des interactions moléculaires impliquées dans le cancer. Réseau de 4600 réactions couvrant 1821 protéines et 564 gènes, et connectant plusieurs processus cellulaires importants.
  • CancerMA (Bangor University)
    Pipeline bio-informatique intégré pour l'identification de nouveaux marqueurs/cibles pour le cancer. Méta-analyse de profils d'expression provenant de 80 ensembles de données couvrant 13 types de cancers.
  • Cancer Genome Anatomy Project - CGAP (National Cancer Institute)
    Le but de ce projet est de déterminer les profils d'expression génétique de cellules normales, pré-cancéreuses et cancéreuses, afin de pouvoir éventuellement améliorer la détection, le diagnostic et le traitement du cancer. Contient de l'information catégorisée selon les gènes impliqués, les tissus, les sentiers métaboliques, les ARN interférents, les chromosomes et l'expression génétique.
  • canSAR (Institute of Cancer Research)
    Base de données intégrée regroupant des données biologiques, chimiques et pharmacologiques en appui à la recherche translationnelle.
  • Cancer Cell Line Encyclopedia (Broad Institue - Novartis)
    Compilation de données provenant de 947 lignées cellulaires de cancers humains: expression génique, nombre de copies de chromosomes et séquences. Voir l'article paru dans Nature.
  • The Cancer Genome Atlas - TCGA (National Cancer Institute)
    Exploration systématique des changements génétiques impliqués dans plus de 20 types de cancers chez l'humain. Le portail contient des données (information clinique, caractérisation génomique et analyse des séquences associées aux tumeurs) et des outils intégrés d'analyse. Les données sont téléchargeables via le Cancer Genomics Hub.
  • International Cancer Genome Consortium
    L'ICGC coordonne et rend accessibles une quantité astronomique de données provenant de projets internationaux de caractérisation de tumeurs (génome, transcriptome et épigénome). Plus de 50 types différents de cancers (ainsi que des échantillons contrôle) sont représentés. Accéder aux données (voir également les conditions d'utilisation).
  • Pour une liste de bases de données répertoriant les mutations associées à divers types de cancers, consultez le tableau 2 de l'article de Küntzer et al., Human variation databases (Database 2010).
  • IntOGen (University Pompeu Fabra)
    Cette ressource intègre des données multidimensionnelles pour l'identification de gènes et de modules biologiques impliqués dans le développement du cancer.
  • Cancer Gene Census (Wellcome Trust Sanger Institute)
    Répertorie tous les gènes ayant une implication dans le cancer. D'autres ressources son également disponibles sur le site du Cancer Genome Project.
  • My Cancer Genome (Vanderbilt-Ingram Cancer Center)
    Outil de décision à l'intention des patients et des praticiens. Donne de l'information sur les mutations impliquées, les traitements à envisager et les essais cliniques pertinents.
  • Network of Cancer Genes (Bioinformatics and Evolutionary Genomics of Cancer)
    Rapporte les données suivantes pour 2000 gènes impliqués dans le cancer: duplicabilité, origine évolutive, expression, annotation fonctionnelle, expression, et réseau d'interactions avec d'autres protéines humaines et microsARNs.
  • The Cancer Imaging Archive (TCIA)
    Dépôt important de données d'imagerie du cancer organisées par maladie, type d'image (IRM,CT) ou axe de recherche. Les métadonnées peuvent inclure le traitement, la génomique et la pathologie.

Outils de visualisation de données oncogénomiques

De nombreux portails et outils permettent de visualiser plusieurs dimensions de données oncogénomiques, par exemple les gènes, mutations, données d'expression et de méthylation associées à une tumeur.