Gestion des données de recherche

Pourquoi gérer ses données de recherche?

  • Répondre aux exigences des organismes subventionnaires;
  • Permettre la reproduction et la validation des résultats de la recherche;
  • Favoriser la réutilisation pour le développement de nouveaux savoirs;
  • Éviter la répétition des travaux de recherche;
  • Respecter les règles éthiques.

Toujours pas convaincu?

Données de recherche

Données issues de l’observation, de l’expérimentation ou dérivées de sources existantes qui sont analysées en vue de produire ou de valider des résultats de recherche originaux.

Elles peuvent prendre différentes formes: données numériques; fichiers de texte; enregistrements sonores; questionnaires d’enquête complétés; base de données d’images ou de vidéos; etc.

Qui peut vous aider à l'UdeM ?

Formation

En quoi consiste la gestion de ces données?

Il s’agit de suivre les données tout au long de leur cycle de vie: création, traitement, analyse, préservation, partage et réutilisation.

Cela signifie savoir organiser les données lors de la cueillette, les sauvegarder de manière sécuritaire, utiliser les meilleures méthodes de préservation et les partager de façon éthique. Afin d’y arriver, un plan de gestion des données est nécessaire.

Exigences des organismes subventionnaires

De plus en plus d'organismes subventionnaires reconnaissent l’importance des données de recherche comme produit de recherche au même titre qu’une publication. Certains organismes canadiens demandent déjà à ce que les données des recherches qu’ils subventionnent soient conservées dans un dépôt. Aux États-Unis, certains organismes gouvernementaux exigent de fournir un plan de gestion des données ou, minimalement, un plan de conservation.

Les organismes canadiens ont de leur côté publié en 2016 une Déclaration de principes des trois organismes sur la gestion des données numériques qui suivait la consultation Tirer profit des données massives.

Organisme Exigences Détail
Conseil de recherche de sciences humaines (CRSH) Rendre disponible aux autres chercheurs toutes les données collectées.
Les dépenses relatives à la préparation des données de recherche sont admissibles.
Politique sur l’archivage des données de recherche
Instituts de recherche en santé du Canada (IRSC) Mettre à la disposition d’un maximum de personnes, le plus tôt possible, ses publications et les données leur étant liées. Politique de libre accès des IRSC : Données de recherche relatives à une publication (section 3.2)
Conseil de recherches en sciences naturelles et en génie du Canada (CRSNG) Aucune exigence concernant les données de recherche à ce jour.
Génome Canada Établir un plan de gestion de données, partage des données et publication accessible gratuitement dans les 6 mois suivant la date de publication.

Lignes directrices de Génome Canada sur le financement des projets à grande échelle: voir point 3.5

Politique sur la diffusion des données et partage de ressources

National Institutes of Health (NIH) Inclure avec la demande de financement un plan de partage de données pour les subventions de plus de 500 000$. Les données de recherche finales devraient être disponibles le plus largement possible et gratuitement tout en préservant la vie privée des participants et les données confidentielles.

NIH Data Sharing Policy and Implementation Guidance

NIH Data Sharing Policies (NLM)

National Science Foundation (NSF)

Inclure avec la demande de financement un plan de gestion de données de 2 pages (max.)

On attend des chercheurs de partager au moindre coût et dans un délai raisonnable les données primaires, échantillons, collections physiques, et autres documents d’appui créés ou recueillis grâce à leur subvention.

Proposal Preparation Instructions

Data Management & Sharing Frequently Asked Questions (FAQs)

National Endowment for the Humanities (NEH) Inclure avec la demande de financement un plan de gestion de données de 2 pages (max.) Data Management Plans for NEH Office of Digital Humanities

Que doit comprendre un plan?

La forme d’un plan de gestion des données et l’ordre des éléments qu’on y trouve peut varier grandement. Toutefois, celui-ci devrait décrire :

  • Les données recueillies et produites (comment, combien et en quel format)
  • La documentation décrivant les données (métadonnées, manuel des codes, nomenclature, etc.)
  • Les méthodes de sauvegarde (stockage et copies de sécurité)
  • Les politiques d’accès, de partage et de réutilisation (embargo, confidentialité, propriété intellectuelle, etc.)
  • Les méthodes de conservation à long terme
  • Le responsable de chacun des aspects

Pour de l’information plus détaillée, voir la partie « Data Management Plan » du tutoriel MANTRA.

Outils et modèles

Outils Web

Intègrent les modèles d'organismes subventionnaires, permettent d'exporter en Word, PDF, etc.:

Listes de contrôle (checklist)

Exemples de plans complétés

Métadonnées

Les métadonnées sont des éléments d’information structurés utilisés pour décrire un contenu. En définir permettra:

  • De faciliter le repérage de vos données par les autres chercheurs;
  • D’expliciter les droits sur ces données.

Elles comprennent des éléments  comme : noms des chercheurs, méthodes de collecte et d’analyse, titres des variables, propriété intellectuelle, version des données décrites, etc.

Il existe différents standards ou schémas de métadonnées qui sont soit généraux, soit propres à une discipline ou à un dépôt.

Des outils sont disponibles pour générer des métadonnées (ex: DataCite).

Voir: Documenting your Data (UK Data Archive)

Nommage de fichiers et gestion des versions

Créer des conventions de nommage afin d’éviter la suppression accidentelle de fichiers et la confusion:

  • Utiliser des noms significatifs;
  • Inclure des dates;
  • Créer des codes pour les versions.

Exemple (UK Data Archive): FG1_CONS_2010-02-10 est le nom d'un fichier contenant les transcriptions du premier focus group avec les consommateurs qui a eu lieu 10 février 2010.

La gestion des versions est une activité en soi. Des outils informatiques tel TortoiseSVN peuvent être utiles. 

Voir: File naming et Version control (UK Data Archive)

organiser donnees

Jørgen Stamp, Digitalbevaring.dk. CC BY 2.5.

Format des fichiers

Pour éviter la perte de données due à l’incompatibilité ou à la désuétude des logiciels, utiliser, autant que possible, des formats ouverts ou largement répandus. Par exemple :

Types de données Formats recommandés Format à éviter
Texte .txt .docx, .doc, .rtf
Données tabulaires .csv, .tvs .xlsx, .xls
Images .jp2, .tiff .jpg, .psd
Documents .pdf/a, .epub .azw
Audio .mp3 .wma

Pour plus d'information: Formatting your data (UK Data Archive).

Sauvegarde

  • Avoir au moins 3 copies de toute version de fichier à conserver: une copie originale, une externe sur place et une externe à distance;
  • Privilégier l’utilisation d’un serveur (local ou commercial) et de disques durs externes au lieu de votre ordinateur;
  • Dans le cas d’une solution infonuagique (ex. : Dropbox, Google Drive, ElephantDrive, Jungle disque), vérifier que la licence ne met pas en danger la confidentialité des données;
  • Utiliser les outils pour préserver l’intégrité des données (ex.: BitCurator);
  • Voir les bonnes pratiques de dataONE ou celles de UK Data Archive.

Saviez-vous que? Si les assurances de l'Université peuvent couvrir dans certains cas la perte de données, ceci est conditionnel à ce qu'il y ait des copies sauvegardées à l'extérieur des lieux où se fait la recherche.

Données confidentielles

Si vous travaillez avec des données confidentielles, voici quelques stratégies possibles pour préserver leur sécurité:

Exigences de protection des données: consulter le site de la Recherche à l'UdeM et votre comité d’éthique sectoriel.

Cahiers de laboratoire

Le cahier de laboratoire est indispensable dans plusieurs disciplines scientifiques pour noter, de façon chronologique et permanente, la méthodologie de recherche, les calculs et les résultats. Bien le rédiger favorisera la traçabilité, la publication et le partage des données de recherche.

Propriété intellectuelle

Il est important de clarifier cet élément dès le début d’un projet pour éviter les écueils par la suite, par exemple des limites non anticipées sur le partage et la réutilisation des données dans d’autres projets.

Les lois canadiennes n’établissent pas spécifiquement à qui revient la propriété intellectuelle (PI) des données de recherche (par ex. certains types de données peuvent relever du droit d’auteur, d’autres non). Aussi, la PI sur les données peut dépendre de facteurs extérieurs à votre équipe de recherche, par exemple :

  • Le contrat de travail ou les politiques de votre institution d’attache;
  • Les conventions dans votre domaine concernant le niveau de reconnaissance de votre participation à un projet;
  • L’organisme qui vous finance qui peut s’attribuer conjointement la propriété intellectuelle ou s’accorder une licence sur les données.

Au Canada, les trois conseils ne retiennent aucune propriété intellectuelle mais peuvent avoir dans certains cas des exigences dont il faut tenir compte dans la gestion et le partage des données de recherche; voir : CRSNG; CRSH; IRSC.

Le Bureau de la recherche peut vous conseiller en matière de propriété intellectuelle.

Pourquoi et quand partager?

Pourquoi partager?

  • Permet à votre recherche d’avoir un impact et un rayonnement plus grand;
  • Assure l’intégrité scientifique en permettant la reproduction de votre recherche;
  • Peut susciter de nouvelles collaborations;
  • Permet d’accélérer la recherche dans d’autres domaines;
  • C’est une exigence de certains organismes subventionnaires!
  • C’est aussi une exigence de certains éditeurs (ex. : la revue scientifique The BMJ).

Important :

  • Partager ses données ne signifie pas nécessairement diffuser toutes les données, tout de suite et à tous!  
  • Partager signifie rendre disponibles les données le plus largement possible pour le bénéfice de la science tout en respectant les limites associées aux règles éthiques (ex. données confidentielles) et aux contrats de recherche.
  • Une période d’embargo peut être définie afin que vous soyez le premier à utiliser les données pour fins de publication.
  • Au moment du partage, une licence d’utilisation permet de stipuler clairement comment et à quelles fins les données peuvent être utilisées par d’autres.
  • Les organismes subventionnaires reconnaissent que différentes disciplines possèdent des cultures différentes quant au partage de données.

Licences et plans de partage

Citer des données de recherche

La citation devrait notamment contenir :

  • Créateur(s) (individus ou groupe)
  • Date de publication et version
  • Nom de l’ensemble de données
  • Centre de données ou dépôt
  • Adresse web ou identifiant unique (DOI)

Exemple :

Schonfeld, R.C., and Housewright, R. (2011). Ithaka S+R Faculty Survey 2009: Key Strategic Insights for Libraries, Publishers, and Societies (ICPSR version) [Data file]. Ann Arbor, MI: Inter-university Consortium for Political and Social Research. doi:10.3886/ICPSR30001.

Notez que les dépôts peuvent suggérer des règles de citations particulières.

Pour citer les données selon les styles

Pour plus d’information :

Trouver un dépôt

Vous désirez archiver et partager vos données? Il existe de nombreux dépôts disciplinaires et thématiques. Plusieurs sites peuvent vous aider à les repérer :

Il existe également des dépôts généralistes, comme FigShare, Dryad et Zenodo.

Les dépôts institutionnels peuvent aussi accueillir dans certains cas des ensembles de données. Papyrus, le dépôt institutionnel de l’Université de Montréal, n'est pas l'outil optimal pour décrire ce type de ressources et pour les grands ensembles de données, mais il peut cependant répondre à certains besoins de diffusion; contacter l'équipe Papyrus pour en savoir plus: depot@bib.umontreal.ca.

À noter que les éditeurs de revues proposent parfois aussi des options de dépôt de données.

depot de donnees

Jørgen Stamp, Digitalbevaring.dk. CC BY 2.5.

Critères de sélection

Lorsque vous choisissez un dépôt pour accueillir vos données, bien lire les conditions générales d'utilisation (propriété, partage, diffusion...) afin de vous assurer qu’il convient à votre recherche et vous permet de respecter les ententes que vous pourriez avoir concernant ces éléments avec vos partenaires.

Chaque dépôt prévoit des droits d'accès différents et, en fonction de son emplacement, peut être soumis à différentes lois.

Vous pouvez également vérifier s’il vous est possible d’ajouter à votre dépôt une licence d'utilisation qui vous convient, par exemple, une licence Open Data Commons.

Voir: Checklist: is it the right repository for your data? (Digital Curation Centre)

Mesurer l'impact de vos données

Tout comme vos publications, les données de recherche partagées peuvent augmenter l’impact de votre recherche.

Si vos données sont accessibles dans un dépôt, il se peut que vous puissiez obtenir des données de téléchargement et de citations; voir exemple dans ICPSR.

Si vos données obtiennent un identificateur d'objet numérique (DOI), vous pourrez mieux suivre les statistiques de consultation et de téléchargement de vos données. DataCite Canada est l’agence qui permet d’obtenir un tel identifiant unique.