InSilico: l’IT au service de la génomique

Article
Par · 20/09/2012

Le projet de recherche InSilico, qui a germé au sein du laboratoire IRIDIA de l’ULB spécialisé en Intelligence Artificielle, est en passe de se muer en spin-off. La s.a. InSilicon Genomics, actuellement en phase de levée de fonds, a été créée en mai 2012. Elle deviendra formellement une spin-off de l’ULB/VUB lorsque les négociations de licence avec l’université auront été bouclées, en principe d’ici quelques semaines.

Son domaine de spécialisation: le développement d’outils et de solutions de traitement de l’information dans le domaine très spécifique de la recherche génomique.

Si des progrès plus que sensibles ont été faits, ces dernières années, du côté du séquençage génomique, “le défi et les points majeurs d’achoppement demeurent le traitement des immenses volumes de données que cette discipline implique”, souligne David Weiss, coordinateur du projet InSilico. C’est pourquoi l’équipe d’informaticiens et de bioinformaticiens concentre ses travaux sur les aspects de transferts et de stockage sécurisé de ces données, de normalisation des formats de données et des métadonnées, et de combinaison de jeux de données provenant de diverses études, réalisées dans divers pays selon des procédures et nomenclatures parfois différentes.

Après reformatage et normalisation, les données reçues et collationnées sont fournies, à la demande, aux équipes de recherche (universitaires ou hospitalières) ou aux instituts de séquençage qui peuvent les importer dans des outils d’analyse biologique spécifiques (tels les outils de visualisation et d’analyse GenePattern, GenomeSpace… développés par Harvard et le Broad Institute du MIT, partenaire de l’équipe de l’ULB).

Genèse

Ce qui allait devenir InSilico DB et, dans la foulée, la société InSilico Genomics est né d’un projet semi-avorté. En 2009, quatre laboratoires universitaires (IRIDIA et IRIBHM de l’ULB, CoMo et Switch de la VUB) introduisent un dossier qui vise au développement de tests de diagnostics. Il n’aboutira pas. Mais pour les besoins du projet, les chercheurs s’étaient lancés dans le développement d’une base de données pouvant rassembler et traiter les données publiques. “Il s’est avéré que les outils IT que nous avions développé pour consolider et nettoyer les données s’avéraient intéressants d’un point de vue économique”, explique David Weiss. InnovIris allait d’ailleurs y injecter de l’argent.

Le projet de base de données et de plate-forme de traitement des données génomiques a donc continué son petit bonhomme de chemin avec les laboratoires d’intelligence artificielle de l’ULB et la VUB (IRIDIA et CoMo). “InSilico DB est aujourd’hui la plus importante collection de profils génomiques de haute qualité, revus par des experts via un mécanisme de collaboration communautaire à la Wikipedia.” On y trouve à la fois des données génomiques publiques et privées.

Les données génomiques publiques sont des données disponibles dans des référentiels (contrôlés par les instituts de recherche gouvernementaux), contenant les profils génériques déjà utilisés dans le cadre d’étude scientifiques et mises à la disposition de la communauté scientifique. “Ces données sont disponibles mais pas très utilisables, en l’état. InSilicon y applique des mécanismes de nettoyage, afin de les mettre à disposition des chercheurs dans des conditions optimales afin qu’ils puissent les exploiter et les recombiner plus vite, pour les besoins de leurs recherches.”

La plate-forme InSilico est par ailleurs à même de gérer et de partager de manière sécurisée les données génomiques privées, telles par exemple les données à destination purement clinique “qui n’ont aucune raison de devenir publiques mais que pourraient s’échanger des médecins, par exemple pour obtenir un second avis”.

Le rôle d’InSilico

“InSilico a pour ambition de procurer une solution complète. Le plus important problème auquel sont aujourd’hui confrontés les chercheurs est de trouver une plate-forme pour effectuer leurs tests génomiques. Trouver les outils nécessaires, qu’il s’agisse d’algorithmes, d’outils d’analyse, de mécanismes de traitement, etc. relève du véritable parcours du combattant. Nous voulons rendre l’ensemble plus rapide, plus facile et plus transparent. Raison pour laquelle, notamment, nous avons opté pour un système de traitement en open source, totalement documenté, sans algorithmes secrets qui n’offrent aucune transparence”, déclare David Weiss.

“La solution InSilico se définit dès lors comme une plate-forme en-ligne de gestion et de partage sécurisés de données génomiques.”

La société, selon le type de traitements et la nature des clients qu’elle servira, pourra jouer divers rôles, notamment:

  • conservation à long terme des données (datawarehousing), “ce qui permettra de remonter dans l’historique d’un patient, de réanalyser avec de nouveaux outils ou algorithmes des données déjà passées au crible précédemment…”
  • nettoyage et republication de données génomiques publiques
  • analyses “routinières”, à la demande, de jeux de données que pourront demander les médecins et chercheurs
  • création d’outils “génériques” développés à l’attention du monde médical
  • paramétrage d’algorithmes, selon les besoins spécifiques des chercheurs, par exemple à l’occasion de nouveaux tests de séquençage auxquels ils procéderaient de leur côté. Sur base des nouveaux tests et des nouveaux types de données développés (par exemple des épigénomes (2), qui concernent les modifications survenues au niveau de l’ADN). Les informations seront transférées à InSilico qui procédera aux adaptations d’algorithmes nécessaires.

Sécurité absolue

Inutile de souligner le côté sensible du genre de données que traite InSilico. Les risques de dérive, piratage, abus en tous genres sont évidents. D’autant que les progrès de la technique font qu’aujourd’hui, le séquençage est à la portée d’un grand nombre et que quiconque met la main sur le génome d’un individu peut potentiellement retrouver son identité.

Des intérêts énormes sont en jeu. Tant pour le progrès de la science, via une utilisation “propre” par les milieux scientifiques, cliniques et académiques. Que pour les multiples acteurs industriels qui évoluent dans leur orbite- depuis les groupes pharmaceutiques jusqu’aux… compagnies d’assurances.

La sécurité est donc un maître-mot pour une société telle InSilico.

Premier niveau de sécurisation : les données qui lui sont transmises sont anonymisées. Toute une série de précautions et mesures sont prises à cet égard, comme par exemple le fait de ne publier que des mesures moyennes ou des parties non identifiables du génome. “Les progrès de la technique imposent de telles mesures”, insiste David Weiss. “Lorsqu’on utilisait encore la technique dite de microarray, la résolution n’était pas suffisante pour identifier le patient. Désormais, avec la technique dite de next generation sequencing, la chose devient possible. Si nécessaire, InSilico DB traite donc les données afin de les anonymiser avant de les redistribuer. Anonymiser les données et sécuriser les accès est le seul moyen d’aider la science à continuer à fonctionner de manière ouverte.”

“Le défi et les points majeurs d’achoppement demeurent le traitement des immenses volumes de données que cette discipline implique”

Lorsqu’il s’agit d’accéder à ces données, qu’elles soient de type public ou privé (voir la différence expliquée ci-dessus), l’un des points-clé est de ne le permettre qu’à des personnes autorisées. Des chercheurs, dans le premier cas. Des médecins, dans le second. Le mécanisme de contrôle mis en oeuvre par InSilico repose sur le principe d’appartenance. Le chercheur qui fournit les données est considéré comme leur “propriétaire”. Lui-même s’identifie via un mot de passe et un identifiant. Pour permettre à d’autres d’y accéder ou pour les partager, il invite par exemple un collaborateur sur la plate-forme qui lui adresse alors un mail. Mail qui contient un lien. Le même principe s’appliquera pour les données privées cliniques pour les médecins.

Des développements sont également en cours pour sécuriser encore davantage les transferts et partages de données (en plus des mécanismes existants de cryptage et de certificats SSL). Jusqu’à présent, les données étaient échangées entre organismes de recherche ou de soins de santé sans grande protection. Elles transitaient simplement par courriel, non sécurisé.

Pour assurer à la communauté scientifique et médicale une sécurité et confidentialité optimales des données, InSilico Genomics a installé ses systèmes chez Interxion.

Enfin, pour le traçage des données et traitements, InSilico s’est lancé dans le développement d’outils de surveillance qui permettront de déterminer qui a eu accès aux données, ce qu’il en a fait (type de traitement), à qui il les a transmises…

Données urbi et orbi

Selon le cas, InSilico opérera comme dépositaire des données ou procurera les outils de traitement et de sécurisation nécessaires en vue des manipulations et analyses qui seront effectuées sur des données résidant sur des sites tiers.

Dans certains cas, en effet, les clients exigeront ou préféreront garder les données chez eux, sur leurs propres infrastructures. “Selon le cas, les données seront stockées dans le cloud, chez le producteur des données ou chez InSilico. Cela dépendra notamment de critères légaux, de contraintes de sécurité ou de dispositions spécifiques en vigueur dans certaines entreprises. C’est le cas de certains centres médicaux ou de certaines sociétés pharmaceutiques. Notre produit devra donc être générique, utilisable dans tous les scénarios.”

Les mécanismes mis en oeuvre, en termes de sécurité, de contrôle d’accès, de traçage de l’information et de son utilisation, de transferts et mixage de données, devront pour leur part s’adapter en conséquence. Simple exemple: lorsque les données (ou une partie d’entre elles) resteront chez le client, les transferts concerneront uniquement les algorithmes proprement dits et les mises à jour du logiciel. Là encore, une sécurité maximale est requise.

InSilico travaille dès lors actuellement au développement de nouveaux mécanismes et outils qui permettront d’implémenter ce genre de scénario: développement de solutions de traitement pour environnements hébergés chez des tiers (en ce compris privés) ou dans le cloud, déploiements in situ dans les instituts de recherche…

“Pour le traitement de données distribuées, réparties en plusieurs endroits, nous faisons appel à la technologie Hadoop, avec l’aide de CloudEra”, explique David Weiss. “Cela nous ouvre d’ailleurs de nouveaux horizons puisque nous pourrons bénéficier de puissances de calcul opérant en parallèle. Nous sommes directement concernés par le phénomène du big data. Ces calculs distribués en parallèle nous permettent désormais de “cruncher’ le génome non plus en quelques jours ou semaines mais en quelques heures.”

Destinations nouvelles

Outre les milieux de la recherche académique, InSilico étendra dans un deuxième temps sa clientèle potentielle au monde commercial. A commencer par les sociétés pharmaceutiques. “Nous ne faisons pas de distinction entre recherche académique et pharmaceutique. Ce sont là deux profils d’utilisateurs ayant des besoins similaires. InSilico gérera donc des données (génomiques) privées pour les recherches des entreprises pharmaceutiques, et leur proposera des services de stockage et de gestion de données.” Le démarchage a déjà commencé, “suscitant un intérêt marqué de la part de plusieurs acteurs. Plusieurs projets-pilote en cours”, déclare David Weiss. “La certification du logiciel devrait permettre d’atteindre une base d’utilisateurs plus large en garantissant les résultats d’analyse et de sécurité.” En cause, les enjeux financiers pour le développement de la moindre nouvelle molécule et les risques liés à la moindre fuite de données.

Au-delà de l’industrie pharmaceutique, où le degré de sensibilité des données reste élevé, d’autres secteurs s’intéressent également aux potentiels des données que peut mettre à disposition InSilico. David Weiss et l’équipe d’InSilico Genomics sont conscients à la fois de l’intérêt que suscite la génomique dans d’autres sphères et “de l’importance de garder une profonde réflexion éthique dans la continuité du projet humaniste initié à l’université.”

Parmi les secteurs qui se montrent intéressés par la génomique, citons par exemple des acteurs de l’agribusiness, des vétérinaires, des compagnies d’assurances, qui pourraient demain mesurer leurs services en fonction de la carte génomique de chaque individu (et les implications qu’elle aura sur la longueur de leur existence, leur “profil” professionnel…). De même, les organismes financiers, les organismes de cartes de crédit sont aux aguets. En cause, l’influence possible qu’aurait la carte – ou l’héritage – génétique sur la personnalité et les comportements de chaque individu, en ce compris en matière de dépenses financières et de propension à courir des risques ou à ne pas payer ses factures… Mais ceci est une autre histoire.

 

(1) Exome : partie du génome formée par les gènes codants, autrement dit les parties des gènes exprimées pour synthétiser les produits fonctionnels sous forme de protéines. C’est la partie du génome qui détermine le phénotype (ensemble des caractères apparents) d’un organisme, ses qualités structurelles et fonctionnelles.

L’exome d’un être humain est estimé à 1,5% de son génome

(2) Epigénome: ensemble de modifications épigénétiques d’une cellule. Epigénétique: étude qu’ont sur l’expression et la fonction des gènes des changements induits par l’hérédité, l’environnement et/ou le parcours individuel d’une personne; de manière plus spécifique, étude de l’ensemble des modifications de l’expression génétique, modifications transmises de génération en génération mais sans altération des séquences nucléotidiques (séquences de protéines, séquences génétiques) (sources: Wikipedia, site du Réseau d’excellence Epigénome (Union européenne).