What can genomics learn from natural language processing?
Rather than treating DNA as a massive database of variations, as in traditional approaches using pangenome graphs, genomes can also be considered as a complex language. In this context, artificial intelligence has evolved beyond simple reading and annotation, it now grasps the “grammar” of DNA and genes to compose entirely new, original sequences validated experimentally. The core of this course explores a fundamental paradigm shift: moving from an era of comparing existing genomes to an era of genome design. Thanks to generative AI and the deep semantic understanding captured by embeddings, we can now generate fully functional artificial proteins and (small) genomes. Dive into this introductory course to discover how we are transitioning from simply reading the code of life to actively rewriting it, a transformation that also raises important ethical questions.
Short bio
Guillaume Gautreau est un jeune chercheur en microbiologie computationnelle, spécialisé dans l’analyse à grande échelle des (méta)génomes microbiens à travers des graphes de pangénome. Son parcours académique débute par un DUT spécialisé en génie logiciel, suivi d’une Licence en biologie moléculaire et d’un Master en bioinformatique. Cette formation bi-disciplinaire lui a permis de combiner des compétences techniques et des connaissances fondamentales en biologie. Des bases essentielles pour ses futures recherches ! Logiciels, génomes et alinéas, il casse les codes ! Guillaume fait ses premières armes en analyse cytométrique de haute dimension avec la méthode SPADEVizR qu’il a développée au sein de l’infrastructure IDMIT (CEA/UPSaclay, Fontenay-aux-Roses). Par la suite, il a entrepris un doctorat au LABGeM/Genoscope (CEA, Evry) introduisant des graphes de pangénome partitionnés pour représenter la biodiversité génomique des procaryotes. Cette recherche a abouti à la création de PPanGGOLiN, un outil internationalement reconnu et récompensé en 2023 par le prix Science Ouverte du Ministère de la Recherche (catégorie espoir en sciences et techniques). Pendant la pandémie, Guillaume a mobilisé en urgence ses compétences pour contribuer au projet international COVIDiSTRESS, visant à évaluer les impacts psychologiques de la crise sanitaire. En 2020, il a intégré l’unité MetaGenoPolis (INRAE) en tant que chercheur post-doctorant pour explorer les liens entre le microbiome et la spondylarthrite ankylosante avec l’équipe du Pr. Breban (UVSQ) à travers les projets MIRIAD (Fondation Arthritis) et MicroSPA (ANR). En parallèle de ces projets, il coordonne des recherches méthodologiques, notamment sur la détection automatique des contaminations métagénomiques (méthode CroCoDeEL), crucial pour les projets de grande envergure comme « Le French Gut ». Enfin, il participe à la plateforme ABRomics, visant à surveiller la résistance aux antibiotiques, et enseigne pour l’école EBAii de l’Institut Français de Bioinformatique. Passionné depuis longtemps par le droit, Guillaume a obtenu sa Capacité et une Maîtrise en droit de la santé en suivant des études à distance (Universités Paris 1 et Paris 8). Depuis 2023, il associe ces connaissances à ses travaux scientifiques sur la délicate question de l’équilibre entre la protection des données personnelles et les objectifs de science ouverte, notamment dans le contexte de la recherche sur les microbiotes humains (projet Cloud4SAMS du PEPR SAMS). Admis au concours des CR INRAE 2023, il a rejoint l’unité MaIAGE (INRAE/UPSaclay, Jouy-en-Josas), où il imagine de nouvelles méthodologies en pangénomique, notamment basées sur des IA fondationnelles (Stage de Naïa Périnelle, Stage de Mamadou-Aliou Diallo, thèse de Meriem Youssef, projet ANR PanGAIMiX, thèse DIGITBIO PanGAIBench, projet GS LSH EMT4AIMS, stage de Etienne Sekkouri Alaoui). Il coordonne aussi des projets novateurs, tels que FermenTwin (Stage Omar Gawas, Eva Brovedani, Alfonso Pelella), portant sur le pilotage de la fermentation d’aliments à travers des jumeaux numériques, ou TEPOM (Stage Benjamin Prehaud), explorant l’épigénétique des microbiomes.
Laboratory of the speaker
MaAIGE unit, INRAE
Invited by


