Nová umělá inteligence od DeepMind dokáže číst milion písmen DNA najednou – a skutečně je chápat

Souhrn

Výzkumníci z Google DeepMind představili deep learningový model AlphaGenome, který dokáže predikovat funkce dlouhých DNA sekvencí až o délce jednoho milionu nukleotidů při zachování vysoké přesnosti. Tento model se zaměřuje na nekódující oblasti genomu, označované jako jeho „temná hmota“, a pomáhá odhalovat, jak subtilní varianty DNA ovlivňují lidské zdraví a biologii. Studie byla publikována v časopise Nature.

Klíčové body

AlphaGenome zpracovává výrazně delší DNA sekvence než předchozí modely, což umožňuje komplexnější analýzu regulativních mechanismů.
Zaměřuje se na 98 % genomu tvořeného nekódujícími oblastmi, které regulují expresi proteinových genů.
Model slouží k predikci funkcí DNA variant, což má aplikace v personalizované medicíně a výzkumu nemocí.
Podle viceprezidenta výzkumu Pushmeeta Kohliho řeší AlphaGenome složitý regulativní kód genomu.
Vývoj proběhl v kontextu rostoucího zájmu o AI v genomice, kde DeepMind staví na svých předchozích úspěších jako AlphaFold.

Podrobnosti

Lidská DNA obsahuje instrukce pro stavbu a regulaci všech biologických procesů, ale pouze asi 2 % genomu kódováno pro proteiny jako inzulin nebo kolagen. Zbývajících 98 % tvoří nekódující oblasti, dříve považované za nepotřebný „odpad“, nyní známé jako klíčové pro regulaci genové exprese. Tyto oblasti, nazývané temnou hmotou genomu, zůstávají málo prozkoumané – vědci znají mapu genomu, ale ne mechanismy jeho fungování, zejména u variant ovlivňujících zdraví.

AlphaGenome, deep learningový model od Google DeepMind, řeší tento problém tím, že predikuje funkce dlouhých DNA sekvencí. Na rozdíl od stávajících modelů, které se omezují na kratší úseky, zpracovává AlphaGenome až milion nukleotidů současně bez výrazné ztráty přesnosti. Model trénovaný na velkých datech z genomových databází umožňuje simulovat, jak mutace v nekódujících regionech mění regulaci genů, což je klíčové pro pochopení komplexních onemocnění jako rakovina nebo genetické poruchy.

DeepMind, divize Google zaměřená na pokročilou umělou inteligenci, staví na úspěších jako AlphaFold pro predikci proteinových struktur. AlphaGenome rozšiřuje tyto schopnosti na regulační vrstvu genomu. V tiskové konferenci Pushmeet Kohli zdůraznil, že model decipheruje komplexní regulativní kód, což by mohlo urychlit výzkum. Nicméně, jako u všech AI modelů v biologii, záleží na validaci predikcí experimenty – studie v Nature poskytuje benchmarky, ale reálné aplikace vyžadují další testování na klinických datech.

Model je navržen pro použití v bioinformatice: vědci ho mohou integrovat do pipeline pro analýzu sekvenačních dat z technologií jako Illumina nebo PacBio, kde pomůže identifikovat funkčně významné varianty. Pro průmysl znamená AlphaGenome snížení nákladů na mokré laboratoře, protože AI simulace nahrazují časově náročné experimenty.

Proč je to důležité

AlphaGenome posiluje pozici AI v genomice, kde DeepMind konkuruje modelům jako Enformer od DeepMind samotného nebo Nucleotide Transformer od dalších týmů. V širším kontextu urychluje přechod k personalizované medicíně – lepší pochopení DNA variant umožní cílenou terapii a prevenci. Pro technologický ekosystém to demonstruje, jak specializované AI modely překonávají limity tradiční biologie, podobně jako v proteinovém designu. Potenciální rizika zahrnují závislost na datech (bias v trénovacích setech) a etické otázky soukromí genomových dat, což vyžaduje pečlivou regulaci. Celkově představuje krok k integraci AI do rutinního genomového výzkumu, s dopady na farmaceutický průmysl a veřejné zdraví.

Číst původní článek

Zdroj: 📰 Gizmodo.com