Sobre DNA, AlphaFold e um pequeno exercício
Se um computador tem a codificação em zeros e uns, um ser humano é codificado com 4 moléculas: Adenina, Guanina, Citosina e Timina. É o livro de códigos conhecido como DNA.
Assim como um código de computador, tem instruções específicas para começar, parar e identificar o que deve ser feito.
Esse código DNA vira uma proteína no final das contas, que vira algo útil para o ser humano, como um anticorpo.
Hoje em dia, sequenciar DNA é um problema fácil. Porém, prever a estrutura final da proteína é um problema muito difícil — é uma estrutura em 3D, onde cada moleculazinha interfere em todas as outras.
Por ser um problema muito difícil e importante, é um prato cheio para as empresas de IA mais avançadas do mundo.
A empresa DeepMind, da Google, desenvolveu um algoritmo chamado AlphaFold, que prevê o dobramento da proteína a partir do sequenciamento. A DeepMind desenvolve o que há de mais avançado em IA no mundo. Só para ter uma ideia, para treinar um algoritmo desses é na ordem de alguns milhões de dólares.
Agora o DeepMind anunciou que vai tornar todo esse conhecimento público.
“Até agora, o banco de dados consiste em 350.000 novas estruturas de proteínas. A DeepMind diz que vai prever e liberar as estruturas de mais de 100 milhões delas nos próximos meses — mais ou menos todas as proteínas conhecidas pela ciência.” — Trecho da matéria.
Aplicações potenciais: desenvolver novos remédios, conhecer melhor moléculas do corpo humano, etc.
Exercício simples com o genoma da COVID
O genoma da COVID pode ser baixado no site a seguir.
https://www.ncbi.nlm.nih.gov/sars-cov-2/
Esse compartilhamento de informações é o que possibilitou o desenvolvimento de vacinas num tempo tão curto.
São informações como a seguinte. Peguei um pequeno trecho, a base toda tem centenas de megabytes de tamanho.
Exercício: dada uma sequência genética como a seguinte,
MEQDRDIYFMQLAIEEAKKAEEMQEVPIGAVIVLDGEVISVAHNLRETEQRSIAHAELLAIDEACKKLGTWRLEDATLYVTLEPCPMCAGGIVLSRVKRVVYGASDPKGGCAGTLMNLLTDERFNHQCEVVTGVLEEECGTLLTNFFRELRKKRKAIKKLEKSNEN
Encontre o trecho a seguir. Está em qual posição?
LEDATL
Dica: No Excel, é só usar a função “Localizar”.
Agora, para pensar. Digamos que haja uma pequena mutação em uma das posições.
LADATL
O match perfeito agora não vai dar certo. Como encontrar o match mais similar possível?
Só para saber, o match similar é um problema bem mais difícil e há vários algoritmos propostos para tal.
Ideias analíticas avançadas