Sobre DNA, AlphaFold e um pequeno exercício

Arnaldo Gunzi
3 min readAug 6, 2021

--

Se um computador tem a codificação em zeros e uns, um ser humano é codificado com 4 moléculas: Adenina, Guanina, Citosina e Timina. É o livro de códigos conhecido como DNA.

Assim como um código de computador, tem instruções específicas para começar, parar e identificar o que deve ser feito.

Esse código DNA vira uma proteína no final das contas, que vira algo útil para o ser humano, como um anticorpo.

Hoje em dia, sequenciar DNA é um problema fácil. Porém, prever a estrutura final da proteína é um problema muito difícil — é uma estrutura em 3D, onde cada moleculazinha interfere em todas as outras.

Por ser um problema muito difícil e importante, é um prato cheio para as empresas de IA mais avançadas do mundo.

A empresa DeepMind, da Google, desenvolveu um algoritmo chamado AlphaFold, que prevê o dobramento da proteína a partir do sequenciamento. A DeepMind desenvolve o que há de mais avançado em IA no mundo. Só para ter uma ideia, para treinar um algoritmo desses é na ordem de alguns milhões de dólares.

Agora o DeepMind anunciou que vai tornar todo esse conhecimento público.

“Até agora, o banco de dados consiste em 350.000 novas estruturas de proteínas. A DeepMind diz que vai prever e liberar as estruturas de mais de 100 milhões delas nos próximos meses — mais ou menos todas as proteínas conhecidas pela ciência.” — Trecho da matéria.

Aplicações potenciais: desenvolver novos remédios, conhecer melhor moléculas do corpo humano, etc.

Exercício simples com o genoma da COVID

O genoma da COVID pode ser baixado no site a seguir.
https://www.ncbi.nlm.nih.gov/sars-cov-2/

Esse compartilhamento de informações é o que possibilitou o desenvolvimento de vacinas num tempo tão curto.

São informações como a seguinte. Peguei um pequeno trecho, a base toda tem centenas de megabytes de tamanho.

Exercício: dada uma sequência genética como a seguinte,

MEQDRDIYFMQLAIEEAKKAEEMQEVPIGAVIVLDGEVISVAHNLRETEQRSIAHAELLAIDEACKKLGTWRLEDATLYVTLEPCPMCAGGIVLSRVKRVVYGASDPKGGCAGTLMNLLTDERFNHQCEVVTGVLEEECGTLLTNFFRELRKKRKAIKKLEKSNEN

Encontre o trecho a seguir. Está em qual posição?

LEDATL

Dica: No Excel, é só usar a função “Localizar”.

Agora, para pensar. Digamos que haja uma pequena mutação em uma das posições.

LADATL

O match perfeito agora não vai dar certo. Como encontrar o match mais similar possível?

Só para saber, o match similar é um problema bem mais difícil e há vários algoritmos propostos para tal.

Ideias analíticas avançadas

--

--

Arnaldo Gunzi
Arnaldo Gunzi

Written by Arnaldo Gunzi

Project Manager - Advanced Analytics, AI and Quantum Computing. Sensei of Analytics.

No responses yet