O colapso da IA Generativa está próximo!

Arnaldo Gunzi
2 min readSep 20, 2024

--

Quem treina os modelos de treinamento?

À medida que o conteúdo gerado por IA se torna mais comum na internet, os modelos futuros tendem a se alimentar cada vez mais de dados produzidos pela própria IA.

Os modelos atuais funcionam buscando padrões estatísticos sobre uma enorme base de dados da internet. No artigo de Shumailov et al., é demonstrado que os LLMs (Modelos de Linguagem de Grande Escala) “colapsam” após vários ciclos de treinamento com seus próprios resultados, produzindo conteúdo sem sentido.

Modelos treinados com esses dados tendem a “esquecer” elementos menos frequentes do conjunto de dados original. Isso leva a um “colapso do modelo”, à medida que mais dados gerados por IA se distanciam da realidade.

Essa situação me lembra a história do lendário herói grego Hércules, que enfrentou o gigante Anteu, filho de Gaia, a Terra. Anteu era invencível enquanto mantinha os pés no chão. Percebendo isso, Hércules o suspendeu no ar e aplicou um abraço mortal, vencendo o duelo.

Moral da história: mantenha sempre os pés no chão.

Baseado no artigo “AI produces gibberish when trained on too much AI-generated data”.

Escrito em parceria com o amigo João Pedro Campos.

Inscreva-se na minha newsletter para mais reflexões analíticas avançadas!

Originally published at https://ideiasesquecidas.com on September 20, 2024.

--

--

Arnaldo Gunzi
Arnaldo Gunzi

Written by Arnaldo Gunzi

Project Manager - Advanced Analytics, AI and Quantum Computing. Sensei of Analytics.

No responses yet