Jorge Bento em 2025-2-04

OPINIÃO

O Sputnik da Inteligência Artificial

Coincidência ou não, o DeepSeek-R1 foi lançado no dia da tomada de posse de Donald Trump, e foi possível ver alguns dos convidados californianos ao almoço a comentar entre si o que viam nos seus telemóveis

O Sputnik da Inteligência Artificial

No final dessa mesma semana, o DeepSeek tornou-se a aplicação mais descarregada na App Store e na Play Store. Na segunda-feira seguinte, o chão pareceu abrir-se em Wall Street, com perdas de aproximadamente 500 mil milhões de dólares entre a Nvidia e os seus pares.

De alguma forma, foi o fim de uma narrativa — ou, pelo menos, um murro no estômago. A descoberta de que a China tinha ultrapassado os EUA no desenvolvimento de IA foi um choque, tal como em 1957, quando a União Soviética lançou o Sputnik e gerou pânico no Ocidente ao colocar, de forma inesperada, o primeiro satélite artificial em órbita.

Aqui, no entanto, não se tratou de chegar mais alto ou mais longe, mas sim de conseguir algo similar ao GPT-3.5, a um custo brutalmente inferior, utilizando recursos computacionais significativamente menores, permitindo correr versões do open-source localmente apenas em cima de CPU.

A máxima de que “a necessidade é a mestra do engenho” explica o fenómeno DeepSeek. Sem acesso aos chips de última geração devido ao embargo norte-americano, os seus criadores conseguiram obter resultados impressionantes utilizando GPU da década passada, placas gráficas AMD e CPU Intel e AMD que não estão abrangidos pelas restrições e processadores Huawei.

Investigadores da Apple, que até agora não se posicionou como um concorrente direto nesta disputa, revelaram abertamente o que outros não podem ou não querem divulgar: como foi isso possível?

As suspeitas iniciais confirmaram-se, agora com detalhes mais concretos: tudo assenta na otimização extrema do código (distilação), especialmente no conceito de esparsidade que é levado ao limite no DeepSeek, tornando-se a chave para o seu desempenho surpreendente.

Nos modelos LLM americanos, cada camada da rede neural é ativada em grande parte das operações, consumindo enormes recursos computacionais.

E uma estratégia de Brute Force na corrida entre ChatGPT, Gemini, Claude e Llama.

O DeepSeek, por outro lado, adota uma abordagem radicalmente mais eficiente: apenas uma fração dos “neurónios” e conexões são ativados a cada inferência, reduzindo drasticamente o consumo de energia e processamento.

O impacto desta abordagem vai muito além da eficiência, o DeepSeek não só desafia a hegemonia das grandes tecnológicas dos EUA, como também redefine as regras do jogo na corrida pela inteligência artificial.

Não será melhor, antes de reativar velhas centrais nucleares para alimentar a fome energética da IA, parar por um momento e otimizar o que já existe?

 


Jorge Bento

Diretor do IT Channel

Recomendado pelos leitores

As sanções americanas e a ascensão dos rivais chineses da Nvidia
OPINIÃO

As sanções americanas e a ascensão dos rivais chineses da Nvidia

LER MAIS

O papel da Inteligência Artificial no recrutamento de talento IT
OPINIÃO

O papel da Inteligência Artificial no recrutamento de talento IT

LER MAIS

Soberania dos dados europeus
OPINIÃO

Soberania dos dados europeus

LER MAIS

IT CHANNEL Nº 115 MARÇO 2025

IT CHANNEL Nº 115 MARÇO 2025

VER EDIÇÕES ANTERIORES

O nosso website usa cookies para garantir uma melhor experiência de utilização.