Jorge Bento em 2025-2-04
Coincidência ou não, o DeepSeek-R1 foi lançado no dia da tomada de posse de Donald Trump, e foi possível ver alguns dos convidados californianos ao almoço a comentar entre si o que viam nos seus telemóveis
No final dessa mesma semana, o DeepSeek tornou-se a aplicação mais descarregada na App Store e na Play Store. Na segunda-feira seguinte, o chão pareceu abrir-se em Wall Street, com perdas de aproximadamente 500 mil milhões de dólares entre a Nvidia e os seus pares. De alguma forma, foi o fim de uma narrativa — ou, pelo menos, um murro no estômago. A descoberta de que a China tinha ultrapassado os EUA no desenvolvimento de IA foi um choque, tal como em 1957, quando a União Soviética lançou o Sputnik e gerou pânico no Ocidente ao colocar, de forma inesperada, o primeiro satélite artificial em órbita. Aqui, no entanto, não se tratou de chegar mais alto ou mais longe, mas sim de conseguir algo similar ao GPT-3.5, a um custo brutalmente inferior, utilizando recursos computacionais significativamente menores, permitindo correr versões do open-source localmente apenas em cima de CPU. A máxima de que “a necessidade é a mestra do engenho” explica o fenómeno DeepSeek. Sem acesso aos chips de última geração devido ao embargo norte-americano, os seus criadores conseguiram obter resultados impressionantes utilizando GPU da década passada, placas gráficas AMD e CPU Intel e AMD que não estão abrangidos pelas restrições e processadores Huawei. Investigadores da Apple, que até agora não se posicionou como um concorrente direto nesta disputa, revelaram abertamente o que outros não podem ou não querem divulgar: como foi isso possível? As suspeitas iniciais confirmaram-se, agora com detalhes mais concretos: tudo assenta na otimização extrema do código (distilação), especialmente no conceito de esparsidade que é levado ao limite no DeepSeek, tornando-se a chave para o seu desempenho surpreendente. Nos modelos LLM americanos, cada camada da rede neural é ativada em grande parte das operações, consumindo enormes recursos computacionais. E uma estratégia de Brute Force na corrida entre ChatGPT, Gemini, Claude e Llama. O DeepSeek, por outro lado, adota uma abordagem radicalmente mais eficiente: apenas uma fração dos “neurónios” e conexões são ativados a cada inferência, reduzindo drasticamente o consumo de energia e processamento. O impacto desta abordagem vai muito além da eficiência, o DeepSeek não só desafia a hegemonia das grandes tecnológicas dos EUA, como também redefine as regras do jogo na corrida pela inteligência artificial. Não será melhor, antes de reativar velhas centrais nucleares para alimentar a fome energética da IA, parar por um momento e otimizar o que já existe?
Diretor do IT Channel |