Henrique Carreiro em 2023-3-13
No passado mês de fevereiro, a NASA anunciou a disponibilização de transcrições de cerca de onze mil horas de gravações de controle da missão Apollo 11, geradas pelo modelo Whisper AI da OpenAI.
Estas transcrições fornecem uma nova base de compreensão das ações tomadas no Controle de Missão durante a Apollo 11. O processamento do Whisper AI exigiu mais de doze mil horas de tempo de computação. As transcrições resultantes consistem em mais de 36 milhões de palavras, totalizando 155MB de texto. Já no início de março, a OpenAI anunciou a disponibilidade de APIs (Interfaces de Programação de Aplicações) para os seus modelos e que permitirão aos programadores integrá-los nos respetivos produtos. Introduzido em finais de novembro, o ChatGPT gera texto coerente em múltiplos estilos. O Whisper AI, um modelo de “fala para texto” (“text-to-speech”) lançado em setembro, pode transcrever de áudio para texto. A OpenAI chama ao seu modelo ChatGPT API “gpt-3.5-turbo” e a empresa diz ser a utilização deste cerca de dez vezes mais barata do que a dos seus modelos anteriores. “Através de uma série de optimizações de todo o sistema, conseguimos uma redução de custos de 90% para o ChatGPT desde dezembro”, anuncia a OpenAI. Por seu lado, a Whisper AI API está disponível a um preço inferior a um cêntimo de dólar por minuto, aceita entradas nos formatos M4A, MP3, MP4, MPEG, MPGA, WAV, e WEBM e pode traduzir áudio para texto ou transcrever a uma taxa comparável à de um transcritor humano qualificado, mesmo com áudio difícil, como pode ser comprovado pelos resultados com o complexo áudio das missões Apollo. Respondendo a preocupações de privacidade na recolha de dados dos clientes, a OpenAI diz ter modificado os seus termos de serviço para deixar de utilizar os dados submetidos para melhorias de serviço, incluindo formação de modelos futuros. Face à evolução rápida destes modelos, da baixa de custos de utilização, será pouco sensato para as empresas de software ignorarem o que significa para o futuro do software, face à mudança de expectativas dos utilizadores. Depois de experimentarem a interação dinâmica com base em linguagem natural, será difícil, a prazo, os utilizadores satisfazerem-se apenas com as interfaces regulares baseadas em sequências intermináveis de menus. Aquando da mudança das interfaces de linhas de comandos os para as interfaces gráficas, quem tardou a mudar, desapareceu. Agora, não há razão para que então sucedeu, não se repita. |