Bate papo mais fluído com a Alexa? Pois no que depender da Amazon…

… isto será possível, através da Nova Sonic! Há algumas semanas, adquiri o Echo Show 5 com o objetivo de conhecer melhor esta nova classe de dispositivos: os assistentes digitais dotados de suporte para a Inteligência Artificial. Além disso, também tinha o objetivo de treinar a minha pronuncia em inglês. Porém, em vista das limitações da Alexa neste aspecto, não consigo fazer muita coisa além de solicitar a execução de algumas tarefas, como ativar alarmes, tocar músicas e exibir a previsão do tempo. Mas pelo visto, em breve este cenário vai mudar…

“On Tuesday, Amazon debuted a new generative AI model, Nova Sonic, capable of natively processing voice and generating natural-sounding speech. Amazon claims that Sonic’s performance is competitive with frontier voice models from OpenAI and Google on benchmarks measuring speed, speech recognition, and conversational quality. Nova Sonic is Amazon’s answer to newer AI voice models such as the model powering ChatGPT’s Voice Mode, which feel more natural to speak…”
— by TechCrunch.

A Amazon lançou o Nova Sonic, um novo modelo de voz com Inteligência Artificial que consegue entender e gerar fala de forma muito natural. Segundo a empresa, ele oferece desempenho comparável aos melhores modelos do mercado, como os da OpenAI e do Google. O Nova Sonic já está disponível na plataforma Amazon Bedrock, voltada para desenvolvedores e funciona por meio de uma API com transmissão em tempo real. Um dos principais destaques do Nova Sonic é o seu custo vs benefício, pois a Amazon afirma que ele é o modelo de voz com IA mais eficiente financeiramente do mercado (até 80% mais barato do que o GPT-4o)

O modelo foi desenvolvido com base na experiência da Amazon com a Alexa. Ele entende bem quando e como acionar diferentes APIs e fontes de dados, seja para buscar informações na internet ou interagir com sistemas externos. Além disso, o Nova Sonic reconhece pausas e interrupções durante a conversa, o que ajuda a criar uma interação mais fluida. Ele também gera transcrições automáticas da fala do usuário, o que pode ser útil em diversas aplicações.

Em relação ao desempenho técnico, o Nova Sonic apresenta ótimos resultados em reconhecimento de voz, com uma taxa de erro de apenas 4,2% em línguas como inglês, francês, italiano, alemão e espanhol. Em situações mais difíceis, como conversas barulhentas com várias pessoas falando ao mesmo tempo, ele ainda se destaca, sendo quase 47% mais preciso que o modelo equivalente da OpenAI. Além disso, ele também responde mais rápido: leva cerca de 1,09 segundo em média, superando a API Realtime da OpenAI.

Será que enfim, irei estabelecer uma conversação mais fluída com a Alexa? &;-D