É possível mensurar a “estupidez” dos chatbots? Pois esta é a…

… proposta de uma nova ferramenta de benchmark! Apesar delas entregarem bons resultados gerais, muitos usuários já “perceberam” que em determinadas tarefas uma se sobressai melhor do que as outras. Em minhas experiências pessoais, o ChatGPT se destaca na construção de respostas sobre assuntos diversos (pois a utilizo para complementar os meus estudos sobre determinadas tecnologias), além de gerar imagens mais consistentes, ao passo que o Google Gemini entrega melhores resultados para fazer resumos sobre qualquer publicação…

“Those who have worked with AI models for various tasks, especially coding, have noticed that the software tools behave inconsistently. In some cases, they simply fail to provide any answers; sometimes they deliver erroneous code, and when they come up with what was expected, they do it slower than usual. This is where the AI Benchmark Tool, located at AistupidLevel.info, steps in, providing real-time information regarding the performance and accuracy of several AI models, including cost data.”

— by NotebookCheck.

Eis, a AistupidLevel! Esta nova ferramenta de código aberto foi desenvolvida para medir o nível de “estupidez” das populares ferramentas de IA generativa (mais precisamente, a inconsistência no desempenho de modelos de Inteligência Artificial). O criador da ferramenta, motivado pela frustração com a flutuação na qualidade das respostas dos modelos de IA, desenvolveu uma solução para rastrear e quantificar essas variações. Esta ferramenta avalia continuamente os principais modelos de IA, como o Claude, o GPT, o Gemini e o Grok, para fornecer uma medida objetiva de seu desempenho ao longo do tempo.

A metodologia da ferramenta consiste em executar mais de 140 tarefas de codificação, depuração e otimização a cada 20 minutos. Os resultados são então pontuados com base em sete eixos diferentes, que incluem correção, complexidade, recusas, estabilidade e latência. Para garantir a precisão e a imparcialidade das avaliações, a ferramenta utiliza testes de unidade determinísticos e outras verificações, além de empregar técnicas para evitar o cache e garantir que os modelos não produzam respostas previamente armazenadas.

Os resultados iniciais da ferramenta já forneceram alguns insights interessantes sobre o desempenho dos modelos de IA. Por exemplo, observou-se que o Claude Sonnet 4 é consistentemente forte em correção e estabilidade, ao passo que o Google Gemini (apesar de ter maiores variações nas taxas de recusa) lidera a classificação geral. Por ser uma ferramenta de código aberto, qualquer pessoa pode acessar o código-fonte, contribuir com novos testes e benchmarks, ou até mesmo hospedar sua própria instância da ferramenta, promovendo a transparência e a colaboração da comunidade.

Gostaria mesmo é saber qual destas ferramentas, é a mais “bajuladora”… &;-D