Decifrando o boletim da IA!
Vamos espiar os segredos da “avaliação” por trás dos rankings
Resumo deste artigo 📝
“Esta IA é a mais inteligente do mundo!”, “Nova IA alcança o 1º lugar no ranking!”… Vemos notícias assim o tempo todo, não é? Mas quem exatamente decide essa “inteligência” e como?
Neste artigo, vamos desvendar os bastidores dos vários “métodos de avaliação” usados para medir o desempenho da IA, como se fossem provas escolares ou competições desportivas, de uma forma que até mesmo quem não entende muito de IA possa compreender facilmente. Ao terminar a leitura, as notícias sobre IA se tornarão muito mais interessantes e fáceis de entender!
Capítulo 1: Como as notas da IA são definidas? O básico da avaliação
Na verdade, não existe apenas um método para medir a capacidade de uma IA. De modo geral, existem dois tipos: um em que pessoas verificam diretamente e outro em que a IA resolve testes pré-definidos. Vamos começar pelos conceitos básicos!
Método de verificação humana direta
(Toque no card para ver os detalhes)
Avaliação Humana
Especialistas humanos avaliam diretamente se o texto gerado pela IA é natural ou se compreende a intenção da pergunta. Como consegue avaliar a criatividade e as nuances de contexto, algo difícil para uma IA, é chamada de “padrão-ouro” (o critério mais confiável) da avaliação. O ponto negativo é que exige muito tempo e dinheiro.
O “vestibular” para IAs
(Toque no card para ver os detalhes)
Avaliação por Benchmark
A IA resolve testes padronizados preparados com antecedência (benchmarks), como quizzes de matemática ou ciências, para obter uma pontuação. Como permite comparar várias IAs no mesmo campo de jogo, é possível fazer uma comparação justa. Recentemente, nós, desenvolvedores, competimos diariamente para ver como podemos aumentar a pontuação nesses benchmarks.
Métodos de pontuação: Uma explicação simples das “métricas de avaliação” mais comuns
Se existem “testes”, também existem “regras de pontuação”, certo? Na avaliação de IA, são usadas regras com nomes um tanto curiosos. Aqui estão alguns dos mais representativos.
Explicação: Esta é a métrica mais básica e fácil de entender. É o mesmo que as questões de certo ou errado ou de múltipla escolha da escola. Por exemplo, se uma IA resolve um quiz de 100 questões de múltipla escolha sobre história ou direito (um formato usado num famoso benchmark chamado MMLU) e acerta 90, a “Accuracy é de 90%”. É frequentemente usada em testes que medem a amplitude do conhecimento.
Explicação: É usada principalmente em testes que resolvem problemas de programação (como o HumanEval). Por exemplo, em um “Pass@3”, a IA gera um código de programa três vezes, e se pelo menos um deles funcionar corretamente, é contado como “sucesso”. É um método para avaliar a capacidade de chegar à resposta correta através de tentativa e erro, em vez de dar a resposta perfeita de primeira.
Explicação: Tradicionalmente usado na avaliação de tradução automática (BLEU) e resumo de texto (ROUGE). Compara o texto gerado pela IA com uma resposta modelo criada por um humano e pontua mecanicamente com base em quantas palavras ou frases curtas coincidem. No entanto, tem a desvantagem de não conseguir captar nuances de sentenças que têm o mesmo significado, mas expressões diferentes.
Capítulo 2: Os 2 grandes estilos de avaliação
Existem duas grandes correntes nos métodos de avaliação de IA. Uma é o “formato de batalha”, onde IAs competem entre si e a preferência humana decide o vencedor. A outra é o “formato de prova”, onde elas resolvem problemas pré-definidos. Vamos comparar as características de cada um!
🥊 Formato de Batalha
Estilo Chatbot Arena
Um estilo de avaliação prático onde a “preferência” do usuário decide o vencedor.
- 📝Método: O usuário conversa livremente com 2 IAs anônimas e vota na que achou melhor.
- 👍Características: Revela a força em responder a uma variedade de perguntas do mundo real. É considerado mais justo, pois é difícil “estudar para a prova”.
- 🤔Pontos fracos: Há uma tendência de favorecer IAs que parecem confiantes e “boas de papo”, em vez da correção da resposta.
🏫 Formato de Prova
Estilo Hugging Face Leaderboard
Um estilo que mede a habilidade objetiva através de um “vestibular”, onde todos resolvem os mesmos problemas.
- 📝Método: Todas as IAs resolvem os mesmos benchmarks definidos, como de ciências ou matemática, sob as mesmas condições, e as pontuações são comparadas.
- 👍Características: É objetivo e sua força é a alta “reprodutibilidade”, onde qualquer um obtém o mesmo resultado. Também facilita o acompanhamento do progresso da pesquisa.
- 🤔Pontos fracos: O risco de “contaminação de dados” e a “saturação”, onde os testes se tornam fáceis demais para diferenciar, são problemas.
Capítulo 3: O método de avaliação mais recente? O “Professor IA” que avalia outras IAs
A avaliação humana é precisa, mas muito trabalhosa! Para resolver esse problema, surgiu um método que parece saído da ficção científica: “uma IA avaliando outra IA”. Isso é chamado de “LLM-as-a-Judge“.
Pontos fracos do “Professor IA”: favoritismo e erros também acontecem?
Mas este “Professor IA” também tem seus pontos fracos. Na verdade, ele tem umas manias bem fortes…
🚨 Quiz de Viés do Professor IA 🚨
Que tipo de “favoritismo” você acha que o Professor IA tende a ter? Clique para ver a resposta!
Isso é chamado de “viés de autopreferência” e mostra uma tendência a preferir estilos de escrita semelhantes ao seu. É como um nepotismo, não acha?
Isso é “viés de verbosidade”. Mesmo que o conteúdo não seja preciso, pode receber uma pontuação alta apenas por ser longa.
Capítulo 4: Os “bastidores” da avaliação de IA: Pontos de atenção
Vimos vários métodos de avaliação até agora, mas na verdade, todo o mundo da avaliação de IA enfrenta grandes desafios. Saber disso permitirá que você veja as notícias sobre IA de uma forma mais profunda e crítica.
As questões da prova vazaram? “Contaminação de dados”
Este é um dos maiores problemas na avaliação de IA. As IAs aprendem com uma quantidade enorme de dados da internet, certo? Ocorre que, às vezes, as questões do teste de benchmark usado para a avaliação podem ser incluídas nesses dados sem querer.
Uma analogia…
É como ir para o vestibular depois de decorar um livro de exercícios que contém as perguntas e respostas exatas da prova. Assim não dá para medir a verdadeira capacidade, não é? A IA pode não estar “resolvendo” o problema, mas apenas “recitando a resposta que memorizou”.
Por que os resultados mudam a cada vez? “A dificuldade da reprodutibilidade”
Em experimentos científicos, a “reprodutibilidade”, ou seja, obter o mesmo resultado independentemente de quem ou quando o experimento é feito, é crucial. No entanto, no mundo da IA, especialmente com IAs fornecidas por empresas, isso é extremamente difícil.
Isso porque os modelos de código fechado são constantemente atualizados sem aviso prévio. O GPT-4 que eu testei ontem e o GPT-4 que vocês usam hoje podem já ser modelos diferentes por dentro. Isso torna a comparação das avaliações muito difícil.
Conclusão: Como interpretar o boletim da IA?
Até agora, vimos os vários métodos de avaliação de IA e seus bastidores. A conclusão mais importante que quero transmitir é esta:
“Uma única tabela de classificação não é a verdade absoluta”
Cada método de avaliação tem suas vantagens e, como vimos, desvantagens significativas.
- Um ranking alto no formato de prova pode indicar que a IA é boa em testes acadêmicos.
- Um ranking alto no formato de batalha pode indicar que ela é boa em conversar de uma forma que agrada aos humanos.
Mas nenhum dos dois garante a “real facilidade de uso” para o seu objetivo.
Por isso, ao olhar para um ranking, é importante dar um passo para trás e ter uma perspectiva crítica, perguntando-se “com que método essa pontuação foi medida?”. A avaliação de IA continuará a evoluir. Acompanhar essa evolução também é uma das partes interessantes da IA!