A Anthropic lançou o BioMysteryBench, um novo benchmark que apresenta 99 questões de bioinformática elaboradas por especialistas utilizando conjuntos de dados do mundo real. O benchmark avalia as capacidades do Claude, o modelo de IA da Anthropic, na resolução de problemas complexos de bioinformática. Das 99 questões, 76 foram solucionáveis por especialistas humanos, enquanto 23 permaneceram sem solução mesmo após análise de até cinco especialistas na área. O Claude Opus 4.6 alcançou uma precisão de 77,4% nas questões solucionáveis por humanos, com o modelo Mythos Preview apresentando melhorias adicionais. Notavelmente, o Mythos Preview resolveu 30% das questões consideradas difíceis para humanos. O sucesso do Claude é atribuído à sua capacidade de aproveitar o conhecimento cruzado entre artigos e empregar múltiplos métodos analíticos simultaneamente. No entanto, a análise de confiabilidade revela uma lacuna na consistência, com 86% das respostas corretas em questões solucionáveis por humanos sendo estáveis entre tentativas, em comparação com apenas 44% nas questões difíceis para humanos. Isso destaca os limites das capacidades do modelo. Paralelamente, o CompBioBench da Genentech e Roche corroborou esses achados, com o Claude Opus 4.6 alcançando 81% de precisão geral e 69% nas questões mais difíceis.