Anthropic ha presentado BioMysteryBench, un nuevo punto de referencia que incluye 99 preguntas de bioinformática diseñadas por expertos utilizando conjuntos de datos del mundo real. Este benchmark evalúa las capacidades de Claude, el modelo de IA de Anthropic, para resolver problemas complejos de bioinformática. De las 99 preguntas, 76 fueron resolubles por expertos humanos, mientras que 23 permanecieron sin resolver incluso por hasta cinco expertos en la materia. Claude Opus 4.6 alcanzó una precisión del 77,4 % en las preguntas resolubles por humanos, con el modelo Mythos Preview mejorando aún más. Notablemente, Mythos Preview resolvió el 30 % de las preguntas difíciles para humanos. El éxito de Claude se atribuye a su capacidad para aprovechar el conocimiento cruzado entre artículos y emplear múltiples métodos analíticos simultáneamente. Sin embargo, el análisis de confiabilidad muestra una brecha en la consistencia, con un 86 % de respuestas correctas en preguntas resolubles por humanos siendo estables a lo largo de los intentos, en comparación con solo un 44 % en preguntas difíciles para humanos. Esto resalta los límites de capacidad del modelo. Paralelamente, CompBioBench de Genentech y Roche corroboró estos hallazgos, con Claude Opus 4.6 alcanzando un 81 % de precisión en general y un 69 % en las preguntas más difíciles.