Anthropic ha presentado BioMysteryBench, un nuevo punto de referencia que incluye 99 preguntas de bioinformática diseñadas por expertos utilizando conjuntos de datos del mundo real. Este benchmark evalúa las capacidades de Claude, el modelo de IA de Anthropic, para resolver problemas complejos de bioinformática. De las 99 preguntas, 76 fueron resolubles por expertos humanos, mientras que 23 permanecieron sin resolver incluso por hasta cinco expertos en la materia. Claude Opus 4.6 alcanzó una precisión del 77,4 % en las preguntas resolubles por humanos, con el modelo Mythos Preview mejorando aún más. Notablemente, Mythos Preview resolvió el 30 % de las preguntas difíciles para humanos.
El éxito de Claude se atribuye a su capacidad para aprovechar el conocimiento cruzado entre artículos y emplear múltiples métodos analíticos simultáneamente. Sin embargo, el análisis de confiabilidad muestra una brecha en la consistencia, con un 86 % de respuestas correctas en preguntas resolubles por humanos siendo estables a lo largo de los intentos, en comparación con solo un 44 % en preguntas difíciles para humanos. Esto resalta los límites de capacidad del modelo. Paralelamente, CompBioBench de Genentech y Roche corroboró estos hallazgos, con Claude Opus 4.6 alcanzando un 81 % de precisión en general y un 69 % en las preguntas más difíciles.
Claude Mythos de Anthropic Resuelve el 30% de los Desafíos Complejos en Bioinformática
Aviso legal: El contenido de Phemex News es únicamente informativo.No garantizamos la calidad, precisión ni integridad de la información procedente de artículos de terceros.El contenido de esta página no constituye asesoramiento financiero ni de inversión.Le recomendamos encarecidamente que realice su propia investigación y consulte con un asesor financiero cualificado antes de tomar cualquier decisión de inversión.
