GPT-5.5 идеально прошёл ProgramBench

GPT-5.5 стал первым ИИ, который получил идеальный результат в испытании ProgramBench по переписыванию бинарных файлов, бенчмарке, разработанном Meta FAIR, Стэнфордом и Гарвардом. Это испытание требует от ИИ восстановления программ из скомпилированных бинарных файлов без исходного кода и подсказок. GPT-5.5 в режиме высокого уровня рассуждений успешно воссоздал программу cmatrix как на C, так и на Python, пройдя все тесты при затратах $3,17 и $4,84 соответственно. В то же время Claude Opus 4.7 провалил 19 тестов, несмотря на более высокие затраты и количество вызовов API. Это достижение подчеркивает влияние интенсивности рассуждений на производительность ИИ, хотя полное понимание бинарных файлов остается далекой целью.

Вам также может понравиться