구글과 딥마인드 출신 연구원들이 설립한 스타트업 Poetiq는 자사의 메타 시스템이 LiveCodeBench Pro 프로그래밍 벤치마크에서 새로운 기록을 세웠다고 발표했습니다. 이 API 기반의 지능형 하니스는 모델 가중치 변경이나 미세 조정 없이 대형 모델의 코딩 능력을 향상시킵니다. 특히 Kimi K2.6의 정확도는 50.0%에서 79.9%로 29.9%포인트 상승했으며, Gemini 3.0 Flash는 10포인트 향상되어 Claude Opus 4.7 및 GPT 5.2 High 같은 더 큰 모델들을 능가했습니다. 메타 시스템은 또한 GPT 5.5 High의 점수를 89.6%에서 93.9%로 끌어올렸고, Gemini 3.1 Pro가 90.9%를 달성하도록 도와 구글의 Gemini 3 Deep Think(88.8%)를 능가했습니다. Poetiq는 이 하니스가 전통적인 미세 조정 및 대규모 모델 배포에 따른 높은 비용 없이도 기업들이 추론 능력을 향상시킬 수 있게 한다고 강조합니다.