구글, 경제적인 Gemini 3.1 Flash-Lite 출시

구글은 Gemini 3 시리즈의 새로운 모델인 Gemini 3.1 Flash-Lite를 출시했습니다. 이 모델은 가장 빠르고 비용 효율적인 옵션으로 설계되었습니다. Mixture of Experts(MoE) 아키텍처를 활용하여 일부 매개변수만 활성화함으로써 추론 비용을 줄였습니다. API 가격은 입력 토큰 100만 개당 0.25달러, 출력 토큰 100만 개당 1.50달러로, Gemini 3.1 Pro보다 훨씬 저렴합니다. Gemini 3.1 Flash-Lite는 첫 토큰 지연 시간을 2.5배 줄이고 출력 속도를 45% 향상시켜 초당 363토큰에 도달하는 등 성능 지표가 개선되었습니다. 최대 100만 개의 입력 토큰과 64,000개의 출력 토큰을 지원하며, 텍스트, 이미지, 오디오, 비디오 입력을 처리할 수 있습니다. 내부 벤치마크에서 GPQA Diamond와 MMMU-Pro를 포함한 11개 테스트 중 6개에서 GPT-5 Mini와 Claude 4.5 Haiku를 능가했습니다. 이 모델의 "사고 수준" 기능은 개발자가 추론 깊이를 조절하여 품질과 비용을 최적화할 수 있게 합니다. 미리보기 접근은 Gemini API와 Vertex AI를 통해 제공됩니다.