분산형 AI 인프라 기업 가타(Gata)는 224만 건 이상의 실제 대화와 약 356만 개의 질문 및 답변 쌍을 포함한 ChatGPT-RealUser-2.2M 데이터셋을 출시했습니다. 가타의 GPT-투-언(GPT-to-Earn) 프로그램을 통해 수집된 이 데이터셋은 2024년부터 2025년까지 GPT-3.5, GPT-4, o1과의 상호작용을 포함하며 15,000명 이상의 사용자가 참여했습니다. 특히, 이 데이터셋은 앨런 인스티튜트 포 AI(Allen Institute for AI)의 이전 데이터셋보다 두 배 크며, 온체인 인센티브 메커니즘 덕분에 상당한 양의 암호화폐 관련 콘텐츠를 포함하고 있습니다. 600개의 대화 샘플로 구성된 미리보기는 허깅페이스(Hugging Face)에서 제공되며, 전체 데이터셋은 연구 및 상업적 용도로 사용될 예정입니다. 이번 출시 이전에 가타는 2025년 5월 YZi Labs와 IDG 블록체인의 지원을 받아 400만 달러 규모의 시드 펀딩 라운드를 완료했습니다.