DeepSeek hat seine V4 API-Modelle, V4-Pro und V4-Flash, eingeführt und dabei erhebliche Preisreduzierungen sowie eine achtfache Erhöhung der Kontextlänge vorgestellt. Das V4-Flash-Modell ersetzt die vorherige Version V3.2 ohne Preiserhöhung, bietet zwischengespeicherte Eingaben zu 0,2 RMB pro Million Tokens an und senkt die Kosten für nicht zwischengespeicherte Eingaben von 2 RMB auf 1 RMB, während die Ausgabekosten von 3 RMB auf 2 RMB sinken. Die Kontextlänge wurde von 128K auf 1M Tokens erweitert. Das V4-Pro-Modell, eine neue Premium-Stufe, kostet 1 RMB für zwischengespeicherte Eingaben, 12 RMB für nicht zwischengespeicherte Eingaben und 24 RMB für Ausgaben pro Million Tokens, was die höheren Kosten aufgrund begrenzter Hochleistungsrechenkapazitäten widerspiegelt. Es wird jedoch erwartet, dass die Preise nach der Einführung der Ascend 950 Superknoten später in diesem Jahr sinken. Beide Modelle unterstützen Modi ohne und mit Schlussfolgerungen, wobei letzterer hohe und maximale Intensitätsstufen bietet. Die älteren Modelle deepseek-chat und deepseek-reasoner werden bis zum 24. Juli 2026 eingestellt.