Googles offene Gemma-4-Modelle nutzen spekulative Dekodierung für bis zu 3x schnellere Ausführung

Google hat experimentelle Gemma-4-Modelle mit Multi-Token-Prediction (MTP)-Entwürfen veröffentlicht, die spekulative Dekodierung für schnellere Textgenerierung nutzen.
MTP ermöglicht es einem leichten Entwurfsmodell (74 Millionen Parameter), mehrere Token vorherzusagen, die das Hauptmodell parallel überprüft, was die Generierung um bis zu 3x beschleunigt.
Die Technik ist besonders auf Consumer-Hardware mit langsamerem Speicher vorteilhaft, da sie Wartezeiten für die Generierung spekulativer Token nutzt.
Google behauptet keine Qualitätsverschlechterung, da das Hauptmodell alle Entwurfs-Token überprüft.
Entwurfsmodelle sind unter der Apache-2.0-Lizenz verfügbar und werden über MLX, VLLM, SGLang und Ollama-Frameworks unterstützt.