• Google hat experimentelle Gemma-4-Modelle mit Multi-Token-Prediction (MTP)-Entwürfen veröffentlicht, die spekulative Dekodierung für schnellere Textgenerierung nutzen.
  • MTP ermöglicht es einem leichten Entwurfsmodell (74 Millionen Parameter), mehrere Token vorherzusagen, die das Hauptmodell parallel überprüft, was die Generierung um bis zu 3x beschleunigt.
  • Die Technik ist besonders auf Consumer-Hardware mit langsamerem Speicher vorteilhaft, da sie Wartezeiten für die Generierung spekulativer Token nutzt.
  • Google behauptet keine Qualitätsverschlechterung, da das Hauptmodell alle Entwurfs-Token überprüft.
  • Entwurfsmodelle sind unter der Apache-2.0-Lizenz verfügbar und werden über MLX, VLLM, SGLang und Ollama-Frameworks unterstützt.