• Google je objavio eksperimentalne modele Gemma 4 s Multi-Token Prediction (MTP) draftovima koji koriste spekulativno dekodiranje za brže generiranje teksta.
  • MTP omogućuje lakšem draft modelu (74 milijuna parametara) da predvidi više tokena koje glavni model paralelno provjerava, ubrzavajući generiranje do 3 puta.
  • Tehnika je posebno korisna na potrošačkom hardveru gdje je memorija sporija, jer iskorištava vrijeme čekanja za generiranje spekulativnih tokena.
  • Google tvrdi da nema degradacije kvalitete jer glavni model provjerava sve draft tokene.
  • Draft modeli dostupni su pod Apache 2.0 licencom i podržani su kroz MLX, VLLM, SGLang i Ollama okvire.