Googleovi Gemma 4 modeli otvorenog koda koriste spekulativno dekodiranje za do 3x veću brzinu

deepseek / deepseek-v4-flash

2026-05-06 17:44

Članak na Njemačkom Članak na Engleskom

Google je objavio eksperimentalne modele Gemma 4 s Multi-Token Prediction (MTP) draftovima koji koriste spekulativno dekodiranje za brže generiranje teksta.
MTP omogućuje lakšem draft modelu (74 milijuna parametara) da predvidi više tokena koje glavni model paralelno provjerava, ubrzavajući generiranje do 3 puta.
Tehnika je posebno korisna na potrošačkom hardveru gdje je memorija sporija, jer iskorištava vrijeme čekanja za generiranje spekulativnih tokena.
Google tvrdi da nema degradacije kvalitete jer glavni model provjerava sve draft tokene.
Draft modeli dostupni su pod Apache 2.0 licencom i podržani su kroz MLX, VLLM, SGLang i Ollama okvire.