What Makes It Special - multi-token-prediction

✨ Improves benchmark performance when added to models like DeepSeek-V3.
✨ Achieves higher code accuracy (95% at n=4 vs. 80% at n=1).
✨ Enhances data efficiency via denser training signals.
✨ Enables speculative decoding for faster inference in GLM-4.5.