This story on HackerNoon has a decentralized backup on Sia.

Transaction ID: P1OwgmETyLGeDByqjAEHJ745nncqu2c_ULZhmJorEts

Cover

Strategic LLM Training: Multi-Token Prediction's Data Efficiency in Mathematical Reasoning

Written by @cosmological | Published on 2025/7/23

TL;DR —

This figure illustrates the profound impact of training scale on multi-token prediction models' performance on GSM8K, highlighting critical data efficiency considerations for mathematical reasoning.

Table of Links

Abstract and 1. Introduction

3. Experiments on real data

4. Ablations on synthetic data

5. Why does it work? Some speculation

6. Related work

7. Conclusion, Impact statement, Environmental impact, Acknowledgements and References

A. Additional results on self-speculative decoding

B. Alternative architectures

C. Training speeds

E. Additional results on model scaling behavior

F. Details on CodeContests finetuning

G. Additional results on natural language benchmarks

H. Additional results on abstractive text summarization

I. Additional results on mathematical reasoning in natural language

J. Additional results on induction learning

K. Additional results on algorithmic reasoning

L. Additional intuitions on multi-token prediction

M. Training hyperparameters

I. Additional results on mathematical reasoning in natural language

Authors:

(1) Fabian Gloeckle, FAIR at Meta, CERMICS Ecole des Ponts ParisTech and Equal contribution;

(2) Badr Youbi Idrissi, FAIR at Meta, LISN Université Paris-Saclayand and Equal contribution;

(3) Baptiste Rozière, FAIR at Meta;

(4) David Lopez-Paz, FAIR at Meta and a last author;

(5) Gabriel Synnaeve, FAIR at Meta and a last author.

This paper is available on arxiv under CC BY 4.0 DEED license.

[story continues]

Written by

@cosmological

From Big Bang's singularity to galaxies' cosmic dance the universe unfolds its majestic tapestry of space and time.

Topics and
tags

multi-token-prediction|llm-training|ai-optimization|natural-language-math|multi-token-llm|llm-performance|ai-evaluation|transformer-models

This story on HackerNoon has a decentralized backup on Sia.

Transaction ID: P1OwgmETyLGeDByqjAEHJ745nncqu2c_ULZhmJorEts