Tag: scaling laws

How Training Duration and Token Counts Affect LLM Generalization

Explore how training duration and token counts impact LLM generalization. Learn why more data isn't always better and discover strategies like variable sequence length curriculum to boost performance.

Tag: scaling laws

How Training Duration and Token Counts Affect LLM Generalization

Search Blog

Categories

Popular tags

Archives