curius graph

all topics

click on a topic to explore it

186

Topic Clusters

167,210

Total Pages

Language Model Optimization

685 pages in cluster

Sample Pages (Top 50 by confidence)

ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality

https://arxiv.org/pdf/2510.22037

Last: Jan 07, 2026

100% confidence

[2503.13423] SuperBPE: Space Travel for Language Models

https://arxiv.org/pdf/2503.13423.pdf

Last: Jan 07, 2026

100% confidence

[2503.17514] Language Models May Verbatim Complete Text They Were Not Explicitly Trained On

https://arxiv.org/pdf/2503.17514.pdf

Last: Jan 07, 2026

100% confidence

Steering Language Models with Weight Arithmetic

https://arxiv.org/pdf/2511.05408

Last: Jan 07, 2026

100% confidence

Inference-Time Reward Hacking in Large Language Models

https://arxiv.org/pdf/2506.19248

Last: Jan 07, 2026

100% confidence

Pre-Finetuning/Domain-Adaptive Pre-training of Language Models | by Chien-Sheng (Jason) Wu | Process My Language | Medium

https://medium.com/jasonwu0731/pre-finetuning-domain-adaptive-pre-training-of-la...

Last: Jan 07, 2026

100% confidence

[2207.05221] Language Models (Mostly) Know What They Know

https://arxiv.org/pdf/2207.05221.pdf

Last: Jan 07, 2026

100% confidence

[2207.07061] Confident Adaptive Language Modeling

https://arxiv.org/pdf/2207.07061.pdf

Last: Jan 07, 2026

100% confidence

[2211.15458] Validating Large Language Models with ReLM

https://arxiv.org/pdf/2211.15458.pdf

Last: Jan 07, 2026

100% confidence

Holistic Evaluation of Language Models (HELM)

https://crfm.stanford.edu/helm/latest/?group=core_scenarios

Last: Jan 07, 2026

100% confidence

[2501.09223] Foundations of Large Language Models

https://arxiv.org/pdf/2501.09223.pdf

Last: Jan 07, 2026

100% confidence

Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models

https://browse.arxiv.org/html/2312.10091v1

Last: Jan 07, 2026

100% confidence

Simple distribution approximation: When sampled 100 times, can language models yield 80% A and 20% B? — AI Alignment Forum

https://www.alignmentforum.org/posts/iaHk9DMCbrYsKuqgS/simple-distribution-appro...

Last: Jan 07, 2026

100% confidence

Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation

https://arxiv.org/pdf/2509.15194

Last: Jan 07, 2026

100% confidence

Can Large Language Models Develop Gambling Addiction?

https://arxiv.org/pdf/2509.22818

Last: Jan 07, 2026

100% confidence

The Origins of Representation Manifolds in Large Language Models

https://arxiv.org/pdf/2505.18235

Last: Jan 07, 2026

100% confidence

[2502.00873] Language Models Use Trigonometry to Do Addition

https://arxiv.org/pdf/2502.00873.pdf

Last: Jan 07, 2026

100% confidence

Foundations of Large Language Models

https://arxiv.org/pdf/2501.09223v2

Last: Jan 07, 2026

100% confidence

Lexical Semantic Change through Large Language Models: a Survey | ACM Computing Surveys

https://dl.acm.org/doi/10.1145/3672393

Last: Jan 07, 2026

100% confidence

Symbols and grounding in large language models | Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences

https://royalsocietypublishing.org/doi/10.1098/rsta.2022.0041

Last: Jan 07, 2026

100% confidence

Teaching language models to support answers with verified quotes.pdf

https://storage.googleapis.com/deepmind-media/Teaching%20language%20models%20to%...

Last: Jan 07, 2026

100% confidence

A Trainable Spaced Repetition Model for Language Learning

https://research.duolingo.com/papers/settles.acl16.pdf

Last: Jan 07, 2026

100% confidence

Machine Learning–Driven Language Assessment

https://research.duolingo.com/papers/settles.tacl20.pdf

Last: Jan 07, 2026

100% confidence

Improving language models by retrieving.pdf

https://storage.googleapis.com/deepmind-media/research/language-research/Improvi...

Last: Jan 07, 2026

100% confidence

COMS 6998-7 (Spring 2025): “Theoretical Foundations of Large Language Models”

https://djhsu.notion.site/COMS-6998-7-Spring-2025-Theoretical-Foundations-of-Lar...

Last: Jan 07, 2026

100% confidence

Wordcraft: Story Writing With Large Language Models

https://dl.acm.org/doi/fullHtml/10.1145/3490099.3511105

Last: Jan 07, 2026

100% confidence

contents | Build a Large Language Model (From Scratch)

https://learning.oreilly.com/library/view/build-a-large/9781633437166/OEBPS/Text...

Last: Jan 07, 2026

100% confidence

Historical analogies for large language models

https://dynomight.substack.com/p/llms?s=r

Last: Jan 07, 2026

100% confidence

Foundations of Large Language Models: Tools, Techniques, and Applications | WatSPEED | University of Waterloo

https://uwaterloo.ca/watspeed/programs-and-courses/foundations-large-language-mo...

Last: Jan 07, 2026

100% confidence

Program Synthesis with Large Language Models

https://arxiv.org/pdf/2108.07732.pdf

Last: Jan 07, 2026

100% confidence

[2112.02969] Jigsaw: Large Language Models meet Program Synthesis

https://arxiv.org/pdf/2112.02969.pdf

Last: Jan 07, 2026

100% confidence

[2302.03169] Data Selection for Language Models via Importance Resampling

https://arxiv.org/pdf/2302.03169.pdf

Last: Jan 07, 2026

100% confidence

[2004.10964] Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

https://arxiv.org/pdf/2004.10964.pdf

Last: Jan 07, 2026

100% confidence

[2302.07842] Augmented Language Models: a Survey

https://arxiv.org/pdf/2302.07842.pdf

Last: Jan 07, 2026

100% confidence

[2305.02301] Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

https://arxiv.org/pdf/2305.02301.pdf

Last: Jan 07, 2026

100% confidence

[2305.10429] DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

https://arxiv.org/pdf/2305.10429.pdf

Last: Jan 07, 2026

100% confidence

[2305.17333] Fine-Tuning Language Models with Just Forward Passes

https://arxiv.org/pdf/2305.17333.pdf

Last: Jan 07, 2026

100% confidence

[2304.05128] Teaching Large Language Models to Self-Debug

https://arxiv.org/pdf/2304.05128.pdf

Last: Jan 07, 2026

100% confidence

Efficient Guided Generation for Large Language Models

https://arxiv.org/pdf/2307.09702

Last: Jan 07, 2026

100% confidence

Bridging the data gap between children and large language models - ScienceDirect

https://www.sciencedirect.com/science/article/pii/S1364661323002036

Last: Jan 07, 2026

100% confidence

Esoteric Language Models

https://arxiv.org/pdf/2506.01928

Last: Jan 07, 2026

100% confidence

[2310.07820] Large Language Models Are Zero-Shot Time Series Forecasters

https://arxiv.org/pdf/2310.07820.pdf

Last: Jan 07, 2026

100% confidence

[2208.03299] Few-shot Learning with Retrieval Augmented Language Models

https://arxiv.org/pdf/2208.03299.pdf

Last: Jan 07, 2026

100% confidence

[2002.08909] REALM: Retrieval-Augmented Language Model Pre-Training

https://arxiv.org/pdf/2002.08909.pdf

Last: Jan 07, 2026

100% confidence

LanguageGuessr

https://languageguessr.io/quick-game

Last: Jan 07, 2026

100% confidence

Bridging the data gap between children and large language models - ScienceDirect

https://www.sciencedirect.com/science/article/abs/pii/S1364661323002036

Last: Jan 07, 2026

100% confidence

The Hitchhiker’s Guide to Instruction Tuning Large Language Models | by Viraj Shah | Medium

https://medium.com/@veer15/the-hitchhikers-guide-to-instruction-tuning-large-lan...

Last: Jan 07, 2026

100% confidence

Explicitly unbiased large language models still form biased associations | PNAS

https://www.pnas.org/doi/10.1073/pnas.2416228122

Last: Jan 07, 2026

100% confidence

oLMpics-On What Language Model Pre-training Captures | Transactions of the Association for Computational Linguistics | MIT Press

https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00342/96476/oLMpics-On-Wh...

Last: Jan 07, 2026

100% confidence

Beyond Linear Steering: Unified Multi-Attribute Control for Language Models

https://arxiv.org/pdf/2505.24535

Last: Jan 07, 2026

100% confidence