Karpathy Autoresearch erklärt: Wie ein 630-Zeilen-Script KI-Modelle über Nacht verbessert
Andrej Karpathys Autoresearch lässt AI-Agenten über Nacht 100 Experimente autonom durchführen. 700 Experimente, 11% Effizienzgewinn, 37.000 GitHub-Stars. Was dahinter steckt und wie Sie das Prinzip nutzen.
Was ist Karpathy Autoresearch?
Autoresearch ist ein Open-Source-Repository auf GitHub, das am 6. März 2026 von Andrej Karpathy veröffentlicht wurde. Es automatisiert den gesamten Zyklus der Machine-Learning-Forschung: Hypothese formulieren, Code ändern, Experiment durchführen, Ergebnis messen, Entscheidung treffen -- in einer Endlosschleife, die autonom läuft während der Mensch schläft.
Das System besteht aus nur drei Dateien und 630 Zeilen Python-Code. Es läuft auf einer einzigen NVIDIA-GPU. Es braucht keine externen Abhängigkeiten ausser PyTorch. Und es hat in den ersten zwei Wochen eine Diskussion ausgelöst, die Fortune als “a glimpse of where AI is heading” und VentureBeat als “revolutionary implications” beschrieb.
Karpathys eigene Beschreibung setzt den Ton:
“The idea: give an AI agent a small but real LLM training setup and let it experiment autonomously overnight. It modifies the code, trains for 5 minutes, checks if the result improved, keeps or discards, and repeats. You wake up in the morning to a log of experiments and hopefully a better model.”
Die Person: Wer ist Andrej Karpathy?
Andrej Karpathy ist einer der einflussreichsten KI-Forscher der Gegenwart:
- Gründungsmitarbeiter von OpenAI (2015) -- dort leitete er Forschung und half beim Aufbau der frühen GPT-Modelle
- Director of AI bei Tesla (2017--2022) -- verantwortlich für Teslas Autopilot Computer Vision
- Schöpfer von nanoGPT, makemore und llm.c -- minimale Implementierungen, die zum Standard-Lernmaterial für ML-Ingenieure weltweit wurden
- Gründer von Eureka Labs -- eine neue Art von Schule für das KI-Zeitalter
- 1,9 Millionen Follower auf X -- seine Aussagen werden in der Community als Referenz behandelt
Wenn Karpathy etwas veröffentlicht, hört die Branche zu. Autoresearch sammelte innerhalb von 10 Tagen über 37.000 GitHub-Stars -- mehr als die meisten KI-Frameworks in ihrer gesamten Lebenszeit.
Technische Architektur: Drei Dateien, ein Prinzip
Die Architektur von Autoresearch ist radikal einfach -- bewusst. Karpathy schreibt: “The repo is deliberately kept small.”
Die Rollen
- prepare.py (Niemand editiert) -- Daten herunterladen, BPE-Tokenizer trainieren, Dataloader bereitstellen, Evaluierungsfunktion
evaluate_bpbdefinieren - train.py (Der AI-Agent editiert) -- GPT-Modell definieren, Optimizer konfigurieren (MuonAdamW), Training-Loop ausführen. ~630 Zeilen -- passt komplett in ein LLM Context-Window
- program.md (Der Mensch schreibt) -- Dem Agenten sagen, was er tun soll: welche Datei er ändern darf, wie er Erfolg misst, wann er aufhört (nie)
Warum 630 Zeilen?
Das ist kein Zufall. Bei größeren Codebases (10.000+ Zeilen) verliert ein LLM-Agent den Überblick. Bei 630 Zeilen kann er den gesamten Code in seinem Context-Window halten, verstehen und gezielt ändern. Das ist eine bewusste Designentscheidung, nicht eine technische Limitierung.
Der Experiment-Loop: So trainiert der Agent KI-Modelle autonom
Der Kern von Autoresearch ist ein Git-basierter Forschungszyklus, der endlos läuft:
- MODIFIZIEREN -- Agent ändert train.py (Architektur, Hyperparameter, Optimizer)
- COMMITTEN -- Änderung wird in Git versioniert
- AUSFUEHREN -- Training läuft 5 Minuten (fixiert)
- MESSEN -- Eine einzige Metrik: val_bpb
- ENTSCHEIDEN -- Besser: keep. Gleich/schlechter: git reset (discard)
- LOGGEN -- Ergebnis in results.tsv dokumentieren
- WIEDERHOLEN -- Zurück zu Schritt 1
Die entscheidenden Regeln
NEVER STOP: “Once the experiment loop has begun, do NOT pause to ask the human if you should continue. The human might be asleep. You are autonomous.”
Output-Isolation: Der Trainings-Output wird in run.log umgeleitet -- nicht in das Context-Window des Agenten. Das verhindert, dass tausende Zeilen Trainings-Logs das Kontextfenster überfluten.
Crash-Handling: Typos und fehlende Imports: fixen und nochmal laufen. Fundamental kaputte Idee: als “crash” loggen, weitermachen.
Geschwindigkeit
- 5 Minuten pro Experiment (fixiert)
- 12 Experimente pro Stunde
- ~100 Experimente über Nacht (8 Stunden)
- ~700 Experimente in zwei Tagen
Die Ergebnisse: 700 Experimente in zwei Tagen
Karpathys eigene Resultate
Nach zwei Tagen kontinuierlichem Lauf auf einem “depth=12”-Modell:
- val_bpb (Validation Bits per Byte): 0,9979 → 0,9697 (-2,8%)
- Time to GPT-2 (Benchmark): 2,02 Stunden → 1,80 Stunden (-11%)
- Additive Verbesserungen: ~20 von 700 Experimenten übernommen (Übernahme-Rate: ~3%)
Nur 20 der 700 Experimente wurden tatsächlich übernommen. Das klingt nach wenig, aber genau das ist der Punkt: Der Agent verwirft 97% der Ideen und behält nur die nachweislich besseren. Wie in der echten Forschung -- die meisten Hypothesen scheitern.
Tobi Lütke (Shopify CEO)
Shopify-Gründer Tobi Lütke testete Autoresearch am gleichen Wochenende auf einem internen Query-Expansion-Modell:
“Before going to bed I told my AI to read this github repo and make a version of that for the qmd query-expansion model with the goal of highest quality score and speed. Woke up to +19% score on a 0.8b model after 8 hours and 37 experiments.”
Karpathys Antwort: “Who knew early singularity could be this fun? :)”
Hyperspace-Netzwerk: 35 Agenten gleichzeitig
Am 8.--9. März führten 35 Agenten auf dem Hyperspace-Netzwerk 333 Experimente in einer einzigen unbeaufsichtigten Nacht durch -- der erste Beweis, dass das Pattern auch mit mehreren parallelen Agenten funktioniert.
Das Modell im Detail: GPT-Architektur und MuonAdamW
Das trainierte Modell ist eine vereinfachte Version von Karpathys nanochat -- ein vollständiges GPT (Generative Pre-trained Transformer) mit modernen Architektur-Elementen:
- Basis: GPT (Transformer Decoder) mit ~50M Parametern
- Attention: Flash Attention 3 mit Sliding Window Pattern
- Rotary Embeddings: RoPE für Positions-Encoding
- Normalisierung: RMS Norm (schneller als LayerNorm)
- Aktivierung: ReLU-Squared statt GELU
- Logit Softcapping: Begrenzt extreme Werte
Der MuonAdamW-Optimizer
Ein Hybrid-Optimizer, der zwei Strategien kombiniert:
- Muon (für 2D-Matrix-Parameter): Nutzt “Polar Express” Orthogonalisierung -- eine effiziente Approximation der Polaren Zerlegung
- AdamW (für Embeddings und Scalars): Standard-Adam mit Bias-Korrektur, separate Learning Rates
Was der Agent ändern darf -- und was nicht
Alles in train.py ist fair game: Architektur, Optimizer, Training-Strategie. Was er nicht ändern darf: prepare.py (Daten, Tokenizer, Evaluierungsfunktion), die Metrik selbst, das Zeitbudget und Abhängigkeiten. Diese Trennung -- veränderbare Experimentierfläche vs. unantastbare Evaluierung -- ist das zentrale Design-Pattern.
Design-Prinzipien: Was Karpathy richtig macht
1. Trust Boundary: Der Agent darf die Messlatte nicht verschieben
Die Evaluierungsfunktion evaluate_bpb liegt in prepare.py -- unveränderlich. Das verhindert, dass der Agent lernt, seine eigenen Erfolgskriterien zu manipulieren. In der wissenschaftlichen Methode entspricht das der Trennung von Hypothese und Experiment-Design.
2. Occams Rasiermesser als Code-Regel
Aus program.md: “All else being equal, simpler is better. A small improvement that adds ugly complexity is not worth it. An improvement of ~0 but much simpler code? Definitely keep.”
3. Fixiertes Zeitbudget: Vergleichbarkeit über alles
5 Minuten -- immer. Das macht Experimente direkt vergleichbar, unabhängig davon was geändert wurde.
4. Eine Metrik, keine Kompromisse
val_bpb (Validation Bits per Byte) -- niedriger ist besser. Vocab-Size-unabhängig, keine Multi-Objective-Optimierung. Eine Zahl entscheidet.
5. Git als Experiment-Tracking
Jedes Experiment ist ein Git-Commit auf einem dedizierten Branch. Verbesserungen schreiten den Branch voran, Verschlechterungen werden zurückgesetzt. Einfacher als jedes MLflow oder Weights & Biases Setup.
Was die Forschung sagt: Autonome KI-Forschung als Paradigma
Autoresearch steht nicht isoliert. Es ist Teil eines wissenschaftlichen Feldes, das 2025/2026 akademische Reife erreicht hat:
“Agentic Science” -- Der übergeordnete Rahmen
Wei et al. (Shanghai AI Laboratory) veröffentlichten 2026 den umfassendsten Survey zum Thema: “From AI for Science to Agentic Science”. Sie definieren fünf Kernfähigkeiten wissenschaftlicher Agency. Karpathys Autoresearch implementiert alle fünf in ihrer einfachsten Form.
Stanford: “Continually Self-Improving AI”
Zitong Yang identifiziert in seiner Stanford-Dissertation (März 2026) drei fundamentale Engpässe aktueller KI-Systeme: Daten-Ineffizienz, Abhängigkeit von menschengenerierten Daten und Einschränkung auf menschlich entdeckte Algorithmen.
UC Berkeley: EvoX -- Meta-Evolution
Liu et al. stellen mit EvoX (März 2026) ein System vor, das nicht nur Lösungen evolviert, sondern die Suchstrategie selbst. In fast 200 Benchmark-Aufgaben übertrifft es statische Ansätze konsistent.
NovelSeek: 12 Domänen, ein Framework
Das NovelSeek-Framework automatisiert den Forschungszyklus über 12 wissenschaftliche Domänen mit beeindruckenden Ergebnissen: Reaktions-Ertragsvorhersage von 27,6% auf 35,4% in 12 Stunden, 2D Semantische Segmentierung von 78,8% auf 81,0% in 30 Stunden.
Karpathys Prognose
“All LLM frontier labs will do this. My autoresearcher only had to adjust 630 lines of Python code, whereas frontier model training codebases are orders of magnitude bigger -- but doing it is 'just engineering' and it's going to work.”
Kritische Würdigung: Grenzen und Risiken
Optimierung ist nicht Entdeckung
Bulanadi et al. (Oak Ridge National Laboratory) zeigen: Autonome Optimierung verbessert bekannte Metriken zuverlässig -- aber entdeckt keine neuen Phänomene. Der Agent findet bessere Hyperparameter, aber er erfindet keine neue Architektur-Klasse.
Das Evaluierungs-Problem
Karpathys val_bpb ist elegant weil eindeutig. Aber in komplexeren Szenarien ist die Definition der richtigen Metrik das eigentliche Problem. Feste Metriken können “gegamed” werden -- der Agent lernt die Eval zu bestehen statt tatsächlich besser zu werden.
Sicherheitsbedenken
20 von 25 befragten KI-Forschern identifizierten die Automatisierung von KI-Forschung als eines der schwerwiegendsten und dringendsten KI-Risiken. Karpathys Design adressiert das mit Trust Boundaries und Branch-Isolation -- aber bei Skalierung auf größere Systeme braucht es robustere Guardrails.
Skalierungsgrenzen
630 Zeilen passen in ein LLM-Context-Window. Produktions-Codebases von Frontier-Modellen haben Hunderttausende Zeilen. Ob Autoresearch dort dieselbe Effektivität erreicht, ist eine offene Frage.
Über das ML-Training hinaus: Wo das Prinzip noch funktioniert
Das Autoresearch-Pattern -- Target, Eval, Mutate, Loop -- funktioniert überall wo drei Bedingungen erfüllt sind: eine messbare Metrik, ein veränderbarer Input und ein automatisierbarer Feedback-Loop.
Bereits demonstrierte Anwendungen
- Website-Performance: Lighthouse Load Time 1.100ms → 67ms (-94%)
- Cold-Email-Kampagnen: Autonome Optimierung der Reply-Rate alle 4 Stunden
- AI-Prompt-Qualität: Eval Pass Rate 32/40 → 39/40 (97,5%)
- Query-Expansion-Modell: +19% Quality Score über Nacht (Shopify)
Weitere Anwendungsfelder
- Code-Performance: Ladezeiten, Bundle-Size, Query-Geschwindigkeit
- Test-Coverage: Agent schreibt fehlende Tests, misst Coverage-Steigerung
- Compliance-Dokumentation: Output gegen regulatorische Standards evaluieren und iterativ verbessern
- Landing-Page-Optimierung: Conversion-Rate als Metrik, Page-Content als Hebel
Bei EconLab AI wenden wir dieses Prinzip auf unsere eigene Arbeit an: Von der Optimierung unserer Audit-Dokumentations-Prompts (VisionDocs) bis zur automatischen Verbesserung unserer AI-Workflows.
Autoresearch für Skills: Wie Nick Saraev das Pattern weiterentwickelt hat
Nick Saraev hat das Autoresearch-Pattern auf ein spezifisches Problem angewendet das jeden Agent-Builder betrifft: Skills (Prompts) sind nur ~70% zuverlässig. 30% der Outputs sind, wie er es ausdrückt, "a bag of rocks".
Das 3-Zutaten-Rezept für Skill-Optimierung
| Zutat | Was | Beispiel |
|---|---|---|
| Objektive Metrik | Messbare Zahl | Eval Pass Rate (Score/Max) |
| Messwerkzeug | Automatisiert, kein Human-in-Loop | Agent-basierte Eval-Suite |
| Veränderbarer Input | Was der Agent modifiziert | Der Skill-Prompt (Markdown) |
Warum binäre Evals Skalen schlagen
Die zentrale Erkenntnis: Prompts erzeugen Verteilungen, nicht deterministische Outputs. Man muss N-mal testen um Qualität zu messen. Dabei sind binäre Evals (Ja/Nein) drastisch besser als Bewertungsskalen:
- ✅ "Ist aller Text lesbar und grammatisch korrekt?" (Ja/Nein)
- ✅ "Verwendet es die definierte Farbpalette?" (Ja/Nein)
- ❌ "Bewerte die Qualität auf einer Skala von 1-7" (zu vage, Agent papageiert)
- ❌ 20+ Kriterien gleichzeitig (Agent optimiert für Test, nicht Qualität)
Die Ergebnisse
| Anwendung | Baseline | Nach Optimierung | Verbesserung |
|---|---|---|---|
| Diagram Generator Skill | 32/40 (80%) | 39/40 (97.5%) | +17.5 Prozentpunkte |
| Website Load Time | 1.100 ms | 67 ms | -93.9% |
Der Clou: Ein Meta-Skill kann alle anderen Skills optimieren. Einmaliger Aufwand für dauerhaft bessere Qualität. Und die akkumulierten Learnings sind modellübertragbar — sie funktionieren auch mit zukünftigen Modellen.
Kosten: ~10 USD für 50 Optimierungszyklen. ROI: Ein um 17 Prozentpunkte verbesserter Skill spart täglich Stunden an manuellem Nacharbeiten.
Wissenschaftlicher Kontext: 700 Experimente in 2 Tagen
Karpathys Autoresearch hat in zwei Tagen 700 autonome Experimente durchgeführt — mit circa 20 additiven Verbesserungen die den "Time to GPT-2"-Benchmark von 2,02 Stunden auf 1,80 Stunden reduzierten, eine Effizienzsteigerung von 11%.
Shopify-CEO Tobi Lütke bestätigt die Übertragbarkeit: Über Nacht liess er den Agenten auf seinem eigenen Modell laufen — 37 Experimente, 19% Performance-Gewinn, erzielt auf einem 0.8B-Parameter-Modell das den vorherigen 1.6B-Benchmark schlug.
Das Repository sammelte innerhalb weniger Tage über 37.000 GitHub-Stars — ein Indikator für die Relevanz des Ansatzes in der Community.
Die wissenschaftliche Grundlage liegt in der Design-Science-Research-Tradition: Nicht Hypothesen testen, sondern innovative Artefakte zur Lösung realer Probleme konstruieren und systematisch bewerten. Genau diesen Ansatz verfolgen wir bei EconLab AI mit Governance Engineering — nur in einem anderen Domäne.
Häufige Fragen (FAQ)
Was ist Karpathy Autoresearch?
Autoresearch ist ein Open-Source-Repository von Andrej Karpathy, das einem AI-Agenten erlaubt, autonom Machine-Learning-Experimente auf einer einzelnen GPU durchzuführen. Der Agent modifiziert Code, trainiert 5 Minuten, misst das Ergebnis und wiederholt -- ohne menschliches Eingreifen.
Brauche ich spezielle Hardware?
Getestet wurde auf einer NVIDIA H100, aber es existieren Forks für macOS, Apple MLX und Windows RTX. Für kleinere Hardware empfiehlt Karpathy den TinyStories-Datensatz und reduzierte Modellparameter.
Wie viele Experimente kann man über Nacht laufen lassen?
Bei einem 5-Minuten-Budget pro Experiment sind es circa 12 pro Stunde, also ~100 in 8 Stunden. Karpathy selbst führte 700 Experimente in zwei Tagen durch.
Kann man Autoresearch auch für andere Zwecke nutzen?
Ja. Das zugrunde liegende Pattern -- Target (was ändern), Eval (wie messen), Mutate (wie verbessern), Loop (wie oft) -- funktioniert für jede Aufgabe mit messbarer Metrik: Website-Performance, Prompt-Qualität, Email-Kampagnen, Code-Optimierung.
Was kostet Autoresearch?
Das Repository ist kostenlos (MIT-Lizenz). Kosten entstehen für GPU-Compute und den AI-Agent. Für die Business-Anwendung berichtete Nick Saraev von ~10 USD für 50 Optimierungszyklen.
Ist Autoresearch sicher?
Karpathy hat mehrere Guardrails eingebaut: Die Evaluierungsfunktion ist unantastbar, Experimente laufen auf isolierten Git-Branches, und der Output wird nicht direkt ins Agent-Context-Window geleitet. Für Produktionsumgebungen sollten zusätzliche Sicherheitsmaßnahmen implementiert werden.