Der Anthropic Claude-Komplex aus 16 KI-Agenten hat sich selbstständig einen C-Compiler erschaffen.
Im Rahmen eines Experiments sammelte das Unternehmen Anthropic eine Gruppe von 16 autonomen KI-Agenten, die gemeinsam von Grund auf einen C‑Compiler in Rust entwickelten. Das Ergebnis ist eine „reine“ Implementierung, die den Linux‑Kernel 6.19 bauen und Projekte wie PostgreSQL, SQLite, Redis, FFmpeg und QEMU kompilieren kann, jedoch in erheblichem Maße hinter GCC hinsichtlich Qualität und Effizienz zurückbleibt.
Wie es gemacht wurde
Phase | Was geschah
---|---
Vorbereitung | 16 Instanzen des Modells Claude Opus 4.6 wurden in getrennten Docker‑Containern ohne Internetzugang gestartet. Jede klont ein gemeinsames Git‑Repository und erhält Aufgaben über Lock‑Dateien.
Selbstständige Planung | Es gibt keinen zentralen Koordinator: jeder Agent entscheidet selbst, welcher „offensichtliche“ Arbeitsabschnitt als Nächstes erledigt werden soll. Bei Merge-Konflikten wird der Code automatisch zusammengeführt.
Entwicklung | Den Agenten wurde die Aufgabe übertragen, einen C‑Compiler vollständig von Grund auf neu zu schreiben. Die Arbeit dauerte 2 Wochen und erforderte fast 2000 Claude Code‑Sitzungen.
Test | Um den Modellkontext nicht mit langen Anfragen zu „verschmutzen“, werden Tests im Zusammenfassungsmodus (nur wenige Ausgabesätze) ausgeführt. Für die Beschleunigung wurde ein schneller Modus für 1–10 % der Tests hinzugefügt.
Endprodukt
* Umfang – etwa 100 000 Zeilen Rust‑Code.
* Funktionalität – kann den Linux‑Kernel 6.19 auf x86, ARM und RISC‑V bauen; kompiliert PostgreSQL, SQLite, Redis, FFmpeg, QEMU; besteht ~99 % der GCC‑Tests.
* Einschränkungen – erzeugt keinen 16‑Bit‑Maschinencode (für die Ausführung von Linux ist GCC erforderlich), Assembler und Linker arbeiten mit Fehlern, und die Codeleistung liegt unter der von GCC. Die Qualität des Rust‑Codes lässt im Vergleich zu einem erfahrenen Programmierer zu wünschen übrig.
Kosten des Experiments
Indikator | Kosten
---|---
Token Claude API | ~\$20 000
Zusätzliche Kosten (Modelltraining, Projektorganisation, Testsets) | Nicht in der genannten Summe enthalten
Lektionen und Erkenntnisse
1. Der Grenzwert der Autonomie – bei einer Codegröße von ca. 100 000 Zeilen verlieren die Agenten das vollständige Verständnis des Projekts; dies scheint die Obergrenze für autonome KI zu sein.
2. Notwendigkeit der Unterstützung – Versuche, die Funktionalität zu erweitern, zerstörten häufig bereits funktionierende Teile des Codes.
3. Bedeutung der Entwicklungsumgebung – Isolation vom Internet und eine korrekte Testkonfiguration erwiesen sich als entscheidend für die stabile Arbeit der Agenten.
Fazit
Das Experiment zeigt, dass moderne KI‑Modelle in der Lage sind, komplexe Softwaresysteme mit minimaler Kontrolle zu generieren. Sie können jedoch noch nicht vollständig erfahrene Entwickler ersetzen: Codequalität, Leistung und Zuverlässigkeit bleiben unter denen traditioneller Compiler, und das Projekt ist auf Hunderttausende Zeilen begrenzt. Dies ist ein wichtiger Schritt vorwärts, aber noch weit von einer vollautonomen Softwareentwicklung entfernt.
Kommentare (0)
Teile deine Meinung — bitte bleib höflich und beim Thema.
Zum Kommentieren anmelden