Andrej Karpathy, eine führende Persönlichkeit in der KI-Entwicklung, hat eine neuartige Architektur für die Verwaltung von Langzeitwissen in großen Sprachmodellen (LLMs) vorgestellt. Dieses als „LLM Knowledge Bases“ bezeichnete System umgeht die Notwendigkeit komplexer RAG-Pipelines (Retrieval-Augmented Generation), indem das LLM selbst ein sich ständig weiterentwickelndes, für Menschen lesbares Archiv von Markdown-Dateien verwaltet. Dieser Ansatz löst die zentrale Herausforderung der „zustandslosen“ KI-Entwicklung: den Kontextverlust, wenn Sitzungen beendet oder Nutzungsgrenzen erreicht werden.
Das Problem mit dem traditionellen KI-Speicher
Derzeit haben die meisten LLMs Probleme mit dem Langzeitgedächtnis. Bei der Arbeit an komplexen Projekten sind Benutzer häufig mit der frustrierenden Erfahrung konfrontiert, dass sie nach jeder Interaktion den Kontext neu herstellen müssen, wodurch wertvolle Token und Zeit verschwendet werden. Herkömmliche Lösungen wie Vektordatenbanken und RAG-Pipelines versuchen, dieses Problem zu lösen, indem sie Dokumente für Ähnlichkeitssuchen in Einbettungen indizieren. Diese Systeme können jedoch zu Latenz, Rauschen und mangelnder Transparenz führen.
Karpathys Lösung: Ein selbstverwaltendes Markdown-Archiv
Karpathys Methode ist elegant und einfach: Behandeln Sie den LLM als hauptberuflichen „Forschungsbibliothekar“. Das System funktioniert, indem es den Token-Durchsatz umleitet, um strukturiertes Wissen zu manipulieren, das in Markdown-Dateien gespeichert ist. Dadurch wird sichergestellt, dass das LLM Informationen aktiv zusammenstellt, bearbeitet und miteinander verknüpft und so eine selbstheilende, überprüfbare Wissensdatenbank erstellt.
Die Architektur besteht aus drei Phasen:
- Datenaufnahme: Rohmaterialien, einschließlich Forschungsarbeiten, Code-Repositories und Webartikel, werden in ein Rohverzeichnis importiert. Webinhalte werden über Tools wie Obsidian Web Clipper in Markdown konvertiert, wobei Bilder für LLM-Vision-Funktionen erhalten bleiben.
- Zusammenstellung: Der LLM liest die Rohdaten und schreibt ein strukturiertes Wiki, das Schlüsselkonzepte zusammenfasst, Artikel im Enzyklopädiestil erstellt und Backlinks zwischen verwandten Ideen generiert. Das ist die Kerninnovation.
- Aktive Wartung (Linting): Das System führt regelmäßige „Gesundheitsprüfungen“ durch und scannt das Wiki auf Inkonsistenzen, fehlende Daten oder neue Verbindungen. Dadurch wird sichergestellt, dass die Wissensdatenbank korrekt und aktuell bleibt.
Warum Markdown wichtig ist
Die Wahl von Markdown ist bewusst. Es handelt sich um ein für Menschen lesbares, kompaktes Datenformat, das eine direkte Rückverfolgbarkeit ermöglicht. Jeder von der KI erhobene Anspruch kann auf eine bestimmte MD-Datei zurückgeführt werden, was eine menschliche Überprüfung und Bearbeitung ermöglicht. Dies steht in krassem Gegensatz zum „Black-Box“-Problem der Vektoreinbettungen, bei dem die Argumentation hinter den KI-Ausgaben undurchsichtig ist.
Auswirkungen auf Unternehmen
Während Karpathys Setup derzeit als „hackige Skriptsammlung“ beschrieben wird, sind die Auswirkungen auf Unternehmensanwendungen erheblich. Die meisten Unternehmen verfügen über riesige Mengen unstrukturierter Daten – Slack-Protokolle, interne Wikis und PDF-Berichte –, die weitgehend ungenutzt bleiben. Eine Unternehmensschicht im „Karpathy-Stil“ könnte aktiv eine kontinuierlich aktualisierte „Unternehmensbibel“ verfassen und diese Daten in Echtzeit synthetisieren.
Mehrere Unternehmer und KI-Ausbilder haben dieses Potenzial bereits erkannt:
- Vamshi Reddy: „Jedes Unternehmen hat ein raw/-Verzeichnis. Niemand hat es jemals kompiliert. Das ist das Produkt.“
- Ole Lehmann: „Eine App, die sich mit den Tools synchronisiert, die Sie bereits verwenden … sitzt auf etwas Riesigem.“
- Eugen Alpeza: „Es gibt Platz für ein neues Produkt und wir bauen es im Unternehmen.“
Skalierung, Leistung und die Zukunft des KI-Speichers
Trotz Bedenken hinsichtlich der Skalierbarkeit stellt Karpathy fest, dass sein System mit bis zu 100 Artikeln und 400.000 Wörtern gut funktioniert. Bei kleineren Datensätzen übertrifft die Einfachheit von Markdown häufig die Latenz und das Rauschen komplexer Vektordatenbanken.
Das ultimative Ziel besteht darin, dieses strukturierte Wissen für die Generierung und Feinabstimmung synthetischer Daten zu nutzen. Durch die kontinuierliche Weiterentwicklung des Wikis kann das LLM ein hochwertiges Trainingsset für benutzerdefinierte, private Intelligenzmodelle erstellen.
Karpathy selbst fasst zusammen: „Man schreibt oder bearbeitet das Wiki selten manuell; es ist die Domäne des LLM.“
Dies stellt einen Wandel hin zu autonomen Archiven dar, in denen die KI ihr eigenes Gedächtnis verwaltet und so die Notwendigkeit eines ständigen menschlichen Eingreifens überflüssig macht. Die Ära der vergessenen Lesezeichen ist vorbei; Wir betreten ein Zeitalter, in dem sich die KI alles für uns merkt.
