Andrei Karpathy, přední postava ve vývoji AI, představil novou architekturu pro správu dlouhodobé paměti ve velkých jazykových modelech (LLM). Tento systém, nazývaný „LLM Knowledge Base“, obchází potřebu složitých kanálů pro pokročilé generování (RAG) a umožňuje samotnému LLM udržovat neustále se vyvíjející archiv souborů Markdown čitelný člověkem. Tento přístup řeší klíčový problém vývoje bezstavové umělé inteligence: ztrátu kontextu při ukončení relací nebo dosažení limitů využití.
Problém s tradiční pamětí AI
V současné době má většina LLM potíže s dlouhodobou pamětí. Při práci na složitých projektech uživatelé často čelí frustrující potřebě obnovit kontext po každé interakci, čímž plýtvají cennými tokeny a časem. Tradiční řešení, jako jsou vektorové databáze a pipeline RAG, se pokoušejí tento problém vyřešit indexováním dokumentů do vektorových reprezentací pro podobnostní vyhledávání. Tyto systémy však mohou způsobit zpoždění, hluk a nedostatek transparentnosti.
Karpathy’s Solution: Self-Susifying Markdown Archive
Karpathyho metoda je elegantní a jednoduchá: představte si LLM jako „výzkumného knihovníka“ na plný úvazek. Systém funguje tak, že přesměruje propustnost tokenů za účelem manipulace se strukturovanými znalostmi uloženými v souborech Markdown. Tím je zajištěno, že LLM aktivně kompiluje, upravuje a propojuje informace, čímž vytváří samoopravnou a auditovatelnou znalostní bázi.
Architektura se skládá ze tří fází:
- Nahrávání dat: Suroviny, včetně vědeckých článků, úložišť kódu a webových článků, se importují do adresáře raw. Webový obsah je převeden na Markdown pomocí nástrojů, jako je Obsidian Web Clipper, přičemž obrázky jsou zachovány pro schopnosti vidění LLM.
- Kompilace: LLM čte nezpracovaná data a píše strukturovanou wiki, shrnuje klíčové pojmy, vytváří encyklopedické články a generuje zpětné odkazy mezi souvisejícími nápady. To je zásadní inovace.
- Aktivní údržba (Linting): Systém provádí pravidelné „zdravotní kontroly“, prohledává wiki, zda neobsahuje nesrovnalosti, chybějící data nebo nová spojení. To zajišťuje, že znalostní báze zůstane přesná a aktuální.
Proč na Markdown záleží
Volba Markdown je záměrná. Jedná se o čitelný kompaktní formát dat, který poskytuje přímou sledovatelnost. Každé prohlášení provedené umělou inteligencí lze zpětně vysledovat ke konkrétnímu souboru .md, což umožňuje vzájemné hodnocení a úpravy. To je v ostrém kontrastu s problémem černé skříňky vektorových reprezentací, kde je inferenční logika AI neprůhledná.
Obchodní důsledky
Ačkoli je přizpůsobení Karpathy v současnosti popisováno jako „sada hacků“, důsledky pro podnikové aplikace jsou značné. Většina společností má obrovské množství nestrukturovaných dat – protokoly Slack, interní wiki a zprávy ve formátu PDF – které zůstávají z velké části nevyužity. Podniková vrstva ve stylu Karpathy může aktivně vytvářet průběžně aktualizovanou „podnikovou bibli“ syntetizací těchto dat v reálném čase.
Několik podnikatelů a odborníků na AI již tento potenciál rozpoznalo:
- Vamshi Reddy: “Každá firma má adresář raw/. Nikdo ho nikdy nezkompiloval. Toto je produkt.”
- Ole Lehman: „Jedna aplikace, která se synchronizuje s nástroji, které již používáte… sedí na něčem obrovském.“
- Eugen Alpeza: „Je tu místo pro nový produkt a my ho budujeme pro firemní sektor.“
Škálování, výkon a budoucnost paměti AI
Navzdory obavám o škálovatelnost Karpathy poznamenává, že jeho systém funguje dobře se 100 články a 400 000 slovy. U malých souborů dat jednoduchost Markdown často překonává latenci a šum složitých vektorových databází.
Konečným cílem je využít tyto strukturované znalosti ke generování syntetických dat a doladění. Neustálým vylepšováním wiki může LLM vytvořit vysoce kvalitní datovou sadu pro trénování vlastních, proprietárních modelů umělé inteligence.
Sám Karpathy to shrnuje: „Zřídkakdy ručně píšete nebo upravujete wiki; to je oblast působnosti LLM.“
To znamená posun směrem k autonomním archivům, kde AI udržuje svou vlastní paměť, čímž eliminuje potřebu neustálého lidského zásahu. Éra zapomenutých záložek skončila; Vstupujeme do éry, kdy si AI pamatuje vše za nás.
