Бази Знань для LLM: Новий Підхід Андрія Карпати до Пам’яті ІІ та Корпоративних Даних

1

Андрій Карпаті, провідна фігура у розробці ІІ, представив нову архітектуру для керування довгостроковою пам’яттю у великих мовних моделях (LLM). Ця система, що отримала назву «Бази Знань LLM», обходить необхідність у складних конвеєрах генерації з розширеним пошуком (RAG), дозволяючи самій LLM підтримувати архів файлів Markdown, що безперервно розвивається. Цей підхід вирішує ключову проблему «бездержавного» розвитку ІІ: втрату контексту при завершенні сеансів або досягненні лімітів використання.

Проблема з Традиційною Пам’яттю ІІ

В даний час більшість LLM мають труднощі з довгостроковою пам’яттю. При роботі над складними проектами користувачі часто стикаються з необхідністю, що розчаровує, відновлювати контекст після кожної взаємодії, витрачаючи цінні токени і час. Традиційні рішення, такі як векторні бази даних та конвеєри RAG, намагаються вирішити цю проблему шляхом індексування документів у векторні уявлення для пошуку за подібністю. Однак ці системи можуть вносити затримки, шум та позбавлені прозорості.

Рішення Карпати: Самопідтримуваний Архів Markdown

Метод Карпати елегантний і простий: розглядайте LLM як штатного «бібліотекаря-дослідника». Система працює шляхом перенаправлення пропускної спроможності токенів на маніпулювання структурованими знаннями, що зберігаються у файлах Markdown. Це гарантує, що LLM активно компілює, редагує і пов’язує інформацію, створюючи базу знань, що самовідновлюється, перевіряється.

Архітектура складається з трьох етапів:

  1. Завантаження Даних: Необроблені матеріали, включаючи наукові статті, репозиторії коду та веб-статті, імпортуються до необробленої директорії. Веб-контент перетворюється на Markdown за допомогою інструментів, таких як Obsidian Web Clipper, із збереженням зображень для можливостей зору LLM.
  2. Компіляція: LLM зчитує необроблені дані та записує структуровану вікі, узагальнюючи ключові концепції, створюючи енциклопедичні статті та генеруючи зворотні посилання між пов’язаними ідеями. Це головна інновація.
  3. Активне обслуговування (лінтинг): Система виконує регулярні «перевірки здоров’я», скануючи вікі на предмет невідповідностей, відсутніх даних або нових зв’язків. Це гарантує, що база знань залишається точною та актуальною.

Чому Markdown має значення

Вибір Markdown свідомий. Це компактний формат даних, що забезпечує пряме відстеження. Кожне твердження, зроблене ІІ, можна простежити до конкретного .md файлу, що дозволяє проводити експертну оцінку та редагування. Це різко контрастує із проблемою «чорної скриньки» векторних уявлень, де логіка виведення ІІ непрозора.

Наслідки для Бізнесу

Хоча налаштування Карпати нині описується як «набір хаків», наслідки для корпоративних додатків є значними. Більшість компаній мають у своєму розпорядженні величезні обсяги неструктурованих даних — логи Slack, внутрішні вікі та PDF-звіти, які значною мірою не використовуються. Корпоративний шар у стилі Карпати може активно створювати «Корпоративну Біблію», що постійно оновлюється, синтезуючи ці дані в режимі реального часу.

Декілька підприємців та фахівців з ІІ вже визнали цей потенціал:

  • Вамші Редді: «У кожного бізнесу є директорія raw/. Ніхто її ніколи не компілював. Це продукт».
  • Оле Леман: «Одна програма, яка синхронізується з інструментами, якими ви вже користуєтеся… сидить на чомусь величезному».
  • Еуген Алпеза: «Є місце для нового продукту, і ми будуємо його для корпоративного сектора».

Масштабування, Продуктивність та Майбутнє Пам’яті ІІ

Незважаючи на побоювання щодо масштабованості, Карпати зазначає, що його система добре працює зі 100 статтями та 400 000 словами. Для невеликих наборів даних простота Markdown часто перевершує затримки та шум складних векторних баз даних.

Кінцева мета – використовувати ці структуровані знання для генерації синтетичних даних та тонкого налаштування. Постійно вдосконалюючи вікі, LLM може створювати високоякісний набір даних для навчання користувацьких приватних моделей ІІ.

Сам Карпати резюмує: «Ви рідко вручну пишете чи редагуєте вікі; це сфера LLM».

Це знаменує собою перехід до автономних архівів, де ІІ підтримує свою власну пам’ять, усуваючи необхідність постійного втручання людини. Епоха забутих закладок закінчилася; ми вступаємо в епоху, коли ІІ пам’ятає все за нас.