Базы Знаний для LLM: Новый Подход Андрея Карпати к Памяти ИИ и Корпоративным Данным

21

Андрей Карпати, ведущая фигура в разработке ИИ, представил новую архитектуру для управления долгосрочной памятью в больших языковых моделях (LLM). Эта система, получившая название «Базы Знаний LLM», обходит необходимость в сложных конвейерах генерации с расширенным поиском (RAG), позволяя самой LLM поддерживать непрерывно развивающийся, удобочитаемый архив файлов Markdown. Этот подход решает ключевую проблему «безгосударственного» (stateless) развития ИИ: потерю контекста при завершении сеансов или достижении лимитов использования.

Проблема с Традиционной Памятью ИИ

В настоящее время большинство LLM испытывают трудности с долгосрочной памятью. При работе над сложными проектами пользователи часто сталкиваются с разочаровывающей необходимостью восстанавливать контекст после каждого взаимодействия, тратя ценные токены и время. Традиционные решения, такие как векторные базы данных и конвейеры RAG, пытаются решить эту проблему путем индексирования документов в векторные представления для поиска по сходству. Однако эти системы могут вносить задержки, шум и лишены прозрачности.

Решение Карпати: Самоподдерживающийся Архив Markdown

Метод Карпати элегантен и прост: рассматривайте LLM как штатного «библиотекаря-исследователя». Система работает путем перенаправления пропускной способности токенов на манипулирование структурированными знаниями, хранящимися в файлах Markdown. Это гарантирует, что LLM активно компилирует, редактирует и связывает информацию, создавая самовосстанавливающуюся, проверяемую базу знаний.

Архитектура состоит из трех этапов:

  1. Загрузка Данных: Необработанные материалы, включая научные статьи, репозитории кода и веб-статьи, импортируются в необработанную директорию. Веб-контент преобразуется в Markdown с помощью инструментов, таких как Obsidian Web Clipper, с сохранением изображений для возможностей зрения LLM.
  2. Компиляция: LLM считывает необработанные данные и записывает структурированную вики, обобщая ключевые концепции, создавая энциклопедические статьи и генерируя обратные ссылки между связанными идеями. Это основная инновация.
  3. Активное Обслуживание (Линтинг): Система выполняет регулярные «проверки здоровья», сканируя вики на предмет несоответствий, отсутствующих данных или новых связей. Это гарантирует, что база знаний остается точной и актуальной.

Почему Markdown Имеет Значение

Выбор Markdown сознателен. Это удобочитаемый, компактный формат данных, обеспечивающий прямую отслеживаемость. Каждое утверждение, сделанное ИИ, можно проследить до конкретного .md файла, что позволяет проводить экспертную оценку и редактирование. Это резко контрастирует с проблемой «черного ящика» векторных представлений, где логика вывода ИИ непрозрачна.

Последствия для Бизнеса

Хотя настройка Карпати в настоящее время описывается как «набор хаков», последствия для корпоративных приложений значительны. Большинство компаний располагают огромными объемами неструктурированных данных — логами Slack, внутренними вики и PDF-отчетами, которые в значительной степени не используются. Корпоративный слой в стиле Карпати может активно создавать непрерывно обновляемую «Корпоративную Библию», синтезируя эти данные в режиме реального времени.

Несколько предпринимателей и специалистов по ИИ уже признали этот потенциал:

  • Вамши Редди: «У каждого бизнеса есть директория raw/. Никто ее никогда не компилировал. Это продукт».
  • Оле Леман: «Одно приложение, которое синхронизируется с инструментами, которыми вы уже пользуетесь… сидит на чем-то огромном».
  • Эуген Алпеза: «Есть место для нового продукта, и мы строим его для корпоративного сектора».

Масштабирование, Производительность и Будущее Памяти ИИ

Несмотря на опасения по поводу масштабируемости, Карпати отмечает, что его система хорошо работает с 100 статьями и 400 000 словами. Для небольших наборов данных простота Markdown часто превосходит задержки и шум сложных векторных баз данных.

Конечная цель — использовать эти структурированные знания для генерации синтетических данных и тонкой настройки. Постоянно совершенствуя вики, LLM может создавать высококачественный набор данных для обучения пользовательских, частных моделей ИИ.

Сам Карпати резюмирует: «Вы редко вручную пишете или редактируете вики; это сфера LLM».

Это знаменует собой переход к автономным архивам, где ИИ поддерживает свою собственную память, устраняя необходимость в постоянном вмешательстве человека. Эпоха забытых закладок закончилась; мы вступаем в эпоху, когда ИИ помнит все за нас.