Андрей Карпати, ведущая фигура в разработке ИИ, представил новую архитектуру для управления долгосрочной памятью в больших языковых моделях (LLM). Эта система, получившая название «Базы Знаний LLM», обходит необходимость в сложных конвейерах генерации с расширенным поиском (RAG), позволяя самой LLM поддерживать непрерывно развивающийся, удобочитаемый архив файлов Markdown. Этот подход решает ключевую проблему «безгосударственного» (stateless) развития ИИ: потерю контекста при завершении сеансов или достижении лимитов использования.
Проблема с Традиционной Памятью ИИ
В настоящее время большинство LLM испытывают трудности с долгосрочной памятью. При работе над сложными проектами пользователи часто сталкиваются с разочаровывающей необходимостью восстанавливать контекст после каждого взаимодействия, тратя ценные токены и время. Традиционные решения, такие как векторные базы данных и конвейеры RAG, пытаются решить эту проблему путем индексирования документов в векторные представления для поиска по сходству. Однако эти системы могут вносить задержки, шум и лишены прозрачности.
Решение Карпати: Самоподдерживающийся Архив Markdown
Метод Карпати элегантен и прост: рассматривайте LLM как штатного «библиотекаря-исследователя». Система работает путем перенаправления пропускной способности токенов на манипулирование структурированными знаниями, хранящимися в файлах Markdown. Это гарантирует, что LLM активно компилирует, редактирует и связывает информацию, создавая самовосстанавливающуюся, проверяемую базу знаний.
Архитектура состоит из трех этапов:
- Загрузка Данных: Необработанные материалы, включая научные статьи, репозитории кода и веб-статьи, импортируются в необработанную директорию. Веб-контент преобразуется в Markdown с помощью инструментов, таких как Obsidian Web Clipper, с сохранением изображений для возможностей зрения LLM.
- Компиляция: LLM считывает необработанные данные и записывает структурированную вики, обобщая ключевые концепции, создавая энциклопедические статьи и генерируя обратные ссылки между связанными идеями. Это основная инновация.
- Активное Обслуживание (Линтинг): Система выполняет регулярные «проверки здоровья», сканируя вики на предмет несоответствий, отсутствующих данных или новых связей. Это гарантирует, что база знаний остается точной и актуальной.
Почему Markdown Имеет Значение
Выбор Markdown сознателен. Это удобочитаемый, компактный формат данных, обеспечивающий прямую отслеживаемость. Каждое утверждение, сделанное ИИ, можно проследить до конкретного .md файла, что позволяет проводить экспертную оценку и редактирование. Это резко контрастирует с проблемой «черного ящика» векторных представлений, где логика вывода ИИ непрозрачна.
Последствия для Бизнеса
Хотя настройка Карпати в настоящее время описывается как «набор хаков», последствия для корпоративных приложений значительны. Большинство компаний располагают огромными объемами неструктурированных данных — логами Slack, внутренними вики и PDF-отчетами, которые в значительной степени не используются. Корпоративный слой в стиле Карпати может активно создавать непрерывно обновляемую «Корпоративную Библию», синтезируя эти данные в режиме реального времени.
Несколько предпринимателей и специалистов по ИИ уже признали этот потенциал:
- Вамши Редди: «У каждого бизнеса есть директория raw/. Никто ее никогда не компилировал. Это продукт».
- Оле Леман: «Одно приложение, которое синхронизируется с инструментами, которыми вы уже пользуетесь… сидит на чем-то огромном».
- Эуген Алпеза: «Есть место для нового продукта, и мы строим его для корпоративного сектора».
Масштабирование, Производительность и Будущее Памяти ИИ
Несмотря на опасения по поводу масштабируемости, Карпати отмечает, что его система хорошо работает с 100 статьями и 400 000 словами. Для небольших наборов данных простота Markdown часто превосходит задержки и шум сложных векторных баз данных.
Конечная цель — использовать эти структурированные знания для генерации синтетических данных и тонкой настройки. Постоянно совершенствуя вики, LLM может создавать высококачественный набор данных для обучения пользовательских, частных моделей ИИ.
Сам Карпати резюмирует: «Вы редко вручную пишете или редактируете вики; это сфера LLM».
Это знаменует собой переход к автономным архивам, где ИИ поддерживает свою собственную память, устраняя необходимость в постоянном вмешательстве человека. Эпоха забытых закладок закончилась; мы вступаем в эпоху, когда ИИ помнит все за нас.






























