Локальный AI-ассистент для интеллектуального поиска по PDF-документам на основе LangGraph и ChromaDB
О проекте
RAG System — локальная система retrieval-augmented generation, которая позволяет задавать вопросы по загруженным PDF-документам и получать ответы с указанием источников. Никакие данные не покидают машину — всё работает через LM Studio.
Система автоматически индексирует новые документы при запуске, помнит контекст диалога и умеет переключаться на веб-поиск, если ответ не найден в локальной базе. В перспективе — поддержка DOCX, EPUB, TXT и произвольных веб-страниц.
Архитектура
Возможности
Автоматическая инкрементальная индексация: уже обработанные документы пропускаются. Поддержка больших файлов (пакетная загрузка по 5000 чанков).
Поиск по смыслу, а не по ключевым словам. ChromaDB возвращает top-5 наиболее релевантных чанков по cosine similarity.
Если локальная база не даёт результата — агент автоматически переключается на Tavily Search. Порог релевантности score ≥ 0.4.
LangGraph MemorySaver сохраняет контекст всего разговора в рамках сессии. Агент помнит предыдущие вопросы и ответы.
Ответы содержат ссылки на конкретные части документов, из которых взята информация.
LLM и embedding-модели работают локально через LM Studio. Данные из документов не покидают машину.
Технологии
Планы развития
Проект открытый, установка через uv sync
Открыть на GitHub →