Digest System
feed-gathering · automatons-lab
LLM-based структурированная экстракция знаний из истории Discord-чатов. Pointer extraction для verbatim-контента, two-pass классификация, domain-aware профили, temporal tracking.
Overall Progress
100%
Phase 0 ✓
Phase 1 ✓
Phase 2 ✓
Phase 3 ✓
0
Phase 0
Foundation
Done
Детерминированный пайплайн от сырых сообщений до готовых чанков. Без LLM, без API ключей.
11/11 задач:
Dependencies · Config · DB · Pydantic модели · Pre-processing · Thread reconstruction · Importance scoring · Chunking · Entity dictionary · Topic profiles · Тесты
Issue #3 — closed ✓
1
Phase 1
Extraction Core
Done
Рабочий map-reduce с pointer extraction и валидацией. Ручной trigger через GraphQL.
10/10 задач:
LLM client (CLIProxy) · Tool schemas · Pointer extraction · Prompt templates · 4-layer validation · Pipeline orchestrator · GraphQL types + queries · Gold set bootstrap · Тесты
Issue #5 — closed ✓
2
Phase 2
Two-Pass + Scheduling
Done
Автоматический запуск, дешёвый классификатор, дедупликация между прогонами.
6/6 задач:
Pass 1 classifier · Profile routing · Cross-run dedup (RAG) · Digest scheduler · Cost tracking · Тесты
Issue #10 — closed ✓
3
Phase 3
Frontend + Polish
Done
UI, safety, temporal model, production readiness.
8/8 задач:
Temporal model · Human review · Timeline + detail · Search · Server rollups · Ops dashboard · Server schedule UI · Profiles & entity editor
Safety scanner — deferred (private system, not needed)
Issue #12 — closed ✓
🎉 Все фазы завершены
36 задач из RFC реализованы. Safety scanner deferred — приватная система, фильтрация PII/NSFW не требуется.
Deferred items (RFC §20): vision extraction, cross-window action items, multi-model A/B, per-user subscriptions.
📄 Документация
RFC: Discord Digest System
LLM Extraction Principles
Implementation Plan