Phase 0 — Foundation

Digest System · feed-gathering
Детерминированный пайплайн от сырых сообщений до готовых чанков.
Без LLM, без API ключей. Всё тестируемо локально.
1

0.1 Dependencies

Добавить openai SDK для CLIProxy совместимости
requirements.in
2

0.2 Config

LLM_BASE_URL, модели для classify/map/reduce, лимиты чанков, минимум сообщений
app/config.py
3

0.3 DB коллекции + индексы

discord_digest, discord_digest_job, digest_topic_profiles, digest_entity_dictionary
app/db.py
4

0.4 Pydantic модели

Digest, DigestJob, ChunkSummary, KnowledgeItem, ContentPointer, TopicProfile, ProfileModule, EntityEntry, SignalQuality
app/digest/models.py
5

0.5 Pre-processing

Фильтрация (system/emoji/empty/bot), нормализация (mentions→names, attachments→metadata), feature flags
app/digest/preprocess.py
6

0.6 Thread reconstruction

Layer 1: reply graph → transitive groups. Layer 2: temporal proximity (120s) + shared mentions + lexical overlap
app/digest/threads.py
7

0.7 Importance scoring

Weighted scoring: реакции, участники, глубина тредов, ссылки, код. Настраиваемые веса
app/digest/scoring.py
8

0.8 Chunking

Thread-first, бюджет ~7k токенов, turn collapse, XML message format с user_id
app/digest/chunking.py
9

0.9 Entity dictionary

CRUD + seed для AI image gen: Flux, SDXL, ComfyUI, LoRA и алиасы
app/digest/entities.py
10

0.10 Topic profiles

CRUD + seed ai-image-generation. Composable modules: base-chat, creative-prompts, training-configs, comfyui, troubleshooting
app/digest/profiles.py
11

0.11 Тесты

Unit tests на реальных snapshots сообщений. Thread reconstruction accuracy. Chunk boundary correctness
tests/test_digest_preprocess.py tests/test_digest_threads.py tests/test_digest_chunking.py
Инфраструктура
Модели данных
Пайплайн
Домен
Тесты

✅ Exit Criteria

Взять реальный канал, прогнать pipeline до чанков, получить well-formed XML блоки готовые для LLM. Entity dictionary заполнен. Все модели определены. Тестируемо без API ключей.