Три фазы AI-ассистента за 2 дня: консилиумы, дебаты и 4 косяка Claude

У меня есть продукт Anima. AI-ассистент, который учится отвечать как команда: сначала наблюдает, потом подсказывает черновики, потом отвечает сам. За два рабочих дня я протащил его через три крупные фазы: Knowledge Base, Evidence-First Learning и Auto-Replies. На каждую полный цикл: спека, консилиум из шести AI-экспертов, дебаты, реализация через Guardian STC, деплой.

Вот как это было по часам.

День первый: Knowledge Base

1 апреля, 16:04. Открываю roadmap и спрашиваю себя: есть ли спеки на фазы 7 и 8? Хочу доделать систему. Через пять минут запускаю `/new-feature` для Phase 7 Knowledge Base.

До этого момента база знаний в Anima работала на хардкоде. Восемь вопросов-ответов, вшитых прямо в код. Работало, но масштабировать это невозможно.

Вопрос, который всё определил

16:25. Ключевой вопрос, который я задал Claude: как система поймёт, что у неё вообще нет вариантов ответа? Это не про поиск по базе. Это про момент, когда pgvector возвращает результат с низким similarity score, и нужно решить: отвечать или эскалировать на человека.

Через минуту запускаю `/consilium`. Шесть экспертов параллельно анализируют задачу: архитектор, прагматик, скептик и ещё трое. Каждый даёт свой вердикт по подходу.

Когда процесс ломается

16:57. Получаю синтез и злюсь. Claude должен был внести его в спеку, а вместо этого выдал мне. Зачем? Я формулирую задачи и принимаю решения. Записывать результаты в спеку должен AI.

17:03. Спор начинается не по тому вопросу. Какая-то защита водопада, обсуждение отдельного куска. Прерываю: по всей спеке, а не по одному пункту. Один из моментов, когда приходится перенаправлять AI руками. Без контроля уходит не туда.

С 17:22 до 17:49 два раунда. Спека обновлена. Решение: pgvector retrieval с эскалацией при отсутствии совпадений.

Реализация

С 18:46 до 21:25 Claude Code реализует Phase 7 по Guardian STC. Пять шагов, пять коммитов. Каждый шаг: тесты, код, верификация, коммит. В 21:25 Knowledge Base Management закрыта. Пуш.

День второй: две фазы и три раунда дебатов

Phase 8: Evidence-First Learning

2 апреля, 09:31. Утро начинается с подготовки спеки. Обучение на стиле оператора. Anima должна не просто отвечать правильно, а отвечать так, как отвечает конкретный человек из команды.

10:32. Формулирую ключевое требование: обучение на стиле человека, как он пишет. Это очень важно для имитации человечности. Не шаблонные ответы, а стиль конкретного оператора: длина предложений, сленг, формулировки.

Главное архитектурное решение: гибрид per-company + per-operator. Общая база знаний на уровне компании, но стиль ответов индивидуальный для каждого оператора. Компания знает что отвечать, оператор знает как.

12:17-12:54. Консилиум и спор по подходу. Вердикт зафиксирован.

С 13:11 до 14:03 Claude Code пишет код. Четыре шага, пять тестов. В 14:03 Evidence-First Learning закрыта. Пуш.

Два часа от спеки до деплоя. При этом решение прошло через полный цикл обсуждений.

Phase 9: Auto-Replies

14:11. Не останавливаюсь. Сразу Phase 9: AI сам отвечает клиентам. Переход из помощника в автономного агента.

14:36. Ключевой выбор: toggle (вкл/выкл автоответы) или порог уверенности (AI отвечает сам, когда уверен выше порога). В итоге решение: два режима. Shadow и Auto. В Shadow AI готовит черновики, оператор подтверждает. В Auto AI отвечает сам.

Три раунда споров

С 14:48 до 16:35 три раунда: Claude vs GPT по Phase 9. Задача сложнее предыдущих. AI отвечает клиентам сам. Цена ошибки высокая. Нужно продумать когда AI уверен достаточно, как переключаться между режимами, что делать с edge cases.

16:40. Инсайт посреди спора: режим «бот» он же только на старте как бот. Потом ты его переучиваешь, и он уже не бот. Он обучился на стиле оператора, набрал базу знаний, стал отвечать по-человечески. Разница между ботом и ассистентом не в коде, а в количестве накопленного опыта.

18:52. Финальное решение: два явных режима + readiness как метрика. Она показывает, насколько система готова к автономной работе. Не бинарный переключатель, а градиент. Вариант со «спектром зрелости» отклонён: ломал уже принятый вердикт.

Когда AI косячит

21:20-22:04. Реализация Phase 9. Claude Code ошибается четыре раза. Тесты, верификации. Каждый раз откатывать и переделывать.

Вот для чего нужен Guardian STC. Без формальных шагов (тест, код, верификация, коммит) эти четыре ошибки ушли бы в прод. А так верификация каждый раз говорит: стоп, здесь проблема.

22:07. Деплой Phase 9.

Цифры

Фазы: 3 (Knowledge Base, Evidence-First Learning, Auto-Replies)
Время: ~2 рабочих дня
Коммиты Phase 7: 5
Коммиты Phase 8: 4
Раунды дебатов по Phase 9: 3
Ошибок Claude Code в Phase 9: 4
Knowledge Base до: 8 хардкодных Q&A
Knowledge Base после: pgvector retrieval

Как устроен процесс на каждую фазу

Каждая из трёх фаз прошла одинаковый цикл:
Спека. Формулирую что нужно, какие требования, какие edge cases
Консилиум. Шесть AI-экспертов анализируют задачу параллельно
Claude vs GPT спорят по неоднозначным вопросам. Иногда один раунд, иногда три
Реализация через Guardian STC. Атомарные шаги: тест, код, верификация, коммит
Деплой

Я задаю направление, модерирую споры, принимаю решения, ругаюсь когда AI уходит не туда. Claude Code пишет код. Claude и GPT спорят. Шесть экспертов анализируют архитектуру.

Что изменилось в продукте

До этих двух дней Anima была помощником. Показывала черновики оператору. После Phase 9 Anima может отвечать клиентам сама. Это качественный переход.

Knowledge Base дала ей знания (pgvector вместо восьми хардкодных Q&A). Evidence-First Learning дала стиль (обучение на манере письма конкретного оператора). Auto-Replies дала автономность (два режима с метрикой readiness).

Три фазы, на каждой полный цикл обсуждений и проверок. Четыре ошибки Claude Code в Phase 9 пойманы до прода. Без Guardian STC прошли бы незамеченными.