У меня уже были AI-дебаты, когда Claude и GPT спорят между собой, а я выбираю победителя, и оно реально работало. Но через пару недель я заметил слепое пятно, и оно меня зацепило: два AI спорят в одной плоскости, оба смотрят на проблему как архитекторы, и никто не спрашивает «а зачем это вообще?» или «а что будет через полгода?».
Параллельно я нашёл у Серёжи Рис подход Board of Advisors, где пять AI-экспертов смотрят на задачу независимо, каждый из своей роли. Идея хорошая, спору нет, но в ней нет столкновения позиций — эксперты не спорят друг с другом, а просто по очереди высказываются и расходятся.
То есть два метода, и у каждого свой минус. Дебаты без разнообразия взглядов, а совет экспертов без конфликта идей. И я подумал — а что если их совместить, чтобы один закрывал дыру другого?
Три варианта, один выбор
Когда стало ясно, что я хочу гибрид, я сел и сформулировал три варианта, как это вообще можно сделать:
Вариант 1. Дебаты остаются как есть, а совет экспертов добавляется отдельным шагом, и два процесса живут рядом. Просто, но не связано, и совершенно непонятно, когда что вызывать.
Вариант 2. Совет экспертов заменяет дебаты, и три эксперта спорят уже между собой. Но тогда теряется формат «два AI атакуют друг друга», а он-то как раз работал, и выкидывать его жалко.
Вариант 3. SCD — Spec, Consilium, Debate, то есть спека, консилиум, дебаты, три шага подряд. Сначала я пишу спеку, потом три эксперта смотрят на неё параллельно, каждый из своей роли, а потом их выводы уходят в спор между Claude и GPT. Эксперты дают разнообразие взглядов, а спор даёт конфликт. Оба минуса закрылись друг другом.
Выбрал третий, тут даже думать особо не пришлось.
Три эксперта, а не пять
У Серёжи пять экспертов, а у меня три — Архитектор, Прагматик, Скептик.
Почему не пять? Да потому что три роли уже покрывают все углы, которые мне нужны. Архитектор смотрит на систему целиком и думает про масштаб и связи, Прагматик спрашивает «а это вообще реально сделать за разумное время?», а Скептик лезет искать дыры, которые те двое спокойно пропустили.
А пять — это уже театр. Добавляешь «Визионера» и «Аналитика данных» и получаешь пять абзацев вместо трёх, а содержание ровно то же самое, просто разлито пожиже. Три роли честнее и конкретнее. Хотя позже я всё же расширил состав одним важным голосом — об этом отдельно в посте про то, как я собрал консилиум и забыл добавить туда пользователя.
И ещё одно решение по ходу: роли, а не персоны. Не «Стив Джобс» и «Линус Торвальдс», а Архитектор и Скептик. Персоны превращают разговор в косплей, где AI старается угадать интонацию знаменитости вместо того чтобы думать, а роли держат фокус на задаче.
Мета: метод проверяет сам себя
Написал я спеку SCD — метод, который описывает, как принимать решения. И его же надо проверить. А чем? Да им самим, чем же ещё.
Запустил трёх экспертов по спеке самого метода. Архитектор оценивал структуру, Прагматик — реалистичность, а Скептик…
А Скептик выдал фразу, которая, честно, стоит всей сессии: «Моноклональный совет. Один мозг с тремя шляпами.»
И он ведь прав. Три эксперта — это три субагента одной и той же нейросети, и независимыми они не являются никак: одна модель мира, одни и те же данные, одни и те же слепые пятна. По сути ты переодеваешь одного AI в три костюма и делаешь вид, что получил три разных мнения.
Не баг, а свойство.
Но вот в чём штука. Спор между Claude и GPT — это уже два по-настоящему разных «мозга», разные архитектуры, разные данные для обучения, разные слепые пятна. Консилиум даёт разнообразие ролей внутри одной модели, а дебаты — разнообразие самих моделей, и вместе они закрывают оба уровня сразу.
То есть моноклональный совет перестаёт быть проблемой ровно тогда, когда за ним идёт настоящий спор между разными моделями.
Stress Test: два вопроса к каждому решению
В процессе дебатов по спеке Claude предложил Stress Test, а GPT его дополнил Future Check, и получилось два вопроса, которые каждое решение обязано пройти, прежде чем я его приму.
Now Check. Работает ли это решение прямо сейчас, с текущими ресурсами, ограничениями, дедлайнами? Не в идеальном мире, а в реальном — с моей командой (а это я один плюс нейросети), с моими деньгами и с моим временем, которого вечно нет.
Future Check. Пять вопросов про дальний горизонт. Что случится через 6 месяцев? Что будет, если нагрузка вырастет в 10 раз? Какие зависимости могут сломаться? Что если ключевой инструмент подорожает или вообще исчезнет? И каких навыков потребует поддержка, когда первый кайф пройдёт?
То есть каждое решение проверяется из двух точек времени сразу. Потому что «работает сейчас» совсем не значит «будет работать потом», а «идеально через полгода» совсем не значит «реально сделать сегодня».
Как выглядит весь процесс
Это не отдельная методология, которую надо где-то держать, а decision gate внутри рабочего процесса, и вызывается он только когда решение реально дорогое — архитектура системы, выбор стека, структура данных. По мелочи гонять весь этот цирк смысла нет.
- Spec. Формулирую задачу. Что нужно, какие ограничения, какой контекст
- Consilium. Три эксперта (Архитектор, Прагматик, Скептик) смотрят на спеку параллельно. Результат: synthesis-матрица — что сходится, что расходится, где конфликт
- Debate. Claude и GPT получают спеку + synthesis. Спорят 2-3 раунда. Обязательный вопрос: «Правильно ли вообще поставлена задача?»
- Stress Test. Now Check + Future Check
- Verdict. Я принимаю решение. Не AI, не эксперты, не спор. Я
Первый реальный тест
Утром 28 марта обнаружилось, что ролики MAKO набрали 0 просмотров. Аккаунты пустые: ни аватарки, ни bio, ни истории, а Instagram просто не показывает контент с голых профилей, и всё.
Запустил консилиум — первый прогон уже не на спеке, а на живой задаче, которая горит.
Архитектор сказал: генерация, потому что шаблоны не масштабируются. Прагматик: шаблоны быстрее, но через неделю они тупо закончатся. Скептик: генерация создаёт иллюзию разнообразия, ведь один и тот же AI генерит «разные» профили, которые на деле на одно лицо.
И Скептик опять попал в точку, как всегда. Но аргумент Прагматика всё равно перевесил, потому что шаблоны — это тупик, в который упрёшься через неделю. Выбрал генерацию.
Что дальше
Версия 0.2 зафиксирована, три глобальных агента созданы, а консилиум теперь вызывается одной командой прямо из Claude Code, без плясок. Весь этот процесс я и собрал через Claude Code как набор AI-агентов, потому что сам код я не пишу — я им оркестрирую, и это, по сути, тот же вайбкодинг, только не для фичи, а для способа думать.
Арка AI-дебатов так и складывается: эксперимент → метод → SCD. Следующий шаг — набрать статистику и понять, сколько решений процесс реально меняет по сравнению с «просто спросить у нейросети и не париться». Уже был случай, когда консилиум хотел переписать архитектуру, а проверка данными это отменила — ровно тот эффект, ради которого всё и затевалось. Через пару недель данных будет достаточно, чтобы делать выводы, а пока рано.
Но одно я могу сказать уже точно: моноклональный совет — не баг, если после него идёт настоящий спор.