AI-дебаты: два AI спорят, я выбираю победителя

Два AI получают одну и ту же задачу, каждый предлагает своё решение, а потом они начинают критиковать друг друга, и вот тут начинается самое интересное, потому что я просто сижу, слушаю, задаю вопросы и выбираю. Формат я использую уже пару недель, но за последние 3 дня прогнал 8+ раундов по 4 темам и понял, что это не эксперимент ради интереса, а рабочий процесс, который реально встроился в мою разработку с ии.

Как я к этому пришёл

Раньше архитектурные решения у меня выглядели так: сажусь, думаю, рисую схемы, иногда спрашиваю одну нейросеть, и вроде всё ок, но проблема в том, что одна нейросеть всегда с тобой соглашается. Спросил Claude — он предложил вариант. Спросил GPT — он тоже предложил, но уже другой. И оба звучат убедительно, и оба уверены на 100%, а ты сидишь и не понимаешь, кому верить.

И вот тут родилась идея сама собой: а что если они будут спорить не со мной, а друг с другом? Не по отдельности мне отвечать, а реально дебатировать — атаковать слабые места оппонента, защищать свою позицию, как будто это два ai агента, которым поручили разнести чужое решение в пух и прах.

Формат: спека → спор → арбитраж → код

Процесс стандартизировался довольно быстро, и в итоге свёлся к четырём шагам.

Спека. Я формулирую задачу — что нужно сделать, какие ограничения, какой контекст. Это не prompt на 3 строки в духе «сделай мне архитектуру», а нормальный документ на 1-2 страницы.

Спор. Claude и GPT получают эту спеку, каждый предлагает свою архитектуру, а потом атакует решение оппонента. Обычно хватает 2-3 раундов, чтобы всплыли все слабые места, которые сам бы я в одиночку и не заметил.

Арбитраж. Я читаю аргументы обеих сторон и принимаю решение. Иногда беру целиком позицию одного, а иногда собираю гибрид — лучшие части от каждого.

Реализация. Победившее решение уходит в код, который я уже оркестрирую через Claude Code — это и есть мой обычный вайбкодинг, только архитектуру под него мы сначала отбили в споре.

8+ раундов, 4 проекта

Вот что конкретно я прогнал за последние дни.

PersonalBrand — 2 раунда. Архитектура build-log системы и дизайн агентов, то есть как разделить роли между экстрактором и генератором черновиков, чтобы не получился один жирный агент, который делает всё и ничего толком.

MAKO (система автогенерации видео) — 4 раунда по разным этапам: архитектура прототипа, генератор контента, мультиаккаунт публикация и аналитика. И именно из спора по генератору родилась концепция Prompt Contract — вместо монолитного промпта разбитая на части контрактная система. Это решение всплыло прямо в споре, сам бы я его точно не нашёл.

GPT побеждал чаще

А вот это было неожиданно. В большинстве раундов я в итоге принимал позицию GPT, и не потому что Claude хуже, а просто в архитектурных спорах GPT чаще предлагал более прагматичные решения, без лишней красоты.

Claude склонен к элегантности — его решения красивые, правильные по учебнику, хорошо абстрагированные, а GPT в это время сидит и говорит: «Зачем тебе эта абстракция? Сделай проще, вот так». И чаще всего он оказывался прав — особенно наглядно это вышло, когда Claude и GPT спорили про архитектуру моей UGC-игры.

Это не универсальное правило, не смешите меня, это то, что я увидел в своих задачах за эти дни, а завтра вполне может быть наоборот.

Почему спор работает лучше, чем просто «спросить AI»

Когда ты спрашиваешь одну нейросеть, она генерирует ответ и потом его же и защищает. Попросишь найти проблемы — найдёт пару штук, но мягко, как будто извиняясь, ведь она не хочет спорить сама с собой.

А когда два AI спорят, у них появляется мотивация искать слабые места именно у оппонента, и за 8 раундов ни разу не было так, чтобы первоначальное решение прошло без единого изменения. Каждый раз оппонент находил что-то, что автор решения попросту не учёл.

Можно ли натравить двух Claude или двух GPT друг на друга? Можно, но хуже. Разные модели думают по-разному, и именно эта разница в подходах и делает спор продуктивным, а два одинаковых будут друг другу поддакивать.

Когда это не нужно

Не каждое решение стоит того, чтобы тратить час на спеку и спор. Формат полезен когда:
Есть несколько архитектурных подходов и неясно какой лучше
Решение дорого менять потом (фундамент системы, схема БД, API-контракт)
Ты сам не уверен и хочешь услышать аргументы за и против

А для задач уровня «сделай кнопку» это пустая трата времени, тут проще просто сказать Claude Code что надо и идти дальше.

Что я понял

Формулировка задачи решает всё. Чем точнее спека, тем содержательнее спор, и это работает в обе стороны: кинул размытое «сделай архитектуру» — получил размытые ответы, а написал ограничения, контекст и требования — получил спор с настоящими аргументами, за которыми интересно следить.

Арбитраж — самое важное. Спор без арбитра — это просто два текста, и вся ценность в том, что ты слушаешь обе стороны и сам принимаешь решение, понимая трейдоффы, а не отдаёшь это на откуп нейросети. На любом ии для автоматизации это место и заканчивается, дальше начинаешься ты.

Я выложил упрощённые версии промптов для запуска таких споров — промпты для AI-дебатов. Это стартовые шаблоны для работы в обычном чате, мой реальный процесс сложнее — со спеками, контекстом проекта, несколькими раундами — но для начала хватает и их.

Следующий пост: AI написал за меня 20 текстов. Все оказались плохими

Следующий пост: SCD: собрал новый метод принятия решений