Claude против GPT: как два ИИ спорили про архитектуру моей UGC-игры и кто оказался прав

Чтобы выбрать архитектуру UGC-пайплайна для своей игры, я не стал решать в одиночку и спорить сам с собой в голове, а собрал мультимодельный консилиум: шесть экспертов параллельно, три на базе Claude и три на базе GPT, каждый за свои раунды, а в конце стресс-тест и общий вывод. Если совсем коротко, то получилось вот что: дефолтным входом в игру будет текстовый режим, когда ты просто описываешь словами что хочешь, а не рисование, и две красивые на бумаге идеи я снял со стола — отдельную картинку под каждую способность и отдельного AI-арбитра. И ещё я отмёл совет от GPT «провалидируй фэнтези без AI», потому что у меня сейчас именно холодный рынок и валидировать особо не на ком. Дальше расскажу как это всё крутилось, где живой спор реально дал пользу, а где ИИ просто красиво гонит.

Зачем вообще два ИИ, а не один

Когда вы спрашиваете одну нейросеть «какую архитектуру выбрать», вы получаете один уверенный ответ, и вся проблема в том, что он почти всегда звучит убедительно, даже когда он так себе. ИИ не любит говорить «я не уверен», он любит выдать вам стройную картинку и пару аргументов в придачу — и тут полезно держать в голове случай, когда Claude уверенно поставил неверный диагноз бага. А вот когда вы ставите рядом две разные модели и заставляете их спорить, вся эта стройность начинает трещать, потому что то, что Claude подаёт как очевидное, GPT тут же раскачивает, и наоборот. И вот ровно в этих местах, где они расходятся, и прячется настоящая развилка, то самое, над чем реально стоит подумать.

Поэтому формат был такой: шесть экспертов сразу, по три с каждой стороны, отвечают параллельно, потом идут дебаты, но не бесконечные, а максимум три раунда, и в конце вердикт с фиксацией решения. Я тут не зритель, который смотрит как два ИИ меряются аргументами, я арбитр, и финальное слово всё равно за мной, потому что игру делаю я, а не они. Про сам метод этих споров я уже писал отдельно в AI-дебаты: два AI спорят, я выбираю победителя, а тот же консилиум я недавно гонял на запуске нового telegram-бота с восемью AI-экспертами, здесь же интереснее именно конкретный случай, где спор реально что-то поменял.

Где они разошлись: рисование или текст на входе

Главный спор был про порядок входа в игру. Это UGC-проект, то есть контент в нём делают сами пользователи, и вопрос стоял так: что показывать человеку первым, режим рисования или текстовый режим, где ты описываешь словами что хочешь, а дальше уже AI собирает. Одна сторона топила за рисование как за более вовлекающую штуку, мол человек сразу что-то творит руками и залипает. Другая возражала, что рисование это высокий порог входа, что большинство просто закроет приложение, не нарисовав ничего внятного, и что текстом описать желание в разы проще и быстрее.

И вот тут спор был полезный, потому что обе позиции звучали разумно, и пока их не столкнули лбами, я честно колебался. Но когда начинаешь разбирать на холодную, побеждает простой аргумент: для холодного юзера, который тебя видит впервые и ничего тебе не должен, любое лишнее усилие на входе это причина уйти. Поэтому решение зафиксировал такое: дефолтный вход текстом, а рисование отложено на потом. Не выкинуто совсем, а именно отложено, потому что рисование штука прикольная, но не на старте, когда главная задача в том, чтобы человек вообще не отвалился в первые секунды.

Совет, который я отмёл, и почему

А вот дальше был момент, где я с GPT не согласился прямо и жёстко. Один из GPT-экспертов выдал совет в духе классической стартап-методички: прежде чем городить весь AI-пайплайн, провалидируй сам фэнтези, саму идею, без всякого AI, собери людей, покажи им концепт, послушай. Совет вроде грамотный, его в любой книжке про продукты пишут, и для проекта, у которого уже есть какая-то аудитория, он бы зашёл.

Но у меня-то её нет. Я так и ответил, что нет у меня такого уже, ни аудитории, ни своих людей, всё в холодную. То есть GPT советовал мне опереться на ресурс, которого у меня просто не существует, и вот в этом вся загвоздка с советами от ИИ: он рассуждает в вакууме, по усреднённому учебнику, а не из моей конкретной ситуации, где я начинаю с абсолютного нуля и валидировать концепт мне не на ком, кроме холодного рынка. Когда меня прямо спросили, где я найду этих первых десять-двадцать холодных юзеров, я ответил предельно честно: да хрен знает, где-нибудь. И это не отмазка, это просто признание, что план поиска первых людей я ещё не дорисовал, а притворяться что он у меня готов это врать самому себе.

Зато по деньгам цифра была конкретная. Worst case проверки гипотезы на двадцати холодных юзерах вышел около десяти долларов. Десять баксов на то, чтобы понять, цепляет вообще идея живых людей или нет, это не та сумма, ради которой нужно строить из себя осторожного и сначала полгода валидировать что-то в теории. Дешевле просто взять и проверить.

Что ещё сняли со стола

Кроме входа, под нож пошли две идеи, которые на бумаге выглядели солидно. Первая это отдельная картинка под каждую способность, то есть свой спрайт на каждое умение в игре. Звучит красиво, выглядит дорого, и для соло-разработчика, который весь код пишет через ИИ под своим управлением, это лишняя сложность ровно там, где она не нужна на старте. Вторая снятая идея это отдельный AI-арбитр, который судил бы что-то внутри игровой логики. Тоже модно, тоже по нынешним временам легко напихать AI-агентов куда угодно, и тоже преждевременно.

Тут вообще важная штука про архитектуру ai-агента и любого пайплайна с нейросетями: соблазн добавить ещё один умный слой огромен, потому что каждый такой слой звучит как «ну это же сделает продукт лучше». А на деле каждый лишний агент это лишняя точка отказа, лишние токены, лишний код, который кто-то должен поддерживать, и этот кто-то снова я один. Поэтому фильтр у меня простой: если фича не нужна чтобы проверить главную гипотезу на первых юзерах, она ждёт. Не выкидываем навсегда, а просто не сейчас.

Почему я остановил спор на третьем раунде

Дебаты я закрыл сам, не дойдя до искусственного четвёртого раунда. Логика была такая: живого конфликта между моделями уже не осталось, основные позиции прозвучали, расхождения отыграны, и дальше начался бы тот самый ИИ-водоворот, где модели гоняют одни и те же аргументы по кругу ради объёма. Сразу пишем вердикт, и всё. В этом, кстати, и есть роль арбитра-человека: не сидеть и не ждать пока ИИ сам признает что спорить больше не о чем, потому что он не признает никогда, он будет вежливо генерить ещё и ещё. Вовремя сказать «стоп, решение принято» это твоя работа, а не его.

И ещё один момент, на котором я отдельно настоял в конце. Когда консилиум закончился, мне выдали вердикт, но не тронули остальную документацию, и я это сразу поймал и спросил, обновили ли всю доку, а то я вижу только вердикт, а ни роадмапа, ни описания пайплайна. Потому что решение, которое осталось только в файле с вердиктом, это полурешение. Если роадмап и описание пайплайна не пересобраны под новый выбор, то через неделю я сам же открою старый план и пойду делать прототип рисования как дефолт, забыв что мы решили иначе. Вывод из консилиума живёт не в красивом тексте «мы постановили», а в том, что вся рабочая дока приведена в соответствие с этим решением.

Что я из этого вынес

Если коротко свести, то мультимодельный консилиум полезен ровно в тех точках, где две модели реально расходятся, потому что именно там прячется настоящая развилка, а не там, где они хором кивают. Польза не в том чтобы ИИ принял за меня решение, а в том чтобы он подсветил мне варианты, столкнул их и заставил меня выбирать осознанно. По одному эксперту вы такого не получите никогда, один ИИ всегда звучит уверенно, и это его главная ловушка.

При этом советы от ИИ нельзя глотать целиком. GPT дал мне грамотный по учебнику совет, который к моей ситуации не лез вообще, потому что он не знал, что у меня ни аудитории, ни своих людей, всё в холодную. ИИ не чувствует вашего контекста так, как чувствуете его вы, и вот это «не подходит мне, потому что у меня всё иначе» и есть та единственная штука, которая отделяет нормальное использование нейросетей от слепого следования за модной железкой. Кстати, про то, как легко в таком консилиуме вообще забыть про живого пользователя, я уже как-то рассказывал в истории про шесть AI-экспертов, и тут та же самая болячка, просто с другого бока.

Так что в сухом остатке у меня три решения: вход в игру текстом, а не рисованием; лишние умные слои вроде спрайтов под способности и AI-арбитра пока ждут; и проверять идею я иду в холодную на двадцати юзерах за десять долларов вместо того чтобы валидировать в теории на людях, которых у меня нет. А спор двух ИИ был не для того чтобы кто-то из них победил, а для того чтобы я сам в итоге понимал, что и почему выбрал. Вот и делайте выводы.