Вы как-то меня спрашивали про проект, где разные LLM играют в мафию (для сравнения друг с другом и не только), я вам принес ссылку.

Из интересного — обратите внимание, насколько высоко находится опенсорсная mistral-small-24b. Да, количество игр пока невысоко (десятки игр), но фактически это очень интересная работа. Отдельно рекомендую вам почитать диалоги из игр (например вот этот).

Диалоги показывают, что пока нейронкам рановато играть в Мафию, рассуждения часто наивны, многие модели путаются в показаниях и т.п. Впрочем, в этом они похожи на живых людей.

2025-03-07 06:07:41


Проблема этого исследования, что если бы они выдавали набор цифр вместо текста и голосовали рандомно - результат был бы ровно таким же внешне. Как отличается хорошая игра от плохой? Вон они в первом раунде заголосовали доктора: это "он тупые" или "ну бывает, с каждым случается"?

2025-03-07 09:56:06


Это не имеет никакого отношения к реальной игре и тем более в Башню. 1. Игра на соц.дедукцию это не просто обмен репликами. Это ещё и считывание поведенческих и эмоциональных паттернов, социальных аспектов и просто интуиция. Сводить игру к тому "кто что как сказал" - есть акт дикого редукционизма. 2. Нейронки неймоверно тупы в человеческих диалогах и понимании игры. По диалогам они просто захломляют эфир длинными бессмысленным тирадами. Ну одна модель чуть лучше другой, - это битва тараканов в стакане. Более того, ни одна нейронка на данный момент и близко не может понять даже правила Башни и взаимодействие персонажей. Не говоря уже про реальную игру. Любой нормальный вопрос про специфику правил - и нейронка несёт лютую дичь. Это не просто путаются, это не понимание сути игры. 3. По ссылке крайне примитивный дата-сет. Это самая примитивная Мафия на 8 человек и с одним лишь доктором из специфических ролей. Мафия в целом крайне примитивно и ущерба сама по себе, но эти игры просто детский сад. Башня даёт на несколько порядков большую сложность. Давно как-то писал, количество разных сетапов (сочитаний ролей) в первом сценарии на 12 человек - сотни тысяч. В нормальном сценарии с 4мя демонами и на 15 чел - будет миллионы. А тут в примере только один сетап на 8 чел. Возможно когда-то нейронки и придут в мир социальных игр, но это будет через 10-100 лет

2025-03-07 09:54:36


обычно на этой линии я с Виталей в разных позициях, но сейчас поддерживаю. "Эта линия" это задачки типа "вот стол, вот это знаем" - тут любая модель раскидывает на раз-два. В ситуации, когда информация открытая, - даже при том, что часть ее ложная, - всё раскидывается. Даже я без нейронок управляюсь (в онлайне это намного проще происходит). Хотя я склоняюсь к мысли, что если банально записывать то, что я слышу на оффлайн башне и анализировтаь это - был бы очень большой буст. Больше, чем блокнотик в "Мафии". А если распознавать по голосу речь - пушкабомба. Круто было бы с интонацией, но тут лучше (по крайней мере пока что) не лезьть.

2025-03-07 10:17:46