Вы как-то меня спрашивали про проект, где разные LLM играют в мафию (для сравнения друг с другом и не только), я вам принес ссылку.
Из интересного — обратите внимание, насколько высоко находится опенсорсная mistral-small-24b. Да, количество игр пока невысоко (десятки игр), но фактически это очень интересная работа. Отдельно рекомендую вам почитать диалоги из игр (например вот этот).
Диалоги показывают, что пока нейронкам рановато играть в Мафию, рассуждения часто наивны, многие модели путаются в показаниях и т.п. Впрочем, в этом они похожи на живых людей.
Из интересного — обратите внимание, насколько высоко находится опенсорсная mistral-small-24b. Да, количество игр пока невысоко (десятки игр), но фактически это очень интересная работа. Отдельно рекомендую вам почитать диалоги из игр (например вот этот).
Диалоги показывают, что пока нейронкам рановато играть в Мафию, рассуждения часто наивны, многие модели путаются в показаниях и т.п. Впрочем, в этом они похожи на живых людей.
2025-03-07 06:07:41
Проблема этого исследования, что если бы они выдавали набор цифр вместо текста и голосовали рандомно - результат был бы ровно таким же внешне. Как отличается хорошая игра от плохой? Вон они в первом раунде заголосовали доктора: это "он тупые" или "ну бывает, с каждым случается"?
2025-03-07 09:56:06
Это не имеет никакого отношения к реальной игре и тем более в Башню.
1. Игра на соц.дедукцию это не просто обмен репликами. Это ещё и считывание поведенческих и эмоциональных паттернов, социальных аспектов и просто интуиция. Сводить игру к тому "кто что как сказал" - есть акт дикого редукционизма.
2. Нейронки неймоверно тупы в человеческих диалогах и понимании игры. По диалогам они просто захломляют эфир длинными бессмысленным тирадами. Ну одна модель чуть лучше другой, - это битва тараканов в стакане.
Более того, ни одна нейронка на данный момент и близко не может понять даже правила Башни и взаимодействие персонажей. Не говоря уже про реальную игру. Любой нормальный вопрос про специфику правил - и нейронка несёт лютую дичь. Это не просто путаются, это не понимание сути игры.
3. По ссылке крайне примитивный дата-сет. Это самая примитивная Мафия на 8 человек и с одним лишь доктором из специфических ролей. Мафия в целом крайне примитивно и ущерба сама по себе, но эти игры просто детский сад. Башня даёт на несколько порядков большую сложность. Давно как-то писал, количество разных сетапов (сочитаний ролей) в первом сценарии на 12 человек - сотни тысяч. В нормальном сценарии с 4мя демонами и на 15 чел - будет миллионы. А тут в примере только один сетап на 8 чел.
Возможно когда-то нейронки и придут в мир социальных игр, но это будет через 10-100 лет
2025-03-07 09:54:36
обычно на этой линии я с Виталей в разных позициях, но сейчас поддерживаю.
"Эта линия" это задачки типа "вот стол, вот это знаем" - тут любая модель раскидывает на раз-два. В ситуации, когда информация открытая, - даже при том, что часть ее ложная, - всё раскидывается. Даже я без нейронок управляюсь (в онлайне это намного проще происходит).
Хотя я склоняюсь к мысли, что если банально записывать то, что я слышу на оффлайн башне и анализировтаь это - был бы очень большой буст. Больше, чем блокнотик в "Мафии". А если распознавать по голосу речь - пушкабомба. Круто было бы с интонацией, но тут лучше (по крайней мере пока что) не лезьть.
2025-03-07 10:17:46