Ёк-Макарёк писал(а):
Для работы Цзэн и его команда сделали платформу D&D Agents. Система функционирует как симулятор, где модели взаимодействуют друг с другом или с людьми через цифровые инструменты, ограничивая свободное общение.
Команда протестировала Claude 3.5 Haiku, GPT-4o и DeepSeek-V3 в 27 боевых сценариях, оценивая их по эффективности и планированию. Claude 3.5 Haiku показал на первых этапах лучшую надёжность и использование инструментов, GPT-4o — высокую производительность, но меньшую последовательность. А DeepSeek-V3 буквально показал ни бе ни ме.
Под конец все начали бажить. Цзэн заявил: "Это говорит о том, что современные технологии всё ещё с трудом справляются с поддержанием точной ментальной карты ситуации при длительном взаимодействии". И добавил: "Человек пока что круче, чем бездушные машины, — он может фантазировать, запоминать и действовать нестандартно".
D&D какой версии?
Создатели Балдурс Гейт 3 тихонько хихикают....
кстати, Боты по игре Старкрафт 2 показывают просто охуительные результаты.
Не помню, против ботов в Старкрафт могут сражаться топовые игроки?
Я уже давно не в теме....
