PIANIST: Learning Partially Observable World Models with LLMs for Multi-Agent Decision Making

Jonathan Light, Sixue Xing, Yuanzhe Liu, Weiqin Chen, Min Cai, Xiusi Chen, Guanzhi Wang, Wei Cheng, Yisong Yue, Ziniu Hu·November 24, 2024

Summary

PIANIST framework decomposes complex decision-making tasks into seven components for LLMs, enabling zero-shot generation of a working world model for multi-agent, partial information scenarios. It uses game descriptions and observation formats to simulate MCTS, demonstrating effectiveness in language and non-language games without domain-specific training or explicit world model definitions. PIANIST combines state prediction, reward assignment, and information partitioning for multi-player games, using an information realization function to map information sets to hidden states. It integrates with Monte Carlo Tree Search (MCTS) by sampling hidden states and simulating actions with highest UCT values, averaging across states within the same information set. PIANIST, using an LLM-generated world model, performed comparably to ground-truth models in games, indicating accurate world model creation. It outperformed direct LLM action queries, showing enhanced planning. However, PIANIST struggled against humans in GOPS and Taboo, highlighting the need for improved LLM decision-making in complex environments. Despite this, PIANIST demonstrated strong performance, suggesting potential for more nuanced adaptations to balance decision-making across different games, enhancing robust generalization in multi-agent settings.

Key findings

Introduction

Background

Overview of complex decision-making tasks in multi-agent, partial information scenarios

Importance of world models in artificial intelligence for strategic planning

Objective

To introduce PIANIST, a framework that decomposes complex tasks into seven components for LLMs

Highlighting PIANIST's capability to generate a working world model without domain-specific training or explicit definitions

Method

Data Collection

Utilization of game descriptions and observation formats for data input

Simulation of Monte Carlo Tree Search (MCTS) through data collection methods

Data Preprocessing

Techniques for preparing game descriptions and observations for PIANIST

Methods for mapping information sets to hidden states for efficient processing

PIANIST Components

State Prediction

Explanation of state prediction in multi-player games

Integration of state prediction with reward assignment and information partitioning

Reward Assignment

Mechanism for assigning rewards based on game outcomes

Role in guiding the learning process of LLMs

Information Partitioning

Division of information sets for effective decision-making

Utilization of an information realization function for mapping to hidden states

Information Realization Function

Detailed explanation of the function's role in PIANIST

How it aids in simulating actions with highest UCT values

Integration with Monte Carlo Tree Search (MCTS)

Sampling Hidden States

Process of sampling hidden states for action simulation

Action Selection

Utilization of UCT values for selecting actions within the same information set

Importance of averaging across states for enhanced planning

Performance Evaluation

Comparison with Ground-Truth Models

Results of PIANIST's performance in games compared to ground-truth models

Indicators of accurate world model creation

Outperformance of Direct LLM Action Queries

Advantages of using PIANIST over direct LLM action queries

Enhanced planning capabilities demonstrated

Limitations and Future Directions

Struggles against Humans

Analysis of PIANIST's performance against human players in specific games

Identification of areas needing improvement in LLM decision-making

Potential for Nuanced Adaptations

Discussion on enhancing PIANIST for more nuanced decision-making

Strategies for balancing decision-making across different games

Enhancing Robust Generalization

Importance of robust generalization in multi-agent settings

Suggestions for future research to improve PIANIST's performance

Conclusion

Recap of PIANIST's contributions to LLMs in complex decision-making tasks

Future prospects and implications for AI research and applications

Basic info

papers

machine learning

artificial intelligence

multiagent systems

Advanced features