GTBench-评估游戏中的LLMs

talkingdev • 2024-02-23

604428 views

GTBench是一个用于测试类似GPT-4这样的LLMs在各种游戏场景中发现其在策略推理方面的优势和劣势的平台。虽然这些模型在基于概率的游戏中表现出很大的潜力，但在确定性游戏中表现不佳，并且在设计和训练上表现也有所不同。