探索财经奥秘,指引财富未来

将军?事实证明,人工智能的棋子实力部分令人遗憾,部分令人希望

Matthew Connatser 2024-06-04 16:35:48

一项针对大型语言模型的新基准显示,即使是最新的模型也不是最好的棋手.

GitHub项目的创建者、软件工程师弗拉基米尔·普雷洛瓦克将其简称为LLM国际象棋谜题,让他们完成1000个国际象棋谜题,以测试LLM.

与正常的国际象棋游戏不同,拼图本质上是一个逻辑问题,棋盘的状态是以特定的方式设置的.

国际象棋拼图的目标是下最好的一步或一串棋,以达到最快和不可阻挡的目标.

一盘国际象棋测试的是与另一方棋手的决策,而国际象棋拼图是对逻辑推理和对国际象棋原理理解的测试,这将形成一个更具挑战性的人工智能基准.

普雷洛瓦克告诉《注册》杂志,尽管大型语言模型的提供商共享他们自己的性能基准,但这些结果可能会因为过度拟合而产生误导.

该基准的GitHub展示了OpenAI(包括GPT-40)、Anthropic和Mistral提供的许多最受欢迎的LLM的性能数据.

大多数模特的ELO评分都很低,这是一个代表技术水平的数字.

大多数LLM落在100到500的范围内,这是几乎没有国际象棋经验的棋手的领域.

其中包括克劳德3变种、GPT-3.

5涡轮增压和米斯特拉尔型号.双子座1.5 Pro完全失败了,因为无论提示如何措辞,它都不能格式化地说出这一步.

然而,有一个人工智能家族脱颖而出.

GPT-4和GPT-4涡轮预览车型分别获得1047分和1144分,高于平均水平.

即使是GPT-4o也有12.

7%的几率是违法的,而且其他大多数LLM的违法行为比合法的多.

在1000个谜题中的501个中,GPT-4o能够找到最佳走法.

例如,在这个拼图中,白色最好的一步是车到C8,就在黑色的女王旁边.

然而,女王不能只是免费使用这辆车,因为这辆车在怀特的光明广场主教的视线内.

但黑色不能把女王赶走,因为那时它的国王会被将死,所以黑色必须承认失去了它的女王.

另一方面,GPT-40也可以尝试一些真正疯狂的举动,比如在这个拼图中.

在这里,布莱克保证在两步内将死,第一步是将黑暗正方形的主教移到H2,让国王受制于人.

学习国际象棋的规则并不难,即使是初学者也不太可能下非法的棋.

“虽然它们可以很好地完成特定任务,但它们还没有表现出像人类智力那样广泛、适应性强的理解或解决问题的能力.

”在它们的核心,LLM仍然是一大堆统计模型,只是试图写下什么是有意义的.

为了说明这一点,Prelovac还在Connect Four中测试了LLM,这是一种通常被认为比国际象棋容易得多的游戏.

然而,即使是GPT-40也无法理解何时需要阻止对手连接四个棋子.

Prelovac将其表现描述为他说,和一个四岁的孩子一样,他唯一的结论是,这次失败是因为训练数据中缺乏关于参加比赛的历史记录.

对于GPT-4o在国际象棋成绩上有显著进步,但仍有违规走法的原因,Prelovac推测,它的多模式训练或许与此有关.

OpenAI的训练数据可能包括正在下的国际象棋的可视图像,这可以帮助人工智能比使用纯文本更容易地可视化棋盘.

从技术上讲,当GPT-4o写下它想要下的棋时,它会正确地将其格式化为Forsyth-Edwards记号(Fen),但该模型不理解即使它有意义,那也不意味着这是最好的棋,甚至不是合法的.

当单个棋步被分解成多个标记时,这特别可能会损害LLM的推理能力.

普雷洛瓦克说:“即使是国际象棋走法,也只是一系列的标记,就像‘e’和‘4’,在现实中是没有根据的.

”“它们是对训练数据进行统计分析的产物,在此基础上预测下一个令牌.

”棋子到e4和棋子到e5之间的区别对人类来说是显而易见的,因为这两步棋都会让一盘棋走上完全不同的道路,不能仅仅相互交换.

然而,LLM可能只是根据统计数据选择下一个数字,这就是为什么它可能会尝试移动e1上不存在的车,而不是e2上的真实车.

目前,没有LLM能够像斯托克菲什这样的国际象棋引擎那样下棋.

然而,更多的训练数据可能会让LLMS更熟练,特别是在开局动作和游戏中,棋盘上的棋子如此之少,以至于从几步之外就可以看到将军.

对于游戏的中间部分,可能需要真正大量的数据来防止LLM进行非法移动.