类别档案:便携式游戏符号

棋局数据挖掘:探索带pgn-extract的bishop对的优势

简介

在国际象棋中,有许多被广泛接受的结构和物质特征可以影响游戏的结果,因此要么是理想的,要么是最好的避免。最基本的是,拥有比对手更多的材料通常会传达出显著的优势,但当材料平衡时,还有许多其他适用的情况。例如:一个孤立的兵通常代表一个弱点,因为它必须有一个棋子来防守,而让你的车在第七排可能很难让你的对手防守。

尽管国际象棋选手的经验证实了这些被广泛接受的智慧,但试图寻找经验证据来支持它们并没有坏处。所以在这篇文章中,我将探索人们挖掘国际象棋游戏数据库的一种方法,以证明特定功能在实践中的影响。在这个过程中,我还将谈到在准备数据和解释结果时必须注意的问题。

先前的研究

人们普遍认为,拥有两个主教的玩家比拥有两个骑士或一个主教和一个骑士的对手更有优势,以前的研究试图通过检查游戏结果来量化这一点。我所知道的最早的研究是由GM Gennady Timoshschenko进行的[1]他研究了不同的主教和骑士组合的相对优势。我还没有找到这项研究的原始文本,但拉里·考夫曼在《当心主教对》中给出了一些细节[2].他在报告中写道,季莫申科查看了15万场比赛,在其中一场比赛中发现,两名主教以70%比30%的优势击败了两名骑士。考夫曼还报告说,在比较一个主教和一个骑士时,棋盘上的兵的数量会影响平衡,兵的数量越多,主教的机动性就越差。不幸的是,考夫曼没有提供所研究的游戏的性质(如玩家评级水平),物质平衡的识别方式,或特定部件组合的游戏数量的细节。

1995年,马克·斯图曼[3]使用超过35万款游戏的数据库扩展了最初的研究,并指出他只提供了至少100款游戏的结果。他发现最大的优势是BB vs NN的情况,但只有三个数据点:4,5或6兵。从他的图表来看,主教组合的胜率在66%到70%之间。然而,目前还不清楚抽签在计算百分比方面发挥了什么作用。

1999年,考夫曼进行了进一步的研究[4]并提供了他的方法的有用细节:从大约92.5万款游戏的数据库中筛选出了大约30万款游戏,其中只选择了FIDE评级至少为2300的游戏。他要求感兴趣的物质平衡至少持续6层,每个数据点的样本量至少为200。考夫曼感兴趣的是用物质条件来解释优势,而不是胜率。总的来说,他得出的结论是,主教对的平均价值是半个卒子,但他也细化了这一点,“当大多数或所有的卒子都在棋盘上时,主教对的价值不到半个卒子,当一半或更多的卒子都没有了时,主教对的价值超过了一半。”

准备数据

在这次探索中,我不会试图重现之前研究的所有结果,而只是两个主教对两个骑士的案例,其余的材料完全平衡。然而,这些原则可以很容易地应用于任何其他实质性的利益平衡,如B对N, BBN对BNN, Q对RR等。

对于我将要使用的数据处理pgn-extract[5]一个程序处理游戏在PGN符号。早在1994年,我就开始编写这个程序,只是为了我个人使用,但后来作为免费的开源软件发布了它,我仍然继续维护和扩展它的功能,以响应用户的请求。

对于游戏的源代码,我使用了免费的PGN源代码KingBase(截至2018年1月,2018年没有任何更新)。这些都是1990年以来得分在2000分以上的玩家玩的游戏——没有考夫曼的数据集那么高[4]但仍有一定的力量。

这个过程的第一阶段是清理数据。虽然数据集包含超过200万款游戏,但其中超过10万款是重复游戏。我用了- d(删除重复)选项的pgn-extract删除他们,大约195万。其中,只有100多只结果与移动结束时记录的结果冲突的标记。这是免费数据的一个常见特征。典型的例子是一方用将军获胜的游戏结果Tag记录了获胜选手的平局或输球!这些被纠正使用——fixresulttagspgn-extract选项。

下一阶段是在所有其他材料相同的情况下,分离出其中一名玩家拥有主教对和另一名玩家拥有骑士对的游戏。考夫曼[4]需要六层的材料稳定性,这是一个重要的考虑因素。如果一场游戏中BB vs NN只持续了很短的时间,那么它不太可能对游戏结果产生重大影响。为了比较这与数据集大小的差异,当稳定性为2层时,我们的195万游戏减少到3.9万,而稳定性为4层时减少到3.1万,稳定性为6层时减少到2.5万。由于要分析的数据集的大小存在如此大的差异,结果显然可能存在显著差异。

材料匹配- z) pgn-extract选项允许指定特定的材料组合以及稳定长度。例如:

:-z 6 b2n0q*r*p* b0n2q=r=p=

指定,对于6层的稳定性,一方必须有2个主教,0个骑士和任意数量的皇后,白嘴鸦和小兵,而对手必须有0个主教,2个骑士和完全相同数量的皇后,白嘴鸦和小兵。与- z选项此模式将同样适用于白和黑,匹配所有BB vs NN游戏,而不管玩家的颜色。然后,将这些混合游戏应用于第二阶段,将其分离为特定颜色的游戏可能是选项,该选项使用相同的材质模式语法,但将第一个模式应用于白色,将第二个模式应用于黑色。当黑棋有两个主教时,隔离游戏的模式是:

:-y 6 b0n2q*r*p* b2n0q=r=p=

分离的游戏被提取到两个文件bbnn.pgn(12744场)和nnbb.pgn(12369场)。然后将每个文件进一步分为White BB win, White BB loss, Black BB win等文件trpgn-extract选项只选择那些有特定结果的游戏。例如:

pgn-extract -Tr1-0 bbnn。pgn--output white-bb-win.pgn pgn-extract -Tr0-1 nnbb.pgn --output black-bb-win.pgn pgn-extract -Tr0-1 bbnn.pgn --output white-bb-loss.pgn etc.

这些赢/输/平局文件是下一节分析基本结果的基础。

基本结果

在2.5万场6层稳定的比赛中,赢:平:输的总比例为:0.45:0.28:0.27。显然,这证实了,平均而言,在其他条件相同的情况下,拥有两名主教比拥有两名骑士具有显著优势。

之前的研究也着眼于卒数对结果的影响。游戏可以通过为每一方指定明确数量的兵来进一步细分;例如:

:-y 6 b0n2q*r*p8 b2n0q=r=p=

只匹配那些黑棋有主教对的游戏,而棋盘上双方仍有8个兵。的bbnn.pgn而且nnbb.pgn分析文件中的0到8个棋子,并计算每个棋子的赢/平/输百分比。

下表结合了白棋和黑棋的结果,并显示了在考虑兵卒数量后,拥有主教对的一方的百分比。它只显示卒数至少100局的结果。

BB vs NN的百分比
棋子 赢得 损失 #游戏
8 0.416 0.311 0.274 2131
7 0.421 0.272 0.308 10061
6 0.461 0.280 0.259 10681
5 0.508 0.268 0.225 5178
4 0.522 0.303 0.175 1833
3. 0.510 0.355 0.135 602
2 0.455 0.497 0.049 143

在我们的数据集中,3兵、4兵和5兵的胜率差异相对较小,但损失率从7兵持续下降到2兵。与7兵相比,8兵的损失比例更低,这是一个有趣的异常现象,我们将在下一节中进一步讨论。

让我们更深入地看看结果

除了以类似的方式研究了更广泛的材料组合之外,这里引用的先前研究并没有真正超越这一基本分析水平。然而,在从表面上看上表中的百分比时,需要稍微注意一下。例如,请注意,表中记录的游戏数量实际上是30,629个,这比从原始数据集中分离出来的25,113个游戏要多。原因当然是,一对主教兴起的时候就有了N当棋盘上的棋子较少时,棋盘上的棋子很可能会保留,这种持久性是物质平衡的长期影响的一部分。这种不同数量的兵的重复说明了额外的5000个计数。

不太明显的是,当棋盘上每个棋子有6个时,一个主教对出现,并持续到有3个棋子时,当棋盘上每个棋子有5个和4个棋子时,每个主教对不一定对统计有贡献。原因在于材质匹配的稳定性约束。如果在游戏的5兵和4兵阶段,物质稳定性没有持续6层,那么游戏就不会因为这些兵的数量而被归类为BB vs NN,尽管这应该是为了统计分析的目的。开云体育网址

另一个要考虑的情况是,当主教对被识别时N每个兵卒都被交出,不再交换兵卒。对于所有的值N从第2到第7,大约有20%的游戏属于这一类别。这些比赛是否会影响BB对NN的胜率?这种影响几乎肯定取决于留存时间长短和游戏阶段。有趣的是,在8兵的情况下,损失仅占游戏的10%,这表明早期获得的主教对往往会保留更长时间,并对游戏结果产生更大的影响。这可能(至少在一定程度上)解释了上面提到的当一个主教对有8个兵时的异常损失率。不过,我还没有证实这一猜测。

总结

这篇文章强调了一些提取pgn的方法[5]可用于从大型国际象棋数据库中挖掘数据,以量化特定材料组合的影响。虽然我只关注主教对骑士对的单一情况,但这种方法广泛适用于其他情况。我还试图强调在准备数据和解释结果时必须注意的一些问题。

确认

2018年夏天,我指导了Joshua Cheah的硕士论文,他使用pgn-extract和他自己的程序探索了更广泛的物质平衡和位置特征,例如前哨站.虽然这里提出的具体分析是我自己的,但与约书亚一起工作是把这篇文章放在一起的动机,他追踪了以前的研究。

参考文献

  1. 蒂莫什琴科,根纳季,ICCA杂志,1993年12月。
  2. 考夫曼,拉里,棋子的相对价值,计算机国际象棋报告,4:2,第33-34页,1994。在线:http://www.chesscomputeruk.com/html/computer_chess_reports.html
  3. 斯图曼,马克,小心主教对,计算机象棋报告,5:2,58-59页,1995。在线:http://www.chesscomputeruk.com/html/computer_chess_reports.html
  4. 拉里·考夫曼,《物质失衡的评估》,《象棋生活》,1999年。在线:https://www.chess.com/article/view/the-evaluation-of-material-imbalances-by-im-larry-kaufman
  5. Barnes, David J., PGN -extract:国际象棋游戏的便携式游戏符号(PGN)操纵器,1994-2018。在线:https://www.cs.开云体育app客服kent.ac.uk/~djb/pgn-extract/