数据挖掘| kentdjb 开云体育app客服-计算机科学相关的思考

介绍

在国际象棋中，有许多被广泛接受的结构和材料特征会影响游戏的结果，因此要么是理想的实现，要么是最好的避免。最基本的是，拥有比对手更多的材料通常会传达出一个显著的优势，但当材料平衡时，还有许多其他方法也适用。例如:一个孤立的小兵通常代表一个弱点，因为它必须由一个棋子来防御，而你的车在第七排可能会让你的对手很难防御。

尽管国际象棋选手的经历证实了这些广为流传的智慧，但尝试寻找经验证据来支持它们也无妨。所以在这篇文章中，我将探索一种挖掘象棋游戏数据库的方法，以证明特定功能在实践中的影响。在这个过程中，我还将谈到在准备数据和解释结果时必须注意的事项。

先前的研究

人们普遍认为，拥有两个主教的玩家比拥有两个骑士或一个主教和骑士的对手更有优势，之前的研究试图通过检查游戏结果来量化这一点。据我所知，最早的研究是GM Gennady Timoshschenko做的[1]在这篇文章中，他研究了不同的主教和骑士组合的相对优势。我没能找到这项研究的原文，但拉里·考夫曼在《小心主教对》中给出了一些细节[2]．他报告说，Timoshchenko研究了15万场比赛，并在其中一场比赛中发现，两名主教以70%比30%的优势战胜了两名骑士。Kaufman还报告说，当比较单个主教和单个骑士时，棋盘上的小兵数量会影响平衡，与骑士相比，更多的小兵会阻碍主教的机动性。不幸的是，Kaufman并未提供所研究游戏的性质(游戏邦注:例如，玩家评级等级)，确定物质平衡的方式，或确定特定棋子组合的游戏数量的细节。

1995年，马克·斯图曼[3]使用超过35万款游戏的数据库扩展了最初的研究，并指出他只呈现了至少有100款游戏可用于他的数据点的结果。他发现最大的优势是BB vs NN的情况，但只有三个数据点:4,5或6个小兵。从图中可以看出，主教对的胜率在66%到70%之间。不过，目前尚不清楚绘画在计算百分比时扮演了什么角色。

1999年，考夫曼进行了进一步的研究［４］并提供了他的方法的有用细节:一个大约92.5万场比赛的数据库被剔除到大约30万场，只选择那些国际棋联评级至少为2300的比赛。他要求感兴趣的物质平衡至少持续6层，每个数据点的样本量至少为200。考夫曼感兴趣的是从物质方面来解释优势，而不是胜率。总的来说，他得出的结论是，主教对子的平均价值是半个兵，但他也进一步说，“当大多数或所有的兵都在棋盘上时，主教对子的价值不到半个兵，当一半或更多的兵都不在棋盘上时，主教对子的价值超过半个兵。”

准备数据

在这次探索中，我不打算尝试重现之前研究的所有结果，而只是简单地以两个主教对两个骑士的情况为例，其余的材料完全平衡。然而，这些原则可以很容易地应用于任何其他重大利益余额，例如B对N, BBN对BNN, Q对RR等。

对于我将要使用的数据处理pgn-extract [5]一个程序处理游戏在PGN符号。我在1994年开始写这个程序只是为了我个人的使用，但后来作为免费的开源软件发布了它，我仍然继续维护和扩展它的功能以响应用户的请求。

对于游戏的源代码，我使用了免费的PGN源代码KingBase(截至2018年1月，没有2018年的任何更新)。这些是自1990年以来所有得分至少为2000分的球员所打的比赛——没有考夫曼的数据集那么强［４］但仍有一定的强度。

这个过程的第一阶段是清理数据。虽然数据集包含超过200万场比赛，但其中超过10万场比赛是重复的。我用了- d(删除重复项)选项删除它们，留下大约195万个。其中，只有100多个结果与移动结束时记录的结果相冲突的标签。这是免费提供数据的一个常见特征。这里的典型例子是一方以将死获胜，但另一方结果Tag记录了获胜玩家的平局或输球!使用——fixresulttagspgn-extract选项。

下一阶段是在所有其他材料相同的情况下，分离出那些一名玩家拥有一对主教而另一名玩家拥有一对骑士的游戏。考夫曼［４］要求材料的稳定性为六层，这是一个重要的考虑因素。如果一场游戏中BB vs NN只持续了一段时间，那么它不太可能对游戏结果产生重大影响。为了比较这对数据集大小的影响，在稳定性为2层的情况下，我们的195万款游戏减少到39,000款，而稳定性为4层的游戏减少到31,000款，6层的游戏减少到25,000款。由于要分析的数据集的大小存在如此大的差异，结果显然可能存在显著差异。

的材料匹配（- zpgn-extract选项允许指定特定的材料组合以及稳定的厚度长度。例如:

:-z 6 b2n2q *r*p* b0n2q=r=p=

指定，对于6层的稳定性，一方必须有2个主教，0个骑士和任意数量的女王，车和兵，而对手必须有0个主教，2个骑士和完全相同数量的女王，车和兵。与- z选择此模式将同样适用于白色和黑色，匹配所有BB对NN游戏，无论玩家的肤色。第二阶段是将混合游戏分成特定颜色的游戏可能是选项，它使用相同的材质模式语法，但将第一个模式应用于白色，第二个模式应用于黑色。将黑棋有两个象的对局分开的模式是:

:-y 6 b0n2q*r*p* b2n0q=r=p=

分离的游戏被提取到两个文件中bbnn.pgn(12744场)和nnbb.pgn(12369场)。然后将每个文件进一步分成白色BB赢，白色BB输，黑色BB赢等文件trpgn-extract选项，只选择那些具有特定结果的游戏。例如:

pgn-extract -Tr1-0pgn--output white-bb-win.pgn pgn-extract -Tr0-1 nnbb.pgn --output black-bb-win.pgn pgn-extract -Tr0-1 bbnn.pgn --output white-bb-loss.pgn etc.

这些赢/输/平局文件是下一节所述的基本结果分析的基础。

基本结果

在25000场比赛中，获胜:平局:失败的6层稳定性的总体百分比为:0.45:0.28:0.27。显然，这证实了，在其他条件相同的情况下，平均而言，拥有两个主教比拥有两个骑士有明显的优势。

之前的研究也关注了棋子数量对结果的影响。游戏可以通过为每一方明确指定棋子数量而进一步细分;例如:

:-y 6 b2n2q *r*p8 b2n0q=r=p=

只匹配黑棋有一对象，而双方仍有8个兵的游戏。的bbnn.pgn和nnbb.pgn分析了0到8个兵卒的文件，并计算了每个兵卒的赢/平/输百分比。

下表结合了白棋和黑棋的结果，并显示了当考虑到兵的数量时，拥有主教对的一方的百分比细分。它只显示至少100局的兵号的结果。

BB vs NN的百分比
棋子	赢得	画	损失	#游戏
8	0.416	0.311	0.274	2131
7	0.421	0.272	0.308	10061
6	0.461	0.280	0.259	10681
5	0.508	0.268	0.225	5178
4	0.522	0.303	0.175	1833
3.	0.510	0.355	0.135	602
2	0.455	0.497	0.049	143

在我们的数据集中，3、4和5个小兵的胜率差异相对较小，但从7个小兵到2个小兵的损失百分比持续下降。与7个兵相比，8个兵的损失百分比更低是一个有趣的异常现象，我们将在下一节进一步讨论。

让我们更深入地看看结果

除了以类似的方式检查更广泛的材料组合外，这里引用的先前研究并没有真正超越这个基本分析水平。然而，在考虑上表中百分比的表面价值时，需要稍微小心一点。例如，请注意，表中记录的游戏数量实际上是30,629，多于从原始数据集中分离出来的25,113个游戏。原因当然是，当有一对主教出现时N当棋盘上的小兵较少时，棋盘上的小兵很可能会保留下来，这种持久性是物质平衡长期影响的一部分。这种不同数量的兵卒的重复导致了额外的5000个计数。

不那么明显的是，当棋盘上每个棋子都有6个并持续到每个棋子都有3个棋子时，主教对并不一定对棋盘上每个棋子都有5个和4个棋子时的统计数据有贡献。其原因是材料匹配的稳定性约束。如果在游戏的5个和4个小兵阶段，材料稳定性不能持续到整个6层，那么游戏就不会因为这些小兵的数量而被分类为BB vs NN，尽管这应该是为了统计分析的目的。开云体育网址

另一个要考虑的情况是，当有主教对时，主教对在哪里识别N每个棋子都被交出，没有进一步的棋子交换。的所有值N从2岁到7岁，大约20%的游戏属于这一类。这些比赛会影响BB对NN的胜率吗?这种影响几乎取决于留存时间长短和游戏所处的阶段。有趣的是，在8个小兵的情况下，只有10%的游戏会失败，这表明早期获得的主教组合往往会保留更长时间，并对游戏结果产生更大的影响。这可能(至少部分地)解释了上面提到的有8个兵的象对的异常损失率。不过，我还没有证实这一猜测。

总结

这篇文章重点介绍了pgn-extract的一些方法[5]可能用于从大型象棋数据库中挖掘数据，以量化特定材料组合的影响。虽然我只关注主教对骑士对的单一情况，但这种方法广泛适用于其他情况。我还试图强调在数据准备和解释结果时必须注意的一些问题。

致谢

在2018年夏天，我指导了Joshua Cheah的硕士论文，他使用pgn-extract和他自己的程序来探索更广泛的材料平衡和位置特征，例如前哨站．虽然这里展示的具体分析是我自己的，但与约书亚的合作是我写这篇文章的动机，他追踪了之前研究的参考文献。

参考文献

Timoshschenko, Gennady, ICCA杂志，1993年12月。
Kaufman, Larry, The Relative Value of The Pieces, Computer Chess Reports, 4:2, pp 33-34, 1994。在线:http://www.chesscomputeruk.com/html/computer_chess_reports.html
Mark Sturman，当心主教对，计算机国际象棋报告，5:2，第58-59页，1995年。在线:http://www.chesscomputeruk.com/html/computer_chess_reports.html
Larry Kaufman，《物质失衡的评估》，Chess Life, 1999。在线:https://www.chess.com/article/view/the-evaluation-of-material-imbalances-by-im-larry-kaufman
Barnes, David J.， PGN -extract:国际象棋游戏的便携式游戏符号(PGN)操纵器，1994-2018。在线:https://www.cs.开云体育app客服kent.ac.uk/~djb/pgn-extract/．

开云体育app客服kentdjb -计算机科学相关的沉思

你逃不掉的

类别档案:数据挖掘

国际象棋棋局数据挖掘:利用pgn-extract探索主教对的优势

介绍

先前的研究

准备数据

基本结果

让我们更深入地看看结果

总结

致谢

参考文献