MuGo实现策略网络

MuGo用Python编写,依赖深度学习框架tensorflow,实现了AlphaGo的策略网络policy和蒙塔卡罗树搜索mcts两大主要策略。

1.下载MuGo源码

https://github.com/brilee/MuGo

2.从命令行终端安装tensorflow及其他依赖库

pip install tensorflow

所有依赖库见MuGo/requirements.txt。

3.下载棋局用来训练

新建data子目录保存用于训练的棋局。

http://weiqi.studio/

棋局必须为.sgf文件,并且包含SZ[19]属性。

4.预处理训练数据

python main.py preprocess data/

执行完毕,预处理后的数据保存MuGo的processed_data子目录。

5.训练

新建savedmodel子目录保存训练数据。

python main.py train processed_data/ –save-file=savedmodel/ –epochs=1 –logdir=logs/

6.加载训练好的数据开始对弈

python main.py gtp policy –read-file=savedmodel/