AlphaGo 在围棋界大杀四方时就有人不服:有本事让 AI 斗地主试试?
试试就试试。
快手团队开发的斗地主 AI 命名为DouZero,意思是像 AlphaZero 一样从零开始训练,不需要加入任何人类知识。
只用 4 个 GPU,短短几天的训练时间,就在 Botzone 排行榜上的 344 个斗地主 AI 中排名第一。
而且还有在线试玩(链接在文章最后),手机也能运行。
在线试玩中演示的是三人斗地主,玩家可以选择扮演地主、地主的上家或下家。
从博弈论的角度看,斗地主是 "不完全信息博弈"。
围棋是所有棋子都摆在棋盘上,对弈双方都能看到的完全信息博弈。
而斗地主每个玩家都看不到其他人的手牌,对于 AI 来说更有挑战性。
像下图的手牌就有 391 种打法。
另外作为不对称游戏,几个农民要在沟通手段有限的情况下合作并与地主对抗。
像扑克游戏中最流行的 "反事实后悔最小化" ( Counterfactual Regret Minimization ) 算法,就不擅长对这种竞争和合作建模。
首先将手牌状态编码成 4x15 的独热 ( one-hot ) 矩阵,也就是 15 种牌每种最多能拿到 4 张。
除了 " 学习者 " 全局网络以外,还用 3 个 " 角色 " 网络分别作为地主、地主的上家和下家进行并行学习。全局和本地网络之间通过共享缓冲区定期通信。
DouZero 在 48 个内核和 4 个 1080Ti 的一台服务器上训练 10 天击败了之前的冠军,成为最强斗地主 AI。
下一步,加强 AI 间的协作
对于之后的工作,DouZero 团队提出了几个方向:
一是尝试用 ResNet 等 CNN 网络来代替 LSTM。
以及在强化学习中尝试 Off-Policy 学习,将目标策略和行为策略分开以提高训练效率。
最后还要明确的对农民间合作进行建模。好家伙,以后 AI 也会给队友倒卡布奇诺了。
不知道会不会有 AI" 追杀 " 过来继续挑战他。
在线试玩:
https://www.douzero.org
GitHub 项目地址:
https://github.com/kwai/DouZero
论文地址:
https://arxiv.org/pdf/2106.06135.pdf
欢迎光临 澳洲同城网 (https://www.tongchengau.com/) | Powered by Discuz! X3.2 |