人狗大战在那星辰大海~

tanis 发表于 2017-5-30 22:52:33

继挖土能力人类惜败于挖掘机和围棋能力人类惜败于阿狗之后。《星际争霸》成为新的战场~~

这次人狗对决的场所是星际2，而非星际。当然大家还是习惯的说SC。欢迎各位喜爱SC和关心人狗大战的童鞋踊跃就各种问题发言~~~
https://www.theverge.com/2016/11/4/13518210/deepmind-starcraft-ai-google-blizzard

@loy_20002000 @冰蚁

帖张图，这是阿狗眼里的SC：

loy_20002000 发表于 2017-5-30 23:00:09

SC2我没发言权呀，看你们讨论吧。{:203:}

tanis 发表于 2017-5-30 23:09:14

loy_20002000 发表于 2017-5-30 23:00
SC2我没发言权呀，看你们讨论吧。

本质差不多啊~ 我感觉暴雪不愿意让sc抢了sc2的市场，所以坚持要sc2.

燕庐敕 发表于 2017-5-30 23:15:37

师侄是游戏大王？

月之悲鸣 发表于 2017-5-30 23:24:40

手速和微操怎么算。

冰蚁发表于 2017-5-30 23:25:04

loy_20002000 发表于 2017-5-30 10:00
SC2我没发言权呀，看你们讨论吧。

SC2 我也没怎么玩过。SC玩过一点点。还是要看谭妮丝。

{:193:}

cloudian 发表于 2017-5-30 23:52:18

SC2还需要什么AI？玩家编辑的脚本也秒了人类啊……

冰蚁发表于 2017-5-31 00:45:16

cloudian 发表于 2017-5-30 10:52
SC2还需要什么AI？玩家编辑的脚本也秒了人类啊……

查了一下，据知情人士透露，现在星际2国服比较流行的外挂大致可分为VC内核类及非VC内核两大类。非VC类外挂功能较少，可实现的功能大致有地图全开，开放OB视角(可查看建造栏)及资源锁定等。而VC类外挂除了这些功能之外，还增加了战斗相关的自动喷卵(虫族)、自动闪烁(神族)及自动扔矿骡(人类)。

这都属于作弊。AI 显然不可以这么干。

loy_20002000 发表于 2017-5-31 12:23:08

tanis 发表于 2017-5-30 23:09
本质差不多啊~ 我感觉暴雪不愿意让sc抢了sc2的市场，所以坚持要sc2.

SC的成功与韩国方面的运营有关，现在韩国方面放弃了SC也不会有多大潜力了。我看过几十战2的比赛，自打《虚空之遗》出来后节奏快了很多。相对来说SC1的节奏要慢一些，但操作也繁琐。

不清楚DM要怎么搞，没思路。

loy_20002000 发表于 2017-5-31 12:55:34

冰蚁发表于 2017-5-31 00:45
查了一下，

这都属于作弊。AI 显然不可以这么干。

DM的玩法可以搞Atari游戏，那些有些与围棋一样有最优解，可以一直逼近。我猜测DM又在用人类的Replays学习了，在人类已经知识上做一些文章，先确立一个框架。以下是一些胡思乱想。

1、AI对局势的估计被人类准。建造兵种、建筑的时间是固定的，哪怕Protoss用加速，Zerg用Queen加虫卵，、Terran飞矿箩也是固定的。AI只需要侦查到矿的存量，就可以判断兵种上限是多少，攻防等级是多少，人口上限是多少。人类对局势的预估必然有偏差，而机器可以做到趋近100%的准确。在一次交战中，AI可以通过战损迅速判断出是进攻还是防守或均势下的扩张。

2、操作比人类优秀，但人类不会落后太多。原因是SC2的操作大幅度简化，并且星际这个游戏的操作是宏观操作最重要，而微操作相对次要。人PK机器必然限制APM，机器不会把每个操作分配到单个单位上，加入这条人类与机器差距不会太大。但机器对操作优劣的评估更为准确，理由如1）所说，故而累计小优势到胜势的水平更强。

3、加入人类知识库。围棋是信息透明的尚且要加入，SC2更有这个必要。否则靠机器自己摸索复杂度都没法算。

4、估值函数比围棋平滑。SC多个兵少个兵，有些时候甚至多个矿少个矿都不是决定性的，这不同于WAR3。

5、MCTS类的思路行不通。以1秒为基本单位，一盘比赛以15分钟计算。其中的选择判断就太多了，复杂度远远超过围棋。不清楚每一秒AI是怎么做选择的。虽然估值函数平滑，但选择的复杂性也要大很多。

6、机器对人不会是碾压。人与Go在围棋上都是逼近真理，Go更接近那么胜率就是碾压。而人类非透明博弈中有大量投机行为，逻辑链条可以这么疏离。投机招法>效率最高流程；均衡流程>投机招法；效率最高流程>均衡流程。粗略估计是机器可以大于50%的胜率，却没法做到接近100%。SC1的三个种族是不平衡的，不清楚2的平衡情况，如果存在大象克猫，猫克老鼠，老鼠克大象的循环，这也是一个难解的问题。

拭目以待吧，希望出现惊喜。

tanis 发表于 2017-6-1 04:12:00

loy_20002000 发表于 2017-5-31 12:23
SC的成功与韩国方面的运营有关，现在韩国方面放弃了SC也不会有多大潜力了。我看过几十战2的比赛，自打《 ...

星际2现在的节奏的确快了不少~~ 操作是繁琐些，不过星际1也有不少操作麻烦的地方~~哈哈哈~~ 我其实星际1玩得多，星际2主要就是看比赛了。偶尔看一场星际1的比赛也会觉得节奏慢。。。可能熟悉度的问题~

tanis 发表于 2017-6-1 04:27:40

loy_20002000 发表于 2017-5-31 12:55
DM的玩法可以搞Atari游戏，那些有些与围棋一样有最优解，可以一直逼近。我猜测DM又在用人类的Replays学习 ...

这个人类稍稍有点儿优势。毕竟replay无法看到操作{:190:}

对于1，我感觉AI这方面是最大的劣势。因为就像你说的，星际是一个开放的局面，不一定能迅速准确的判断出是进攻还是防守，或者是否占优势。毕竟有战争迷雾，有很多未知的东西。

2，必然要控制AI的手速，我估计大概也就在300apm左右了，可以允许峰值手速超过，但是平均也就是如此~ 在高手对决里面，感觉操作非常重要。顶级操作的小优势不停积累，几分钟下来就可以很可怕。

3.人类认识库肯定会有的，不过基于ml的AI，可怕之处在于“同样的招数对圣斗士只能用一次”

5,6，我觉得SC 潜在的问题，很有可能是人类以为这里面有千万种变化，时刻都是动态。但是ML的运算，可能能总结出相对少而能够处理的情况。这种在不少其他领域的ML里面都看见过。。。我个人感觉星际2的平衡性好于星际1，从历届的冠军种族可以看出来。

我推测真正的玩法估计是AI只能从屏幕获取信息，然后AI对鼠标，键盘的操作不会是物理的，而是模拟到程序里。同时对APM限制。

loy_20002000 发表于 2017-6-1 16:51:14

tanis 发表于 2017-6-1 04:12
星际2现在的节奏的确快了不少~~ 操作是繁琐些，不过星际1也有不少操作麻烦的地方~~哈哈哈~~ 我其实星际1 ...

SC2的节奏远快于SC1，这也是2推广不利的一个因素。现代人玩游戏更多的是放松，就像休闲旅游一样，而2的竞技性太强，不仅业余玩家适应不良，连从1转2的前1职业选手也适应不良。听说《炉石传说》是暴雪的收入顶梁柱，而SC2就要弱很多。或许学习足球比赛的竞技过程，有紧有松比较好，太紧张了观赏性是足够但游戏性就差很多。

loy_20002000 发表于 2017-6-1 17:38:04

tanis 发表于 2017-6-1 04:27
这个人类稍稍有点儿优势。毕竟replay无法看到操作

对于1，我感觉AI这方面是最大的劣势。因为就像 ...

嘿嘿，Replay是可以看到操作的哦。1的Replay原理是把选手的键盘+鼠标操作记录下来，由于暴雪估计错误SC1的游戏生命与职业进程，所以没有开放第一视角这个功能；玩家自己搞出不少第一视角工具，08年后的工具基本可以复现玩家的操作，只是极偶尔视角会晃动。SC2是可以看到操作的，虽然我没看过SC2的Replay但可以肯定有这个功能。

1）我推测AI判断局势的方法源于两方面，一是我自己的实战心得与观战心得，二是Go给我的启发。05年我看高手的比赛，高手经常凭借少量的侦查就判断对手的战术与意图。SC1有一位传奇选手Flash，他的第一视角经常是大部分地图是黑的，有时候甚至出门推对手才知道对方的方位。高手的侦查是基于逻辑推理的，而不是全信息，如SC1，P侦查Z是否速度2Gas就可以判断出是否是飞龙战术；双方对消耗一波形成暂时均衡后数双方农民，农民多一方就是优势方。关键信息侦查到，之后的推理就是必然的。人类对拼看一眼对方兵种数量只能有个大致估算，而AI可以判断清楚有几个追猎者、几个狂徒。SC1的流程树到职业后期基本固定下来了，虽然有战争迷雾，但双方不做侦查也可以判断清楚优劣。

你对5、6的看法启发了我。SC2兵种固定、单位建造时间在一个区间内（如Protoss的加速）、人口上限固定、移动速度攻击速度固定、单位成本固定，虽然信息不透明，但质上与围棋十分相似。以每一秒为单位，博弈双方在一个状态s下，有多个选择a，AI所需要做的是找到一个最优的a。只要s可以估值，a有限，那么在DM的框架下就是可解的。围棋上DM引入多个网络+MCTS的方法是为了解决估值函数不平滑的问题，而SC类游戏不存在这个问题，我突然想到，莫非DM在Atari上的解决方式根本不需要MCTS，只需要一个RL Network就行了。由于前后相关性不强，每个局部一个最优解，总体的空间、时间复杂度都是极低的！例如街机游戏厅里的飞机游戏，每个局部都有最优解，前后不相关，只在以分钟为单位的时间尺度相关。

哎呀！SC2与围棋虽然在解决方式上不一样，但骨子里是一样的。因为s可以估值，a是有限的。换个思路就好理解了，AI的自我对战学习双方都是信息透明的，也就是开图的。在我以上分析的基础上随着模拟的增多，SC必有一个最优解，不仅仅是均衡解。我自己也说了SC2的估值函数平滑，那么AI完全可以牺牲前期的经济和兵力进行火力侦查！这样是可以完破人类的投机性选择的。人类被投机招法击败大多是追求效率最高流程，由于估值函数平滑前期的小损失不会造成最终的失败，那么AI完全可以选择均衡流程。虽然均衡流程会被人类的效率最高流程克制，但开局阶段的小损失并不必然导致最终的失败，因为估值函数平滑。

以上是一点猜测。话说Go一年时间实力猛涨，一定是核心算法有了巨大突破，不可能仅仅是用算力堆。莫非这个框架可以延展到所有s+a的游戏中？

loy_20002000 发表于 2017-6-1 18:10:43

loy_20002000 发表于 2017-6-1 17:38
嘿嘿，Replay是可以看到操作的哦。1的Replay原理是把选手的键盘+鼠标操作记录下来，由于暴雪估计错误SC1 ...

再补充一个。

围棋的复杂度已经很高了，传说博弈树复杂度比宇宙的原子还多，也不知道是怎么算出来的。但DM还是攻克了，证明他们发现或者说在前面大牛的基础上总结出逼近s+a游戏最优解的有效方法。

为什么对Fanhui 的版本要学习16万网络对战的棋谱呢，一是可以规避学习职业棋手出现的盲点（如33这种棋有一定合理性，但职业棋谱却极少出现），另外一个也是最重要的是可以将复杂度降到最低。一的作用是避免出现意外招法下AI的大崩溃（李世石第四盘就是下出意外招法Go崩溃了），如去年那篇论文SL Network估计人类招法准确性是57%，其他团队平均只有44%，Rollout Policy可以达到24%。二是开局选点太多（前几十手），用人类知识库可以避免AI在22、天元、中腹一类不合理的地方落子浪费计算资源。

回到SC2。DM假如真的如我所说学习Replay，选择战网高分选手的可能性较大，而选择职业的可能性较小，因为它需要把盲点减到最少。学习Replay可以将复杂度降低一些。

victorlee1999 发表于 2017-6-2 10:01:27

在任何给定的项目，战胜人类只是时间问题，因为人类会帮助优化它。AI的下一步是自行开发策略，也许现在已经有了。下一步是自行开发新游戏，邀请人类来玩，人类就玩完了。

zilewang 发表于 2017-6-2 19:14:39

tanis 发表于 2017-6-1 04:27
这个人类稍稍有点儿优势。毕竟replay无法看到操作

对于1，我感觉AI这方面是最大的劣势。因为就像 ...

AI不会有无用的APM。我看韩国职业，他们的EAPM都不足200，即使是像effort这种峰值到500的选手也一样。
比如小狗冲坦克阵，最理想的是小狗排成横排同时冲击，AI可以做到，人类不行。

tanis 发表于 2017-6-2 23:14:38

loy_20002000 发表于 2017-6-1 17:38
嘿嘿，Replay是可以看到操作的哦。1的Replay原理是把选手的键盘+鼠标操作记录下来，由于暴雪估计错误SC1 ...

喔。。。原来replay可以操作！！我在1.09之后玩的就很少了。这样看，星际比赛能长盛不衰，各种技术技能透明化也是一个重要原因啊~ 原来replay原理是把键盘+鼠标的操作记录下来~ 我原来以为是记录各个单位的参数呢。键盘+鼠标的确是更简单易行的方式，尤其在十年前。

sc2可能由于节奏快一些，发展的模式有很多，加上暴雪时不时改进、修改兵种和技能的参数。使得战术和建筑顺序时不时都在改变~我在想堵个路口，也能造成AI的探路基本无效~ {:191:}

最近sc2 虫族的一个打法就是快速升级overload的速度，使得虫族侦查有了很大优势。

tanis 发表于 2017-6-2 23:16:06

zilewang 发表于 2017-6-2 19:14
AI不会有无用的APM。我看韩国职业，他们的EAPM都不足200，即使是像effort这种峰值到500的选手也一样。
比 ...

这样的话，就可以把AI的EAPM调到150左右呗~~

而且如果是纯ML的话，也许AI会把人类无用的APM也学过去。。。

loy_20002000 发表于 2017-6-3 17:13:18

本帖最后由 loy_20002000 于 2017-6-3 17:27 编辑

tanis 发表于 2017-6-2 23:14
喔。。。原来replay可以操作！！我在1.09之后玩的就很少了。这样看，星际比赛能长盛不衰，各种技术技能 ...
我的话又歧义了。{:191:}SC1的Replay是记录APM（刚回忆了下不会是EAPM，Rep分析工具是可以查看全程APM变化的）。像是否切屏是不记录的，鼠标轨迹也是不记录的。05年玩家自己开发的第一视角观看Rep工具，由于没法分辨选择一个编队后操作者是否切换视角，他们的做法是选了就切，于是屏幕晃动切换得眼花。07、08年后玩家开发的录制工具对SC1的Replay录制过程进行了干涉，可以记录完整的操作过程。1.08b后Replay的出现使得玩家的交流更便利了，但仅限于业余玩家。职业战队的Rep是不外泄的，属于商业机密，但职业队有自己的研究院，不看Rep也能研究透流程。

暴雪学习Valve公司呀，三天两头改参数。一年做俩三次微调就够了，经常调整非常影响平衡性的。AI只能在某个版本训练，如果在1.55训练，比赛的时候是1.60，画面不要太美。{:187:}

页: [1]

爱吱声's Archiver

人狗大战在那星辰大海~