人狗大战在那星辰大海~
继挖土能力人类惜败于挖掘机和围棋能力人类惜败于阿狗之后。《星际争霸》成为新的战场~~这次人狗对决的场所是星际2,而非星际。当然大家还是习惯的说SC。欢迎各位喜爱SC和关心人狗大战的童鞋踊跃就各种问题发言~~~
https://www.theverge.com/2016/11/4/13518210/deepmind-starcraft-ai-google-blizzard
@loy_20002000 @冰蚁
帖张图,这是阿狗眼里的SC:
SC2我没发言权呀,看你们讨论吧。{:203:} loy_20002000 发表于 2017-5-30 23:00
SC2我没发言权呀,看你们讨论吧。
本质差不多啊~ 我感觉暴雪不愿意让sc抢了sc2的市场,所以坚持要sc2. 师侄是游戏大王? 手速和微操怎么算。 loy_20002000 发表于 2017-5-30 10:00
SC2我没发言权呀,看你们讨论吧。
SC2 我也没怎么玩过。SC玩过一点点。还是要看谭妮丝。
{:193:} SC2还需要什么AI?玩家编辑的脚本也秒了人类啊…… cloudian 发表于 2017-5-30 10:52
SC2还需要什么AI?玩家编辑的脚本也秒了人类啊……
查了一下,据知情人士透露,现在星际2国服比较流行的外挂大致可分为VC内核类及非VC内核两大类。非VC类外挂功能较少,可实现的功能大致有地图全开,开放OB视角(可查看建造栏)及资源锁定等。而VC类外挂除了这些功能之外,还增加了战斗相关的自动喷卵(虫族)、自动闪烁(神族)及自动扔矿骡(人类)。
这都属于作弊。AI 显然不可以这么干。 tanis 发表于 2017-5-30 23:09
本质差不多啊~ 我感觉暴雪不愿意让sc抢了sc2的市场,所以坚持要sc2.
SC的成功与韩国方面的运营有关,现在韩国方面放弃了SC也不会有多大潜力了。我看过几十战2的比赛,自打《虚空之遗》出来后节奏快了很多。相对来说SC1的节奏要慢一些,但操作也繁琐。
不清楚DM要怎么搞,没思路。 冰蚁 发表于 2017-5-31 00:45
查了一下,
这都属于作弊。AI 显然不可以这么干。
DM的玩法可以搞Atari游戏,那些有些与围棋一样有最优解,可以一直逼近。我猜测DM又在用人类的Replays学习了,在人类已经知识上做一些文章,先确立一个框架。以下是一些胡思乱想。
1、AI对局势的估计被人类准。建造兵种、建筑的时间是固定的,哪怕Protoss用加速,Zerg用Queen加虫卵,、Terran飞矿箩也是固定的。AI只需要侦查到矿的存量,就可以判断兵种上限是多少,攻防等级是多少,人口上限是多少。人类对局势的预估必然有偏差,而机器可以做到趋近100%的准确。在一次交战中,AI可以通过战损迅速判断出是进攻还是防守或均势下的扩张。
2、操作比人类优秀,但人类不会落后太多。原因是SC2的操作大幅度简化,并且星际这个游戏的操作是宏观操作最重要,而微操作相对次要。人PK机器必然限制APM,机器不会把每个操作分配到单个单位上,加入这条人类与机器差距不会太大。但机器对操作优劣的评估更为准确,理由如1)所说,故而累计小优势到胜势的水平更强。
3、加入人类知识库。围棋是信息透明的尚且要加入,SC2更有这个必要。否则靠机器自己摸索复杂度都没法算。
4、估值函数比围棋平滑。SC多个兵少个兵,有些时候甚至多个矿少个矿都不是决定性的,这不同于WAR3。
5、MCTS类的思路行不通。以1秒为基本单位,一盘比赛以15分钟计算。其中的选择判断就太多了,复杂度远远超过围棋。不清楚每一秒AI是怎么做选择的。虽然估值函数平滑,但选择的复杂性也要大很多。
6、机器对人不会是碾压。人与Go在围棋上都是逼近真理,Go更接近那么胜率就是碾压。而人类非透明博弈中有大量投机行为,逻辑链条可以这么疏离。投机招法>效率最高流程;均衡流程>投机招法;效率最高流程>均衡流程。粗略估计是机器可以大于50%的胜率,却没法做到接近100%。SC1的三个种族是不平衡的,不清楚2的平衡情况,如果存在大象克猫,猫克老鼠,老鼠克大象的循环,这也是一个难解的问题。
拭目以待吧,希望出现惊喜。 loy_20002000 发表于 2017-5-31 12:23
SC的成功与韩国方面的运营有关,现在韩国方面放弃了SC也不会有多大潜力了。我看过几十战2的比赛,自打《 ...
星际2现在的节奏的确快了不少~~ 操作是繁琐些,不过星际1也有不少操作麻烦的地方~~哈哈哈~~ 我其实星际1玩得多,星际2主要就是看比赛了。 偶尔看一场星际1的比赛也会觉得节奏慢。。。可能熟悉度的问题~ loy_20002000 发表于 2017-5-31 12:55
DM的玩法可以搞Atari游戏,那些有些与围棋一样有最优解,可以一直逼近。我猜测DM又在用人类的Replays学习 ...
这个人类稍稍有点儿优势。毕竟replay无法看到操作{:190:}
对于1,我感觉AI这方面是最大的劣势。因为就像你说的,星际是一个开放的局面,不一定能迅速准确的判断出是进攻还是防守,或者是否占优势。毕竟有战争迷雾,有很多未知的东西。
2,必然要控制AI的手速,我估计大概也就在300apm左右了,可以允许峰值手速超过,但是平均也就是如此~ 在高手对决里面,感觉操作非常重要。 顶级操作的小优势不停积累,几分钟下来就可以很可怕。
3.人类认识库肯定会有的, 不过基于ml的AI,可怕之处在于“同样的招数对圣斗士只能用一次”
5,6, 我觉得SC 潜在的问题,很有可能是人类以为这里面有千万种变化,时刻都是动态。但是ML的运算,可能能总结出相对少而能够处理的情况。这种在不少其他领域的ML里面都看见过。。。我个人感觉星际2的平衡性好于星际1,从历届的冠军种族可以看出来。
我推测真正的玩法估计是AI只能从屏幕获取信息,然后AI对鼠标,键盘的操作不会是物理的,而是模拟到程序里。同时对APM限制。 tanis 发表于 2017-6-1 04:12
星际2现在的节奏的确快了不少~~ 操作是繁琐些,不过星际1也有不少操作麻烦的地方~~哈哈哈~~ 我其实星际1 ...
SC2的节奏远快于SC1,这也是2推广不利的一个因素。现代人玩游戏更多的是放松,就像休闲旅游一样,而2的竞技性太强,不仅业余玩家适应不良,连从1转2的前1职业选手也适应不良。听说《炉石传说》是暴雪的收入顶梁柱,而SC2就要弱很多。或许学习足球比赛的竞技过程,有紧有松比较好,太紧张了观赏性是足够但游戏性就差很多。 tanis 发表于 2017-6-1 04:27
这个人类稍稍有点儿优势。毕竟replay无法看到操作
对于1,我感觉AI这方面是最大的劣势。因为就像 ...
嘿嘿,Replay是可以看到操作的哦。1的Replay原理是把选手的键盘+鼠标操作记录下来,由于暴雪估计错误SC1的游戏生命与职业进程,所以没有开放第一视角这个功能;玩家自己搞出不少第一视角工具,08年后的工具基本可以复现玩家的操作,只是极偶尔视角会晃动。SC2是可以看到操作的,虽然我没看过SC2的Replay但可以肯定有这个功能。
1)我推测AI判断局势的方法源于两方面,一是我自己的实战心得与观战心得,二是Go给我的启发。05年我看高手的比赛,高手经常凭借少量的侦查就判断对手的战术与意图。SC1有一位传奇选手Flash,他的第一视角经常是大部分地图是黑的,有时候甚至出门推对手才知道对方的方位。高手的侦查是基于逻辑推理的,而不是全信息,如SC1,P侦查Z是否速度2Gas就可以判断出是否是飞龙战术;双方对消耗一波形成暂时均衡后数双方农民,农民多一方就是优势方。关键信息侦查到,之后的推理就是必然的。人类对拼看一眼对方兵种数量只能有个大致估算,而AI可以判断清楚有几个追猎者、几个狂徒。SC1的流程树到职业后期基本固定下来了,虽然有战争迷雾,但双方不做侦查也可以判断清楚优劣。
你对5、6的看法启发了我。SC2兵种固定、单位建造时间在一个区间内(如Protoss的加速)、人口上限固定、移动速度攻击速度固定、单位成本固定,虽然信息不透明,但质上与围棋十分相似。以每一秒为单位,博弈双方在一个状态s下,有多个选择a,AI所需要做的是找到一个最优的a。只要s可以估值,a有限,那么在DM的框架下就是可解的。围棋上DM引入多个网络+MCTS的方法是为了解决估值函数不平滑的问题,而SC类游戏不存在这个问题,我突然想到,莫非DM在Atari上的解决方式根本不需要MCTS,只需要一个RL Network就行了。由于前后相关性不强,每个局部一个最优解,总体的空间、时间复杂度都是极低的!例如街机游戏厅里的飞机游戏,每个局部都有最优解,前后不相关,只在以分钟为单位的时间尺度相关。
哎呀!SC2与围棋虽然在解决方式上不一样,但骨子里是一样的。因为s可以估值,a是有限的。换个思路就好理解了,AI的自我对战学习双方都是信息透明的,也就是开图的。在我以上分析的基础上随着模拟的增多,SC必有一个最优解,不仅仅是均衡解。我自己也说了SC2的估值函数平滑,那么AI完全可以牺牲前期的经济和兵力进行火力侦查!这样是可以完破人类的投机性选择的。人类被投机招法击败大多是追求效率最高流程,由于估值函数平滑前期的小损失不会造成最终的失败,那么AI完全可以选择均衡流程。虽然均衡流程会被人类的效率最高流程克制,但开局阶段的小损失并不必然导致最终的失败,因为估值函数平滑。
以上是一点猜测。话说Go一年时间实力猛涨,一定是核心算法有了巨大突破,不可能仅仅是用算力堆。莫非这个框架可以延展到所有s+a的游戏中?
loy_20002000 发表于 2017-6-1 17:38
嘿嘿,Replay是可以看到操作的哦。1的Replay原理是把选手的键盘+鼠标操作记录下来,由于暴雪估计错误SC1 ...
再补充一个。
围棋的复杂度已经很高了,传说博弈树复杂度比宇宙的原子还多,也不知道是怎么算出来的。但DM还是攻克了,证明他们发现或者说在前面大牛的基础上总结出逼近s+a游戏最优解的有效方法。
为什么对Fanhui 的版本要学习16万网络对战的棋谱呢,一是可以规避学习职业棋手出现的盲点(如33这种棋有一定合理性,但职业棋谱却极少出现),另外一个也是最重要的是可以将复杂度降到最低。一的作用是避免出现意外招法下AI的大崩溃(李世石第四盘就是下出意外招法Go崩溃了),如去年那篇论文SL Network估计人类招法准确性是57%,其他团队平均只有44%,Rollout Policy可以达到24%。二是开局选点太多(前几十手),用人类知识库可以避免AI在22、天元、中腹一类不合理的地方落子浪费计算资源。
回到SC2。DM假如真的如我所说学习Replay,选择战网高分选手的可能性较大,而选择职业的可能性较小,因为它需要把盲点减到最少。学习Replay可以将复杂度降低一些。 在任何给定的项目,战胜人类只是时间问题,因为人类会帮助优化它。AI的下一步是自行开发策略,也许现在已经有了。下一步是自行开发新游戏,邀请人类来玩,人类就玩完了。 tanis 发表于 2017-6-1 04:27
这个人类稍稍有点儿优势。毕竟replay无法看到操作
对于1,我感觉AI这方面是最大的劣势。因为就像 ...
AI不会有无用的APM。我看韩国职业,他们的EAPM都不足200,即使是像effort这种峰值到500的选手也一样。
比如小狗冲坦克阵,最理想的是小狗排成横排同时冲击,AI可以做到,人类不行。 loy_20002000 发表于 2017-6-1 17:38
嘿嘿,Replay是可以看到操作的哦。1的Replay原理是把选手的键盘+鼠标操作记录下来,由于暴雪估计错误SC1 ...
喔。。。原来replay可以操作!!我在1.09之后玩的就很少了。 这样看,星际比赛能长盛不衰,各种技术技能透明化也是一个重要原因啊~ 原来replay原理是把键盘+鼠标的操作记录下来~ 我原来以为是记录各个单位的参数呢。 键盘+鼠标的确是更简单易行的方式,尤其在十年前。
sc2可能由于节奏快一些,发展的模式有很多,加上暴雪时不时改进、修改兵种和技能的参数。使得战术和建筑顺序时不时都在改变~我在想堵个路口,也能造成AI的探路基本无效~ {:191:}
最近sc2 虫族的一个打法就是快速升级overload的速度,使得虫族侦查有了很大优势。 zilewang 发表于 2017-6-2 19:14
AI不会有无用的APM。我看韩国职业,他们的EAPM都不足200,即使是像effort这种峰值到500的选手也一样。
比 ...
这样的话,就可以把AI的EAPM调到150左右呗~~
而且如果是纯ML的话,也许AI会把人类无用的APM也学过去。。。 本帖最后由 loy_20002000 于 2017-6-3 17:27 编辑
tanis 发表于 2017-6-2 23:14
喔。。。原来replay可以操作!!我在1.09之后玩的就很少了。 这样看,星际比赛能长盛不衰,各种技术技能 ...
我的话又歧义了。{:191:}SC1的Replay是记录APM(刚回忆了下不会是EAPM,Rep分析工具是可以查看全程APM变化的)。像是否切屏是不记录的,鼠标轨迹也是不记录的。05年玩家自己开发的第一视角观看Rep工具,由于没法分辨选择一个编队后操作者是否切换视角,他们的做法是选了就切,于是屏幕晃动切换得眼花。07、08年后玩家开发的录制工具对SC1的Replay录制过程进行了干涉,可以记录完整的操作过程。1.08b后Replay的出现使得玩家的交流更便利了,但仅限于业余玩家。职业战队的Rep是不外泄的,属于商业机密,但职业队有自己的研究院,不看Rep也能研究透流程。
暴雪学习Valve公司呀,三天两头改参数。一年做俩三次微调就够了,经常调整非常影响平衡性的。AI只能在某个版本训练,如果在1.55训练,比赛的时候是1.60,画面不要太美。{:187:}
页:
[1]