谷歌《星際爭(zhēng)霸2》新 AI 以 10:1 大敗人類(lèi)職業(yè)選手
此前谷歌旗下的科技公司 DeepMind 宣布將在北京時(shí)間 1 月 25 日凌晨 2 點(diǎn)直播公司最新研制的 AI 和《星際爭(zhēng)霸2》職業(yè)選手之間的比賽,現(xiàn)在這個(gè)比賽已經(jīng)完成,結(jié)果也頗讓人吃驚:谷歌 AI 以 10:1 的成績(jī)大勝兩位人類(lèi)職業(yè)選手。
本次參賽的雙方分別是 DeepMind 專(zhuān)為《星際爭(zhēng)霸2》設(shè)計(jì)的 AI,其名為「AlphaStar」,人類(lèi)職業(yè)選手則來(lái)自L(fǎng)iquid 戰(zhàn)隊(duì)的 TLO(蟲(chóng)族選手)和 MaNa(神族選手)。需要說(shuō)明的是,直播中公布的前 10 場(chǎng)比賽陸續(xù)是之前已經(jīng)錄制好的,今天的直播只是現(xiàn)場(chǎng)解說(shuō)和分析。只有最后一場(chǎng)比賽是今天凌晨現(xiàn)場(chǎng)對(duì)戰(zhàn)的。
據(jù)介紹,在 2018 年 12 月 10 日的對(duì)戰(zhàn)中,AlphaStar 以 5:0 戰(zhàn)績(jī)打敗了 TLO。事實(shí)上,AlphaStar 在這 5 場(chǎng)比賽的表現(xiàn)并非那么出色,它有時(shí)會(huì)出現(xiàn)一些毫無(wú)意義的操作,或者目的不明的行為,但憑借著高超的微操,依然拿下了勝利。
之后,AlphaStar 又經(jīng)過(guò)了相當(dāng)于 200 年的訓(xùn)練和自我學(xué)習(xí),在 12 月 19 日再次以 5:0 的完勝戰(zhàn)績(jī)打敗了 MaNa,并在這場(chǎng)比賽中展現(xiàn)出了更好的發(fā)揮,與更少的失誤。
在這兩場(chǎng)比賽中,AlphaStar 展現(xiàn)出了完全不遜于職業(yè)選手的操作。無(wú)論是建筑的布局,開(kāi)場(chǎng)的偵查,還是對(duì)戰(zhàn)時(shí)對(duì)每個(gè)單位的走位操控都非常出色,尤其是它能夠同時(shí)在地圖上多個(gè)地點(diǎn)同時(shí)進(jìn)行操控,這是人類(lèi)選手做不到的,兩位職業(yè)選手都提到了與這樣一個(gè)超級(jí) AI 的較量確實(shí)很頭疼,這是他們從未見(jiàn)過(guò)的對(duì)手。
不過(guò)在這 10 場(chǎng)比賽中,AI 有一個(gè)巨大的優(yōu)勢(shì),那就是凡是地圖上能看到的地方,AI 都能一覽無(wú)余,而人類(lèi)必須依賴(lài)切屏才能獲取信息。
不過(guò) MaNa 最后還是為職業(yè)選手扳回了些顏面,在今天的現(xiàn)場(chǎng)對(duì)戰(zhàn)中,他又和 AlphaStar 進(jìn)行了一場(chǎng)神族內(nèi)戰(zhàn),取得首場(chǎng)也是唯一一場(chǎng)勝利。
在本次比賽中,AI 的 APM 被限制在 450 以?xún)?nèi),同時(shí)也不再是全圖視野,它必須和人類(lèi)一樣通過(guò)切屏來(lái)獲取信息、分析單位。比賽地圖固定為匯龍島地圖,全部為神族內(nèi)戰(zhàn)。盡管此前贏(yíng)了10局,但今天的現(xiàn)場(chǎng)對(duì)戰(zhàn)還是暴露了 AlphaStar 的算法存在諸多問(wèn)題,最終被人類(lèi)拿下一城。
MaNa 也在直播中聊到這場(chǎng)比賽,表示“AlphaStar 的前幾分鐘是世界級(jí)的...很難判斷 AlphaStar 在做什么,這是一次不錯(cuò)的體驗(yàn)” ,TLO 也表示了相同的觀(guān)點(diǎn),表示和從未對(duì)戰(zhàn)過(guò)的 AI 對(duì)抗非常困難,與和人對(duì)抗相差甚遠(yuǎn)。
AlphaStar 的早期學(xué)習(xí)方法與 AlphaGo 相似,它首先會(huì)通過(guò)觀(guān)看人類(lèi)對(duì)戰(zhàn)的錄像學(xué)習(xí)人類(lèi)選手的操作和戰(zhàn)術(shù) ,以快速達(dá)到高段天梯玩家的水平。在這個(gè)階段的學(xué)習(xí)之后,AlphaStar 已經(jīng)能夠以 95% 的勝率擊敗游戲自帶的最高級(jí) AI 了;為了進(jìn)一步的提高,AlphaStar 開(kāi)始自我對(duì)戰(zhàn)學(xué)習(xí), 它被分為許多種不同的版本,每個(gè)版本有不同的傾向,從而保證其多樣性,并最終獲得一個(gè)足夠智能的版本。
第一次與 TLO 對(duì)戰(zhàn)的是自我學(xué)習(xí) 9 天后的 AlphaStar;第二次對(duì)戰(zhàn) MaNa 時(shí)則是自我學(xué)習(xí) 14 天后的版本。根據(jù)比賽后的數(shù)據(jù)分析顯示,雖然 AlphaStar 的長(zhǎng)處并不在于 APM,事實(shí)上它的 APM 比人類(lèi)選手更低,它的主要優(yōu)勢(shì)還是來(lái)自于上面提到的無(wú)需操控視角,直接讀取已知地圖的所有信息。
隨后,谷歌重新設(shè)計(jì)了一個(gè)需要操作視角的 AlphaStar,經(jīng)過(guò)短短 7 天訓(xùn)練之后又和 MaNa 打了一局,最終落敗。但從數(shù)據(jù)分析來(lái)看,雖然自我學(xué)習(xí)的時(shí)間比上一版本短很多,但控制視角對(duì) AlphaStar 的表現(xiàn)帶來(lái)的影響并沒(méi)有想象中的那么大,它的主要強(qiáng)大之處還是在于快速有效的決策與強(qiáng)大的微操。
在昨天谷歌 AI 的賽事通告發(fā)出之后,ENCE 也宣布《星際爭(zhēng)霸2》全球總冠軍 Serral 將在今年 2 月 15 日與 ReaktorNow 組織的《星際爭(zhēng)霸2》AI 挑戰(zhàn)賽的冠軍展開(kāi)一場(chǎng)人機(jī)大戰(zhàn)。
