AlphaGo進化★打爆職業星海電競手(更新)




由Google旗下人工智慧部門DeepMind所開發的人工智慧軟體「AlphaGo」推出後,在圍棋世界掀起一滔天巨浪,透過智慧演算先是擊潰南韓棋手李世乭,接著打敗世界第一棋手柯潔。如今,DeepMind又開發出一款「AlphaStar」,主要挑戰即時戰略遊戲《星海爭霸2》,而AlphaStar於今(25)日正式登場,輕鬆以2個5:0,擊敗世界排名第13、44的職業選手。
▲Google推出人工智慧「AlphaStar」,擊敗職業選手。(圖/翻攝自星海爭霸臉書)
綜合外媒報導,於台灣時間25日凌晨2時,DeepMind與知名遊戲商暴雪娛樂(Blizzard Entertainment)合作,同時正式亮相最新人工智慧AlphaStar,在與職業選手對戰前,DeepMind執行長哈撒比斯(Demis Hassabis)表示,《星海爭霸2》是一款相當複雜的即時戰略遊戲,對人工智慧是一大考驗。
然而這次的比賽,是透過直播回放畫面,與實際的「人機大戰」相隔2周時間,但AlphaStar的能力卻讓大家相當震驚。AlphaStar分別以2個5:0,擊敗界排名第44位的職業選手TLO和世界排名第13位的MaNa,這也讓外界再次對人工智慧的能力感到震驚。

更專業的分析在這裡
多圖詳解 DeepMind 的超人類水準《星海爭霸》AI「AlphaStar」

原來阿爾法狗可以開始打星海了喔?

還贏了職業選手,即時戰略遊戲這麼複雜深度學習能贏玩家嗎?

哪時候阿爾法狗可以讓LEVEL 5級 自動駕駛汽車上路?

可以解放駕駛員



文章第二個連結分析 3個重點

1.說阿爾法SATR的14天訓練程度相當於人類玩200年場次的星海
(儘管每1場阿爾法星的學習效率低於人類 因為人類和電腦用不同的方式學習)

2.以及限制微操作次數到比人類還低的APM

3.就算限制阿爾法STAR的視窗框移動


最後還是超過了人類.........
由於 AlphaStar 首先從人類玩家資料模仿學習,以及神經網路有一定的計算延遲,操作頻率其實比人類選手還低一些。MaNa 的 APM 達平均 390,AlphaStar 平均只有 280 左右。AlphaStar 的計算延遲平均為 350 毫秒(從觀察到行動)。相比之下,以往基於固定策略和手工規則的星海 AI 會保持上千 APM。
AlphaGo進化★打爆職業星海電競手(更新)
所以說阿爾法星海APM微操作次數並沒有比人類還高
AlphaGo進化★打爆職業星海電競手(更新)
限制視窗移動效果還是一樣 只是成長慢一點而已最終還是超過人類




2019-01-26 20:53 發佈
tulip810018 (愚 ) wrote:
> 它不是把那些部隊拿去送掉,拿去騷擾或偵查。它就是原地把他們殺了~
> 看來,那些害怕人工智能反撲的人終於可以放手擔心了XDDD
> AI會騙人,而且還會殺自己人~
>
>
> 不過它很多包圍、防守、騷擾都做得很到位,這已經很強了。
> 我從沒想過星海有可能比圍棋還複雜。


以上是別人問的問題和我的感想

有可能是深度學習時間不夠

才學了14天AI還沒學習到把兵送掉而不是自殺 更有效益

星海的複雜度的確比圍棋還要高

因為圍棋棋盤的格子數很少 棋子只有兩種 加上資訊是完全開放的沒有戰爭迷霧

星海的操作可能性是地圖上任何一個位置和任何一個兵種你都可以選他

在計算機科學和程式設計,有一門必修學科叫做計算複雜度理論

軟體的演算法有「時間複雜度」和「空間複雜度」,

時間複雜度是指計算時間和計算規模的成長不成比例

而這遊戲的「空間複雜度」很高

所以開發阿爾法星的公司才說,即使在84X84的小畫面裡不移動視角也有1億種操作可能性

這是透過數學「組合數」的排列和組合計算出的「空間複雜度」

圍棋的空間複雜度有人計算過好像是10的172次方 10^360 (比宇宙中原子總數量還大)

而星海的空間複雜度是10的10的20多次方10^10^20 (指數的部分零的數量有宇宙這麼大一張紙還寫不完)

戰爭迷霧本身就是資訊不完全 這要用到的信息不完全的計算科學

因此阿爾法星跟阿爾法狗來說是難度完全不同的數量級


一等的路人 wrote:
說阿爾法SATR的14天訓練程度相當於人類玩200年星海 老兄這是你說的 都玩了200年還玩成這樣 然後你跟我說超越人類...? 你要不要先把超越人類這句刪掉再來討論




問題在於電腦學1次跟人類學1次的效率是不同的 因為他們的學習方法不同

電腦同樣的時間可以學更多次,但是人腦很可能就是用不同的方法來學習,

就好比說要人類造出飛行器不一定要像小鳥一樣拍動翅膀,但是飛行效率卻高過小鳥

他是以1場星海1小時計算,然後以電腦玩的次數來計算總時間=人類玩200年

但是電腦每玩1場和人類每玩1場學習效率是不同的

因為人和電腦根本用不同的方法學習,感覺電腦的學習方法比較笨

人類根本不需要這麼大的資料量來訓練自己 就學的比電腦強了
abc003 wrote:
因為圍棋棋盤的格子數很少 棋子只有兩種 加上資訊是完全開放的沒有戰爭迷霧

我是不知道他背後的演算法,但如果有迷霧而且他是用 reinforcement learning 來學習的話,可能也可以用解 POMDP (部分可觀察馬可夫決策過程 (POMDP)) 的方法來處理,畢竟在迷霧效果之下所獲得的資訊應該只能算是整個遊戲 state 資訊的子集合。
感謝分享
電腦真的又更強了
人類玩到後面
建築物 用兵 更多
精神集中力都會下降
電腦很容易在這個時間點感過人類
所以看到 有幾場策略 就是玩前期
不過 沒能前期拿下 就還是是輸了比賽
評分
複製連結