為了讓 AI 不斷打怪升級,DeepMind 打造「宇宙」
作者 雷鋒網 | 發布日期 2021 年 07 月 30 日 8:15 |
DeepMind 又給我們小驚喜。我們都知道,強化學習苦於類化能力差,經常只能針對單個任務從頭學習。
DeepMind之前開發的AlphaZero,儘管可以玩圍棋、西洋棋和日本將棋,但每種棋牌遊戲都只能從頭訓練。類化能力差也是AI一直被詬病為人工智障的一大原因。人類智慧的厲害之處,就在藉鑑之前經驗迅速適應新環境。
但類化能力不是一蹴而就,就像玩遊戲,也是先做簡單任務,逐步升級到複雜任務。《空洞騎士》(Hollow Knight)一開始只需要隨意走動揮刀砍怪,但噩夢級難度的「苦痛之路」關,沒有前面累積的技巧,只能玩寂寞。
多任務宇宙
DeepMind此次採用「課程學習」,讓智慧體於不斷擴展升級的開放世界學習。也就是說,AI新任務(訓練資料)是基於舊任務不斷生成。智慧體可盡情鍛鍊自己,簡單的如「靠近紫色立方體」,複雜點的如「靠近紫色立方體或將黃色球體放在紅色地板」,甚至和其他智慧體玩耍,如捉迷藏──「找到對方,且不要被對方發現」。
每個小遊戲存在世界小角落,千千萬萬個小角落拼成龐大的物理模擬世界,如下圖的幾何「地球」。總體來說這個世界的任務由三個要素構成,即任務=遊戲+世界+玩家,並根據三要素關係,決定任務的複雜度。
複雜度的判斷有四個維度:競爭性、平衡性、可選項、探索難度。
比如「搶方塊」遊戲,藍色智慧體需要把黃色方塊放到白色區域,紅色智慧體需要把黃色方塊放到藍色區域。這兩個目標矛盾,因此競爭性較強;同時雙方條件對等,平衡性比較高;因目標簡單,所以可選項少;DeepMind把探索難度評為中上,可能是因定位區域算較複雜的場景。
再如「球球喜歡和方塊一起玩」遊戲,藍色和紅色智慧體有共同目標,讓相同顏色的球體和方塊放在相近位置。
這時競爭性自然很低,平衡性毋庸置疑很高的;可選項比上面遊戲高很多;探索難度沒有定位區域,智慧體隨便把球體和方塊放哪都行,難度就變小了。
基於這四個維度,DeepMind打造超大規模「宇宙」任務空間,幾何「地球」也只是這宇宙的小角落,是四維任務空間的一點。DeepMind將「宇宙」命名為XLand,包含數十億個任務。
來看XLand的全貌,由一系列遊戲組成,每個遊戲在許多模擬世界進行,這些世界的拓樸和特徵平滑變化。
終生學習
數據有了,接下來得找到合適的算法。 DeepMind發現,目標注意代理(GOAT)可學習更通用的策略。
具體來說,智慧體輸入包括第一視角的RGB圖像、本體感覺以及目標。經過初步處理後,生成中間輸出,傳遞給GOAT模組,會根據智慧體目前目標處理中間輸出的特定部分,邏輯分析目標。
邏輯分析是指,每個遊戲可藉由一些方法,構建另一個遊戲,並限制策略的價值函數的最優值上限或下限。
DeepMind提出一個問題:對每個智慧體,什麼樣的任務是最好的?換句話說,打怪升級時,什麼樣的關卡設置才讓玩家順利升級為「真」高手,而不是一刀9999?
DeepMind的答案是,每個新任務都基於舊任務生成,「不會太難,也不會太容易」。其實恰好是讓人類學習時感覺「爽」的興奮點。
訓練開始時,太難或太容易的任務可能會鼓勵早期學習,但會導致訓練後期的學習飽和或停滯。不要求智慧體某任務非常優秀,而是鼓勵終身學習,即不斷適應新任務。所謂太難、太容易是較模糊的描述。需要量化方法,在新任務和舊任務之間彈性連接。
怎麼不讓智慧體做新任務時不適應而「暴死」?進化學習就提供很好的靈活性。總體來說,新任務和舊任務同時進行,且每個任務有多智慧體參與「競爭」。舊任務適應好的智慧體,會選拔到新任務繼續學習。
新任務中,舊任務的優秀智慧體權重、瞬間任務分佈、超參數都會複製,參與新一輪「競爭」。除了舊任務的優秀智慧體,還有很多新人參與,這就引進隨機性、創新性、靈活性,不用擔心「暴死」問題。
當然,因任務不斷生成、動態變化,一個任務可訓練不同長處的智慧體,並往不同方向演化(隨著智慧體相對性能和強健性進行)。最終每個智慧體都會形成擅長任務的集合,就像春秋戰國時期「百家爭鳴」。說打怪升級顯得格局小,簡直是模擬地球。
DeepMind表示,「這種組合學習系統的特性是,不最佳化有界性能指標,而是更新定義的通用能力範圍,這使智慧體開放式學習,僅受環境空間和智慧體的神經網路表達能力的限制。」
智慧初現
最終這複雜「宇宙」升級、進化、分流的智慧體長成了什麼優秀物種?DeepMind說,智慧體有很明顯的零樣本學習能力,比如使用工具、合圍、數數、合作+競爭等。
來看具體例子。首先智慧體學會臨機應變。目標有三個:
黑色金字塔放到黃色球體旁邊
紫色球體放到黃色金字塔旁邊
黑色金字塔放到橙色地板
AI一開始找到一個黑色金字塔,想拿到橙色地板(目標3),但搬運過程瞄見黃色球體,瞬間改變主意,「我可以實現目標1啦」,將黑色金字塔放到黃色球體旁邊。
第二個例子是,不會跳高,怎麼拿到高台上的紫色金字塔?智慧體需要想辦法突破障礙,取得高台上的紫色金字塔,高台周邊並沒有類似階梯、斜坡的路。
因不會跳高,所以智慧體「掀桌子」,把周邊幾塊豎起來的板子弄倒。然後一塊黑色石板剛好倒在高台邊,「等等,這不就是我要的階梯嗎?」這過程是否體現了慧體的智慧,還無法肯定,可能只是一時幸運。關鍵還是,要看統計數據。
經過5代訓練,智慧體在XLand的4千個獨立世界玩了約70萬個獨立遊戲,涉及340萬個獨立任務,最後一代每個智慧體都經歷2千億次訓練步驟。智慧體已能順利參與幾乎每個評估任務,除了少數即使人類也無法完成的任務。
DeepMind的研究,或許一定程度體現「密集學習」重要性。也就是說,不僅資料量要大,任務量也要大。這也使得智慧體在類化能力有很好表現,如資料顯示,只需對一些新複雜任務進行30分鐘集中訓練,智慧體就可快速適應,而從頭開始用強化學習訓練的智慧體根本無法學習這些任務。
往後我們也期待這「宇宙」更複雜和生機勃勃,AI經過不斷演化,不斷給我們帶來驚喜(細思極恐)的體驗。
資料來源:https://technews.tw/2021/07/30/deepmind_xland/
同時也有1部Youtube影片,追蹤數超過9,250的網紅爆肝護士的玩樂記事,也在其Youtube影片中提到,天母是號稱有機密度最高的區域,但若要吃好食材又不會太貴的話,位在中山北路巷弄的拓樸本然Topo+ cafe'就是最佳的選擇,重新裝潢營業的Topo不僅提供了多種的早午餐選擇,連手工麵包都提供了三種可搭配,加上精選的食材與網美的空間根本就是超值。 食記☞ https://nurseilife.cc/t...
區域網路拓樸 在 新思惟國際 Facebook 的最讚貼文
洗腎診所很吃地區與距離,因為每個禮拜要去三次,患者傾向在家裡附近,選擇交通方便、品質優良的機構,固定到訪。
#葉時孟醫師 是很樸實的人,上完課後,一步一腳印的經營,分享的資訊,專業又深入,連同領域的校友都稱讚:「葉醫師透析相關的知識分享,質量皆佳,透析知識的缺漏處,讓人從網站補了很多課。」
現在你搜尋「前鎮 洗腎」,前四個結果都是他的部落格、專頁、診所名稱。由於經營全面且用心,Google 更把診所外觀、地點、營業時間、電話、地址等資訊,一併整理於結果頁面。
#免花錢買廣告
#登上Google搜尋第一
▌拿回新時代的話語權,成就更好的自已。
- 你是個網路搜尋得到的人嗎?
- 你有沒有自己的網路發言管道?
- 你在 Google 第一頁給人的印象是什麼?
.
這堂課將根據實際的後台數據,提供你正確的經營策略,教你如何找到自己的品牌定位與目標客群,進一步結合社群推廣,以最小花費、最少時間開始起步,協助你打造「#專業職人的閃亮品牌」,讓自己的人生更精彩!
▌ 誰適合來這門課?
✓ 你 #有自己的專業,但因為太鑽研自己的領域,知名度偏低,希望能有個方法,讓大家知道我的能力,拓展知名度。
✓ 你 #有自己的診所,也有專門的治療領域,希望能增加患者信任度,甚至增加自費比例。
✓ 你是 #年輕醫師,在大醫院中剛升主治醫師,或準備升主治醫師,但苦於無法累積自己的患者,擔心薪水過低,也擔心被醫院檢討。
✓ 你是 #主治醫師,已經有自己的專業,但希望能讓更多人知道你,像蔡依橙醫師一樣被其他醫院挖角擔任主管,像陳偉挺醫師一樣,被跨國公司挖角,擔任東亞區域主管。
✓ 你對 #某些領域有特別的鑽研,想在網路上推廣,增加知名度,甚至開設課程,或提供顧問諮詢,作為自己小小創業。
✓ 你有孩子,也希望他們早日累積自己的 digital presence,甚至 digital reputation。看蔡校長帶兩個 #小孩寫部落格,想知道背後的資訊技術跟堅持技巧。
▌ 七堂課,讓你的專業變成好品牌。
✔ 網路效益:全新與世界直接連結的方式
✔ 平台解析:數據分析與實戰歸納
✔ 進階應用:辦活動、教小孩、新領域實例與拆解
✔ 互動實作:從無到有做出自己的部落格
✔ 遊戲規則:酸民、法律、著作權等艱難狀況應對
✔ 內容形式:該寫什麼?效益分析及實用建議
✔ 專業強化:不同業務型態的實際應用與成功關鍵
🚩 現在就上課,幫自己預約明年的隱形冠軍!
1/31(日)|網路時代之個人品牌工作坊
➠ https://pati2015.innovarad.tw/p/event.html
區域網路拓樸 在 COMPOTECHAsia電子與電腦 - 陸克文化 Facebook 的最讚貼文
#物聯網IoT #智慧穿戴 #智慧家庭 #安全照護 #運動感測器MotionSensor #藍牙Bluetooth #低功耗藍牙BLE #訊標Beacon #一致性Conformance #互通性interoperability #開放互連基金會OCF
【藍牙 5 統一 BLE 版本,OCF 為「網路層」定義共通標準架構】
智慧穿戴與家居的連結,「安全照護」或許要比常人例行性的健身狀態偵測更能引發「must have」的剛性需求,例如:結合運動感測器 (Motion Sensor) 做老人防跌偵測,若配戴者的起居角度異常,就會推播警示訊息。藍牙 (Bluetooth, BT) 經過二十多年發展,功耗已可做到非常低、且天線能與 Wi-Fi 共用,在手機的先佔優勢是其他短距無線通訊難以企及的;而手機又是現代人幾乎形影不離的貼身物件,是最親民的資訊載具和區域網控制中樞。
多數智慧穿戴並不需要「即時」發送資料,而是相隔固定時間做定點傳輸、或使用者想觀看監測結果時才會將裝置訊息發送到手機上,可充份發揮藍牙技術特點。順帶一提的是,去年曾傳出藍牙被惡意人侵事件,正是因為 BLE 版本太多,導致堆疊之間產生漏洞、使資料外溢,才讓駭客有機可乘。所幸,這個資安問題隨著藍牙 5 的拍案已獲解決;低功耗藍牙 (BLE) 使用者不須汰換硬體、只要做軟體更新,就能具備網狀 (Mesh) 拓樸能力。
須留意的是,藍牙傳輸在 IoT 世界隸屬於感測、而非網路層,連線時並未指派 IP 位址,無法直接與數位雲端連結,實現 IoT「萬物皆聯網」的宏願,以共享資訊並執行必要動作;各個聯網物件若缺乏共通基礎,恐無法順利溝通或會增加轉譯成本。「開放互連基金會」(OCF) 就是此背景下誕生的組織,旨在為「網路層協定」定義一個共通標準架構;有了共同語言,後續文法、詞句才不會雞同鴨講。無論底層採用何種數據傳輸技術,OCF 都能充當翻譯官、協助橋接。
「應用廣泛」是藍牙的長處,但也為測試工作帶來挑戰,模擬測試情境顯得格外重要。完整的藍牙測試涵蓋三大面向:射頻 (RF)、協定 (protocol) 和應用描述 (profile);通常越往底層,測試要求越嚴苛。用一個淺顯易懂的比喻就是:先確認彼此的通溝能力、再定義溝通語言的文法、格式,最後是建構有意義的字句並依序執行。回顧藍牙發展史,各有哪些演進特色及測試重點?對產業有何影響?且聽藍牙協會授權之「藍牙品質顧問」(BQC) 的精闢解說。
延伸閱讀:
《融入建築/家居,穿戴裝置更添價值》
http://compotechasia.com/a/____//2018/0211/38089.html
(點擊內文標題即可閱讀全文)
#百佳泰AllionLabs #IoT實驗場域 #測試實驗室
★★【智慧應用開發論壇】(FB 不公開社團:https://www.facebook.com/groups/smart.application/) 誠邀各界擁有工程專業或實作經驗的好手參與討論,採「實名制」入社。申請加入前請至 https://goo.gl/forms/829J9rWjR3lVJ67S2 填寫基本資料,以利規劃議題方向;未留資料者恕不受理。★★
區域網路拓樸 在 爆肝護士的玩樂記事 Youtube 的最讚貼文
天母是號稱有機密度最高的區域,但若要吃好食材又不會太貴的話,位在中山北路巷弄的拓樸本然Topo+ cafe'就是最佳的選擇,重新裝潢營業的Topo不僅提供了多種的早午餐選擇,連手工麵包都提供了三種可搭配,加上精選的食材與網美的空間根本就是超值。
食記☞ https://nurseilife.cc/topo/
📌
📽喜歡影片歡迎訂閱爆肝的頻道:https://pse.is/nurseilife
🔔記得開啟訂閱旁邊小鈴鐺,才能即時收到影片通知~
🙉🙉🙉這裡可以找到更多的爆肝🙉🙉🙉
🗺部落格:https://nurseilife.cc/
🌚粉絲團:https://www.facebook.com/nurseilife.cc
🐣IG:https://www.instagram.com/nurseilife/
☎️來加賴好友:https://pse.is/JVFGK
優惠:
⭕️便宜旅遊票券:https://pse.is/K6L7C
✅五折優惠的網路分享器:https://pse.is/F7L3D
✅旅遊商品租一送一:http://bit.ly/2yLWNMf
✅出國上網卡訂購優惠:https://pse.is/DW9EM
✅輸BJ4出國機場接送就打折:https://pse.is/bj4
📩聯絡爆肝:nurseilife@gmail.com
#天母早午餐 #拓樸本然 #Topo