分享好文,中學生要學電腦嗎?
作者:創新工場CTO、人工智慧工程院執行院長 王詠剛
文章来自半轻人微信公众号(ban-qing-ren)
………………………………
朋友的孩子高中剛畢業,已拿到美國頂尖大學(非電腦專業)的錄取通知。疫情影響,不知何時才能去學校報到。孩子想抓緊學習一下程式設計,為大學打好基礎。這孩子找我聊了一個多小時,從如何學程式設計,聊到非電腦專業和電腦專業的路徑差異,又聊到如何從不同角度認識電腦與程式設計。聊得比較寬泛,不知是否對這孩子有用。
回想我自己的高中時代:那時雖迷戀程式設計,卻完全沒有懂行的人指導。在我們那個四線城市的廠礦中學裡,開設電腦興趣課的老師知道的資訊還沒我多。我高一時跑到北京中關村逛街,卻完全沒意識到中國第一代頂尖程式師當時就在我身邊的低矮辦公樓裡寫代碼(這話說得並不準確,比如求伯君那年就主要是在珠海做開發),鼎鼎大名的UCDOS、WPS、CCED就出自他們之手……我在當時街邊的一家書店(位置似乎就在今天的鼎好大廈對面)買到了許多種印刷品質極低劣的電腦圖書。用今天的標準看,那就是一批盜版影印或未授權翻譯的國外圖書。可那批書竟成了我高中時代最寶貴的程式設計知識來源。
顯然,我在高中時根本就是野路子學電腦。現在後悔也沒用,當時我的眼界或能觸及的資源就那麼多。如果能穿越回30年前,我該對喜歡程式設計的自己說些什麼呢?這些年,我與世界上最好的一批程式師合作過,也參與過世界上最有價值的軟體系統研發——我所積累的一些粗淺經驗裡,有哪些可以分享給一個愛程式設計的中學生?
【問題1】中學生要不要學電腦?
當然要!
每個中學生都要學。只不過——建議大部分中學生使用“休閒模式”,小部分(不超過10%)中學生使用“探險模式”。
啊?兩個模式?那我該進入哪個模式?⟹請跳轉至【問題2】
【問題2】選哪個模式?
你癡迷電腦嗎?比如,你玩遊戲時會特別想知道這遊戲背後的代碼是如何編寫的嗎?再比如,就算老師家長不同意你學電腦,甚至當著你的面把電腦砸了,你也要堅持學電腦嗎?如果是,恭喜你進入“探險模式”⟹請跳轉至【問題200】
你對數學有興趣嗎?比如,你看到街邊建築的曲線,就會在腦子裡琢磨曲線對應的函數或方程嗎?每當手裡攥著幾粒骰子,你就會不由自主地計算概率嗎?如果是,歡迎進入“探險模式”⟹請跳轉至【問題200】;當然,如果有些猶豫,也可以先進入“休閒模式”⟹請跳轉至【問題100】
即便你對電腦和數學興趣不大,家長、老師還是強烈建議你學電腦嗎?就算你一百個沒時間一千個不願意,家長、老師還是會逼著你學電腦嗎?如果是,建議你主動進入“休閒模式”並向家長、老師彙報說“我已經按照前谷歌資深軟體工程師的專業建議在認真學程式設計了”⟹請跳轉至【問題100】
其他情況,一律進入“休閒模式”。⟹請跳轉至【問題100】
【問題100】休閒模式 | 主要學什麼?
“休閒模式”將電腦視為我們生活、工作中的必備工具,主要學習如何聰明、高效、優雅地使用計算設備。這裡說的計算設備,包括所有形式的電腦、手機、遊戲機、智慧家電以及未來一定會進入生活的自動駕駛汽車。
什麼什麼?你已經會用電腦、會玩手機、會打遊戲了?別著急,慢慢往下看。
【問題101】休閒模式 | 我會用搜尋引擎嗎?
我知道你會用百度搜習題答案。但,習題答案不是知識。你會用搜尋引擎來搜索和梳理知識嗎?請試著用電腦和你喜歡的搜尋引擎來解決如下兩個問題:
(1)圓周率𝜋的計算方法有多少種?每種不同的計算方法分別是由什麼人在什麼時代提出的?借助電腦,今天人們可以將圓周率𝜋計算到小數點後多少位?將圓周率𝜋計算到小數點這麼多位元,一次大概需要花掉多少度電?
(2)全球大約有多少個廁所?在發展程度不同的國家,分別有多少比例的人可以享用安裝了抽水馬桶的衛生廁所?為什麼比爾·蓋茨曾大力推動一個設計新型馬桶的研發專案?比爾·蓋茨的公益組織在這個專案上大約花費了多少資金,最終收到了多大的效果?
如果你沒法快速得到上述問題的全部答案,那就給自己設一個小目標:一個月內,學會用搜尋引擎系統地獲取、梳理一組知識點的全部技巧。
【問題102】休閒模式 | 接下來學什麼?
建議學好典型的工具軟體。比如,我知道你會用Office了,但用Office和用Office是很不一樣的。對生活、學習、工作來說,學好、學透一個工具軟體比鑽研程式設計技巧更實用。
你會用Excel來管理班級公益基金的預算和實際收支情況嗎?
你會用Excel做出過去20年裡全球大學排名的演變趨勢圖嗎?
你會用Word排版一篇中學生論文嗎?論文中的圖表和最後的參考文獻部分該如何排版?
你會用Word編排一份班級刊物,包含封面、扉頁、目錄、插圖頁、附錄、封底等部分,可以在列印後直接裝訂成冊嗎?
PowerPoint呢?你有沒有研究過蘋果公司發佈會上那些幻燈片的設計?當約伯斯(多年以前)或蒂姆·庫克站在幻燈片前的時候,他們的演講思路是如何與幻燈片完美結合的?
還有哦,別忘了學學如何為數碼照片做後期,如何用電腦或手機剪視頻,如何為剪輯好的視頻配字幕,如何將照片、音樂、視頻等素材結合起來,做出一段吸引人的快手/抖音短視頻。
最後,抽空玩玩那些設計精妙的遊戲吧,比如《紀念碑穀》、《塞爾達傳說:曠野之息》之類;同時,遠離那些滿屏廣告,或者一心騙你在遊戲裡充值花錢的垃圾。
【問題103】休閒模式 | 不學學知識嗎?
當然要學知識。下面每種實用的電腦知識都夠大家學一陣子了。
(1)色彩知識:你知道同一張數碼照片在不同品牌的手機螢幕上、不同的電腦螢幕上、不同的智慧電視上顯示時,為什麼經常有較大色差嗎?你知道有一些色彩只適合螢幕顯示,不適合列印輸出嗎?你知道軟體工具裡常用的RGB、HSL之類的色彩空間都是什麼意思嗎?如何在設計PowerPoint幻燈片時選擇一組和諧美觀的色彩?
(2)字體知識:你知道什麼是襯線字體,什麼是無襯線字體嗎?你知道網頁中常用的英文字體都有哪些嗎?你知道商務演講時最適用于幻燈片的英文字體有哪些嗎?你知道電腦和手機常用的黑體、宋體、仿宋體、楷體等中文字體分別適合哪些實際應用場合嗎?你會將不同字體混排成一個美觀的頁面嗎?
(3)網路知識:你知道5G是什麼嗎?你知道5G和4G在通信頻寬、通信距離上的具體區別嗎?你知道什麼是路由器,什麼是防火牆嗎?你知道如何配置路由器,如何配置防火牆嗎?微信或QQ聊天時,對方發的文字、語音或視頻是如何傳送到你的手機上的?
(4)應用知識:淘寶中搜索得到的商品資訊是從哪裡來的?商品是按什麼方式排序的?為什麼購物APP經常會推薦給你一些曾經買過、看過的商品?你知道如何為自己建立個人網站嗎?你知道如何管理微信公眾號嗎?
(5)安全知識:你知道網路上的釣魚攻擊是怎麼回事兒嗎?你知道什麼是電腦漏洞嗎?你知道駭客為什麼想把一大批受攻擊的電腦變成可以遠端操控的傀儡機嗎?你知道為什麼現在很多手機APP都要通過短信發送驗證碼嗎?如果驗證碼被壞人截獲,你會面臨哪些風險?
這裡只是舉例。實用的電腦知識還有很多。大家可以自己發掘。
【問題104】休閒模式 | 我需要學程式設計嗎?
可以學,但不是必須。即便學,也只需要根據自己的需要,學那些最能幫你解決現實問題的部分。
【問題105】休閒模式 | 我該學什麼程式設計語言?
在“休閒模式”裡,電腦就是工具,程式設計也是工具,夠用就好。學什麼程式設計語言,完全看你想要電腦幫你做什麼。
• 如果你想對資料處理有更多自主權,那不妨學學Python;
• 如果你想做簡單的交互演示程式,那就先把JavaScript學起來;
• 如果你想更好、更快地寫論文,那不妨學學LaTeX(什麼什麼,LaTeX不是程式設計語言?你太小看LaTeX了);
• 如果你想學做簡單的手機APP,那麼,Android手機就學Java,蘋果手機就學Swift好了;
• 如果你只想知道程式設計是怎麼回事,那……從Python或JavaScript開始就行。其實,跟五六歲的小朋友一起學學Scratch圖形程式設計也不錯。
【問題106】休閒模式 | 我需要學人工智慧嗎?
在“休閒模式”裡,最需要學的不是“人工智慧的實現原理”,而是“什麼是人工智慧”,以及“人工智慧能做什麼,不能做什麼”。
• 在手機上試一試,人工智慧做語音辨識時能做到什麼水準?哪些話容易識別,哪些話不容易識別?
• 打開機器翻譯軟體,試一試哪些資訊翻譯得好,哪些資訊翻譯得不好?
• 手機上的拍照軟體一般都有人臉識別功能。試一試人臉識別在什麼場景下做得好,什麼場景下做得不好?
• 找一部講人工智慧的科幻電影,用自己的判斷解讀一下,電影裡哪些技術有可能成為現實,哪些技術存在邏輯矛盾。
【問題107】休閒模式 | 推薦什麼參考書、參考文獻?
書不重要,豆瓣評分7分以上的電腦應用、程式設計甚至科普類圖書都可以拿來翻翻。
直接在知乎裡搜索你想瞭解或學習的知識點可能更有效率。
如果你意猶未盡,覺得自己剛活動開筋骨,還想挑戰更高層次,歡迎進入“探險模式”。⟹請跳轉至【問題200】
否則,“休閒模式”到此結束。⟹請離開此問答
【問題200】探險模式 | 主要學什麼?
“探險模式”需要有挑戰精神。電腦科學的世界技術演進快,脈絡複雜,要想在探索時不迷路,你得通過有順序、有系統地學習電腦知識,慢慢構建出一張可以在未來幫你走得更遠的思維地圖來。
在“探險模式”裡,電腦就不止是一件能快速計算的工具了。電腦更像是我們大腦的一種延伸。這既包括認知能力的延伸,也包括認知邏輯的延伸。隨著學習深入,大家會逐漸體會到電腦所具有的多維度能力:
電腦是一種可以表示不同類型資訊(數、符號、文字、語音、圖像、視頻、虛擬空間、抽象邏輯)的“資訊管理機”;
同時,電腦也是一種可以連續執行指令以完成特定的資訊處理任務的“指令處理機”;
同時,電腦還是一種可以在知識與邏輯層面完成特定推理任務的“知識推理機”;
同時,電腦也是一種可以從人類給定的資料或自我生成的資料中總結規律,建立模型,自主完成某些決策的“智慧學習機”。
“探險模式”的目標就是盡可能準確地認識電腦,掌握有關電腦運行的最基本規律。有了這些基礎。未來在大學期間或工作中,你就能更容易地設計電腦軟硬體系統,或是設計出碳基大腦(人類)與矽基大腦(機器智慧)之間的最佳協作方案。
【問題201】探險模式 | 我的英語水準足夠嗎?
蘋果每年秋季的新品發佈會,不加字幕的話,你能聽懂多少?
能聽懂大部分:建議在學習電腦的過程中,盡可能使用英文教材、英文文檔。
能聽懂小部分:建議將原來準備學電腦的時間,分出一部分來學英語。
只能聽懂“你好”“再見”之類:⟹請離開此問答。然後,把原來準備學電腦的時間用於學英語,六個月後再回來。
【問題202】探險模式 | 我的數學水準足夠嗎?
如果你是數學和數學應用小能手——較複雜的數學問題總能快速找到核心思路,或快速簡化為簡單問題;很容易就能將抽象概念映射到具體的數學圖形,或將數學問題與相應的現實問題關聯在一起:請繼續探險之旅。
如果你應付正常數學課程感到吃力:建議將原來準備學電腦的時間,分出一部分來學數學。
如果你還搞不清楚什麼是方程、函數、集合、概率……:⟹請離開此問答。然後,把原來準備學電腦的時間用於學數學,六個月後再回來。
【問題203】探險模式 | 為什麼強調英語和數學?
(1)統計上說,最好的電腦參考資料大都是英文寫的,最好的電腦課程大都是用英文講的,最新的電腦論文大都是用英文發表的。
(2)函數、方程、坐標系、標量、向量、排列組合、概率這些中學數學裡會初步學習到的數學知識,是電腦科學的基礎。
【問題204】探險模式 | 電腦知識那麼多,正確的學習順序是什麼?
最重要的順序有兩個。建議先從順序一開始,學有餘力時兼顧兩個順序。
順序一:自底向上,即,自底層原理向上層應用拓展的順序。
電腦原理的基礎知識:
為什麼每台電腦(包括手機)都有CPU、記憶體和外部設備?
(馮·諾依曼體系結構的)記憶體中為什麼既可以存儲資料,也可以存儲指令?
CPU是如何完成一次加法運算的?
程式設計語言的基礎知識:
資料類型,值,變數,作用域……
語句,流程控制語句……
過程、方法或函數,類,模組,程式,服務……
編譯系統的基本概念:
電腦程式是如何被解釋或編譯成目標代碼的?
演算法和資料結構的基礎知識:
陣列,向量,鏈表,堆,棧,二叉樹,樹和圖……
遞迴演算法,排序演算法,二叉樹搜索演算法,圖搜索演算法……
應用層的基礎知識:
為什麼電腦需要作業系統?設備驅動程式是做什麼的?
網路通信的基本原理是什麼?流覽器是怎麼找到並顯示一個網頁的?
資料庫是做什麼用的?
虛擬機器是怎麼回事?
人工智慧系統的基礎知識:
先熟悉些線性代數、概率和數學優化的基礎知識。
什麼是機器學習?從簡單的線性回歸中體會機器學習的基本概念、基本思路。
什麼是神經網路?什麼是深度神經網路?為什麼神經網路可以完成機器學習任務?
如何使用PyTorch或TensorFlow實現簡單的深度學習功能?
順序二:自頂向下,即,自頂層抽象邏輯向下層具體邏輯拓展的順序。
• 電腦的本質是什麼?
• 什麼是圖靈機?什麼是通用圖靈機?
• 什麼是讀取﹣求值﹣輸出迴圈(Read–eval–print Loop,REPL)?
如何用自頂向下的方式理解(解析、解釋、編譯)一段程式碼?
• 靜態語言和動態語言的區別?
如何理解變數與資料類型之間的綁定關係?
• 什麼是函數式程式設計?
程式設計語言中,函數的本質是什麼?
函數為什麼可以像一個值一樣被表示、存儲、傳遞和處理?
• 什麼是物件導向?
類的本質是什麼?
如何用物件導向的方式定義個功能介面?
如何依據介面實現具體功能?
• 什麼是事件驅動?
什麼是事件?事件如何分發到接收者?
如何在事件驅動的環境中理解代碼的狀態和執行順序?
【問題205】探險模式 | 如何提高程式設計水準?
在掌握基本知識體系的基礎上,學好程式設計只有一條路:多程式設計,多參加程式設計比賽,多做程式設計題,多做實驗項目,多找實習機會——其中,能參與真實專案是最有價值的。
【問題206】探險模式 | 該從哪一門程式設計語言學起?
我個人推薦的程式設計入門語言(可根據情況任選):
Python
Java
Swift
C#
JavaScript / TypeScript
Ruby
……
可能不適合入門,但適合後續深入學習的語言:
C
C++
Go
Objective-C
組合語言
機器語言(CPU指令集)
Shell Script
Lua
Haskell
OCaml
R
Julia
Erlang
MATLAB
……
【問題207】探險模式 | 如何選參考書和參考資料?
(1)強烈推薦的參考書和參考資料:
• MIT、Stanford、CMU、UC Berkeley這四所大學中任何一個電腦專業方向使用的教學參考書或參考資料。網上可以查到這些學校電腦專業方向的課程體系,有的學校甚至公開了課程視頻。其中往往會列舉參考書和參考資料連結。
• 維琪百科(英文)上的數學、電腦科學相關條目。
• Github上star數在1000以上的開原始程式碼和開來源文件。
(2)強烈推薦但須小心辨別的參考資料:
知乎上的數學、電腦科學相關條目。使用時需要格外注意三件事:
儘量只看高贊答案或高贊文章;
辨別並避開廣告軟文;
辨別並避開純抖機靈的故事或段子。
Stack Overflow上的程式設計問題解答:
自己動手實驗,辨別解答是否有效。
CSDN上的程式設計問題解答:
自己動手實驗,辨別解答是否有效。
(3)其他推薦的參考書和參考資料:
國內專業作者寫作的專業技術書籍(豆瓣評分7分以上的)。
大廠(Google、Facebook、Microsoft、Amazon、阿裡、騰訊、百度、頭條等)資深工程師的技術公號、專欄、博客等。
著名圖書系列:如O’Reilly的動物封面的系列圖書(請注意最新版本和時效性)。
國內翻譯的著名技術圖書(譯本在豆瓣評分7分以上的)。
(4)儘量避免的參考書和參考資料:
• 已經過時的圖書或參考資料。
• 作者或譯者人數比章節數還多的專業圖書。
• 百度百科上的數學或電腦科學相關資料。
什麼什麼?你這篇問答居然沒有推薦一本具體的圖書?是,沒錯。如果你覺得即便有了上面的線索,自己還是找不到好書好資料,那也許你還是適合“休閒模式”⟹請跳轉至【問題100】
點陣圖向量圖差異 在 DOC職人 時食刻客 Facebook 的精選貼文
【平平都是繪圖軟體,小畫家能取代Ai?】
~斜槓設計招生中:點陣 VS. 向量
~上圖Windows 小畫家;下圖是商業軟體 Ai
小編平時都用illustrator (以下簡稱Ai)來進行設計,前些時候,有DOC職人問小編,沒時間學專業軟體,也不想花錢買主流商業軟體,怎麼辦?
小編今天就來回答這個問題,並且用Windows 內建的工具 -「小畫家」來模擬比較,能否取代商用的軟體。
為什麼選「小畫家」呢?因為內建,免安裝,比起功能相容於Ai的自由或免費軟體,簡單直覺,對於沒時間深入學習的夥伴,或許是一個想法。
今天小編以簡單的 LOGO 使用「小畫家」來臨摹。
首先,來談談「修改」的差異,使用小畫家繪圖時,只有復原鍵和橡皮擦工具能做減法修圖;
而Ai的每個繪製元素,都是一個物件,是獨立的向量圖形,因此可隨意修改、變形,應用較多元。
--------
這個LOGO範例是以圓形環繞英文字母為設計,使用Ai的文字功能再搭配圓形工具,文字就會隨著曲線環繞。
而小畫家則是需要一個字母一個字母慢慢手動調整,做到最後發現文字位置不夠,若要修改,就等於所有的文字要再刪掉重新調整一次,所以就偷懶沒再去調整了。
--------
LOGO中間的圓裡面,有無數個小點排成的網點背景,Ai只要簡單運用複製貼上很快就能完成;
小畫家則是得土法煉鋼的一個個點上去,需要耗費較多時間,而且因為是手動,所以每個點之間的間距也得要自己控制好呢!
--------
結論,一個簡單的LOGO使用Ai大約10分鐘可以做完,但小畫家則需要三、四倍以上的時間。當然,兩者之間是完全不同屬性的軟體,無法用此類比來決定軟體的優劣。
小畫家是一個圖像繪製工具,簡單來說,就是一個數位畫布,平時是拿來繪製簡單的插圖應用;
Ai則是向量圖形製作軟體,最大特色在於貝茲曲線的使用:其大量、快速、複製等功能,對於設計師來說,操作簡單,功能完整,因此就成了主流的商用軟體。
但今天若是在時間充裕的條件下,要繪製一個手繪風格的插圖(搭配手繪板,效果更好),那小畫家的表現就不會遜色於 Ai 囉!
--------
屏東/臺東/澎湖 免費 LOGO 設計課程
~ https://forms.gle/wQPeP1w6Ksy8ykhH7
📍課程大綱︰
1.illustrator介面及工具介紹
2.手繪線稿轉換為向量圖檔
3.鋼筆工具應用
4.線條、色塊調整裁切做法
5.線條圖檔新增填色及立體效果
6.存檔圖稿或原檔
報名 : https://forms.gle/wQPeP1w6Ksy8ykhH7
--------
#DOC數位機會中心
#城鄉交流數位應用
--------
DOC職人訊息不漏接~
訂閱Telegram 頻道:https://t.me/docwego
--------
更多職人 : http://expert.chineseink.com.tw/client/default.aspx
--------
Doc年貨大街
http://docmall.doctw.com/index.php
--------
Kisa 行銷企劃
http://www.ks-kisa.com/index.html
點陣圖向量圖差異 在 李開復 Kai-Fu Lee Facebook 的最佳貼文
創新工場“AI蒙汗藥”入選NeurIPS 2019,3年VC+AI佈局進入科研收穫季
本文來自量子位微信公眾號
……………………………………………………………………
NeurIPS 2019放榜,創新工場AI工程院論文在列。
名為“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”。
一作是創新工場南京國際AI研究院執行院長馮霽,二作是創新工場南京國際人工智慧研究院研究員蔡其志,南京大學AI大牛周志華教授也在作者列。
論文提出了一種高效生成對抗訓練樣本的方法DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到“資料下毒”的目的。
創新工場介紹稱,這一研究就並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,還能協助針對性地制定防範“AI駭客”的完善方案,推動AI安全攻防領域的發展。
NeurIPS,全稱神經資訊處理系統大會(Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有32年的歷史,一直以來備受學術界和產業界的高度關注,是AI學術領域的“華山論劍”。
作為AI領域頂會,NeurIPS也是最火爆的那個,去年會議門票在數分鐘內被搶光,而且在論文的投稿錄取上,競爭同樣激烈。
今年,NeurIPS會議的論文投稿量再創新高,共收到6743篇投稿,最終錄取1428篇論文,錄取率為21.2%。
▌“資料下毒”論文入選頂會NeurIPS
那這次創新工場AI工程院這篇入選論文,核心議題是什麼?
我們先拆解說說。
近年來,機器學習熱度不斷攀升,並逐漸在不同應用領域解決各式各樣的問題。不過,卻很少有人意識到,其實機器學習本身也很容易受到攻擊,模型並非想像中堅不可摧。
例如,在訓練(學習階段)或是預測(推理階段)這兩個過程中,機器學習模型就都有可能被對手攻擊,而攻擊的手段也是多種多樣。
創新工場AI工程院為此專門成立了AI安全實驗室,針對人工智慧系統的安全性進行了深入對評估和研究。
在被NeurIPS收錄的論文中,核心貢獻就是提出了高效生成對抗訓練資料的最先進方法之一——DeepConfuse。
▌給數據下毒
通過劫持神經網路的訓練過程,教會雜訊生成器為訓練樣本添加一個有界的擾動,使得該訓練樣本訓練得到的機器學習模型在面對測試樣本時的泛化能力盡可能地差,非常巧妙地實現了“資料下毒”。
顧名思義,“資料下毒”即讓訓練資料“中毒”,具體的攻擊策略是通過干擾模型的訓練過程,對其完整性造成影響,進而讓模型的後續預測過程出現偏差。
“資料下毒”與常見的“對抗樣本攻擊”是不同的攻擊手段,存在於不同的威脅場景:前者通過修改訓練資料讓模型“中毒”,後者通過修改待測試的樣本讓模型“受騙”。
舉例來說,假如一家從事機器人視覺技術開發的公司希望訓練機器人識別現實場景中的器物、人員、車輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓練資料。
研發人員在目視檢查訓練資料時,通常不會感知到異常(因為使資料“中毒”的噪音資料在圖像層面很難被肉眼識別),訓練過程也一如既往地順利。
但這時訓練出來的深度學習模型在泛化能力上會大幅退化,用這樣的模型驅動的機器人在真實場景中會徹底“懵圈”,陷入什麼也認不出的尷尬境地。
更有甚者,攻擊者還可以精心調整“下毒”時所用的噪音資料,使得訓練出來的機器人視覺模型“故意認錯”某些東西,比如將障礙認成是通路,或將危險場景標記成安全場景等。
為了達成這一目的,這篇論文設計了一種可以生成對抗雜訊的自編碼器神經網路DeepConfuse。
通過觀察一個假想分類器的訓練過程更新自己的權重,產生“有毒性”的雜訊,從而為“受害的”分類器帶來最低下的泛化效率,而這個過程可以被歸結為一個具有非線性等式約束的非凸優化問題。
▌下毒無痕,毒性不小
從實驗資料可以發現,在MNIST、CIFAR-10以及縮減版的IMAGENET這些不同資料集上,使用“未被下毒”的訓練資料集和“中毒”的訓練資料集所訓練的系統模型在分類精度上存在較大的差異,效果非常可觀。
與此同時,從實驗結果來看,該方法生成的對抗雜訊具有通用性,即便是在隨機森林和支援向量機這些非神經網路上也有較好表現。
其中,藍色為使用“未被下毒”的訓練資料訓練出的模型在泛化能力上的測試表現,橙色為使用“中毒”訓練資料訓練出的模型的在泛化能力上的測試表現。
在CIFAR和IMAGENET資料集上的表現也具有相似效果,證明該方法所產生的對抗訓練樣本在不同的網路結構上具有很高的遷移能力。
此外,論文中提出的方法還能有效擴展至針對特定標籤的情形下,即攻擊者希望通過一些預先指定的規則使模型分類錯誤,例如將“貓”錯誤分類成“狗”,讓模型按照攻擊者計畫,定向發生錯誤。
例如,下圖為MINIST資料集上,不同場景下測試集上混淆矩陣的表現,分別為乾淨訓練資料集、無特定標籤的訓練資料集、以及有特定標籤的訓練資料集。
實驗結果有力證明,為有特定標籤的訓練資料集做相應設置的有效性,未來有機會通過修改設置以實現更多特定的任務。
對資料“下毒”技術的研究並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,更重要的是,只有深入研究相關的入侵或攻擊技術,才能有針對性地制定防範“AI駭客”的完善方案。
隨著AI演算法、AI系統在國計民生相關的領域逐漸得到普及與推廣,科研人員必須透徹地掌握AI安全攻防的前沿技術,並有針對性地為自動駕駛、AI輔助醫療、AI輔助投資等涉及生命安全、財富安全的領域研發最有效的防護手段。
▌還關注聯邦學習
除了安全問題之外,人工智慧應用的資料隱私問題,也是創新工場AI安全實驗室重點關注的議題之一。
近年來,隨著人工智慧技術的高速發展,社會各界對隱私保護及資料安全的需求加強,聯邦學習技術應運而生,並開始越來越多地受到學術界和工業界的關注。
具體而言,聯邦學習系統是一個分散式的具有多個參與者的機器學習框架,每一個聯邦學習的參與者不需要與其餘幾方共用自己的訓練資料,但仍然能利用其餘幾方參與者提供的資訊更好的訓練聯合模型。
換言之,各方可以在在不共用資料的情況下,共用資料產生的知識,達到共贏。
創新工場AI工程院也十分看好聯邦學習技術的巨大應用潛力。
今年3月,“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”論文的作者、創新工場南京國際人工智慧研究院執行院長馮霽代表創新工場當選為IEEE聯邦學習標準制定委員會副主席,著手推進制定AI協同及大資料安全領域首個國際標準。
創新工場也將成為聯邦學習這一技術“立法”的直接參與者。
▌創新工場AI工程院科研成績單
創新工場憑藉獨特的VC+AI(風險投資與AI研發相結合)的架構,致力於扮演前沿科研與AI商業化之間的橋樑角色。
創新工場2019年廣泛開展科研合作,與其他國際科研機構合作的論文,入選多項國際頂級會議,除上述介紹的“資料下毒”論文入選NeurlPS之外,還有8篇收錄至五大學術頂會,涉及影像處理、自動駕駛、自然語言處理、金融AI和區塊鏈等方向。
┃兩篇論文入選ICCV
Disentangling Propagation and Generation for Video Prediction
https://arxiv.org/abs/1812.00452
這篇論文的主要工作圍繞一個視頻預測的任務展開,即在一個視頻中,給定前幾幀的圖片預測接下來的一幀或多幀的圖片。
Joint Monocular 3D Vehicle Detection and Tracking
https://arxiv.org/abs/1811.10742
這篇論文提出了一種全新的線上三維車輛檢測與跟蹤的聯合框架,不僅能隨著時間關聯車輛的檢測結果,同時可以利用單目攝像機獲取的二維移動資訊估計三維的車輛資訊。
┃一篇論文入選IROS
Monocular Plan View Networks for Autonomous Driving
http://arxiv.org/abs/1905.06937
針對端到端的控制學習問題提出了一個對當前觀察的視角轉換,將其稱之為規劃視角,它把將當前的觀察視角轉化至一個鳥瞰視角。具體的,在自動駕駛的問題下,在第一人稱視角中檢測行人和車輛並將其投影至一個俯瞰視角。
┃三篇論文入選EMNLP
Multiplex Word Embeddings for Selectional Preference Acquisition
提出了一種multiplex詞向量模型。在該模型中,對於每個詞而言,其向量包含兩部分,主向量和關係向量,其中主向量代表總體語義,關係向量用於表達這個詞在不同關係上的特徵,每個詞的最終向量由這兩種向量融合得到。
What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues
https://assert.pub/papers/1909.00421
提出了一個新模型(VisCoref)及一個配套資料集(VisPro),用以研究如何將代詞指代與視覺資訊進行整合。
Reading Like HER: Human Reading Inspired Extractive Summarization
人類通過閱讀進行文本語義的摘要總結大體上可以分為兩個階段:1)通過粗略地閱讀獲取文本的概要資訊,2)進而進行細緻的閱讀選取關鍵句子形成摘要。
本文提出一種新的抽取式摘要方法來模擬以上兩個階段,該方法將文檔抽取式摘要形式化為一個帶有上下文的多臂老虎機問題,並採用策略梯度方法來求解。
┃一篇論文入選IEEE TVCG
sPortfolio: Stratified Visual Analysis of Stock Portfolios
https://www.ncbi.nlm.nih.gov/pubmed/31443006
主要是對於金融市場中的投資組合和多因數模型進行可視分析的研究。通過三個方面的分析任務來幫助投資者進行日常分析並升決策準確性。
並提出了一個全新的視覺化分析系統sPortfolio,它允許使用者根據持倉,因數和歷史策略來觀察投資組合的市場。sPortfolio提供了四個良好協調的視圖。
┃一篇論文入選NSDI
Monoxide: Scale Out Blockchain with Asynchronized Consensus Zones
https://www.usenix.org/system/files/nsdi19-wang-jiaping.pdf
提出了一種名為非同步共識組 Monoxide 的區塊鏈擴容方案,可以在由 4.8 萬個全球節點組成的測試環境中,實現比比特幣網路高出 1000 倍的每秒交易處理量,以及 2000 倍的狀態記憶體容量,有望打破“不可能三角”這個長期困擾區塊鏈性能的瓶頸。
▌獨特的“科研助推商業”思路
國內VC,發表論文都很少見,為什麼創新工場如此做?
這背後在於其“VC+AI”模式。
最獨特之處在于,創新工場的AI工程院可以通過廣泛的科研合作以及自身的科研團隊,密切跟蹤前沿科研領域裡最有可能轉變為未來商業價值的科研方向。
這種“科研助推商業”的思路力圖儘早發現有未來商業價值的學術研究,然後在保護各方智慧財產權和商業利益的前提下積極與相關科研方開展合作。
同時,由AI工程院的產品研發團隊嘗試該項技術在不同商業場景裡可能的產品方向、研發產品原型,並由商務拓展團隊推動產品在真實商業領域的落地測試,繼而可以為創新工場的風險投資團隊帶來早期識別、投資高價值賽道的寶貴機會。
“科研助推商業”並不是簡單地尋找有前景的科研專案,而是將技術跟蹤、人才跟蹤、實驗室合作、智慧財產權合作、技術轉化、原型產品快速反覆運算、商務拓展、財務投資等多維度的工作整合在一個統一的資源體系內,用市場價值為導向,有計劃地銜接學術科研與商業實踐。
以AI為代表的高新技術目前正進入商業落地優先的深入發展期,產業大環境亟需前沿科研技術與實際商業場景的有機結合。
創新工場憑藉在風險投資領域積累的豐富經驗,以及在創辦AI工程院的過程中積累的技術人才優勢,特別適合扮演科研與商業化之間的橋樑角色。
於是,創新工場AI工程院也就順勢而生。
創新工場人工智慧工程院成立於2016年9月,以“科研+工程實驗室”模式,規劃研發方向,組建研發團隊。
目前已經設有醫療AI、機器人、機器學習理論、計算金融、電腦感知等面向前沿科技與應用方向的研發實驗室,還先後設立了創新工場南京國際人工智慧研究院、創新工場大灣區人工智慧研究院。
目標是培養人工智慧高端科研與工程人才,研發以機器學習為核心的前沿人工智慧技術,並同各行業領域相結合,為行業場景提供一流的產品和解決方案。
而且, 創新工場還與國內外著名的科研機構廣泛開展科研合作。
例如,今年3月20日,香港科技大學和創新工場宣佈成立電腦感知與智慧控制聯合實驗室(Computer Perception and Intelligent Control Lab)。
此外,創新工場也積極參與了國際相關的技術標準制定工作。例如,今年8月,第28屆國際人工智慧聯合會議(IJCAI)在中國澳門隆重舉辦,期間召開了IEEE P3652.1(聯邦學習基礎架構與應用)標準工作組第三次會議。
IEEE聯邦學習標準由微眾銀行發起,創新工場等數十家國際和國內科技公司參與,是國際上首個針對人工智慧協同技術框架訂立標準的專案。
創新工場表示,自身的科研團隊將深度參與到聯邦學習標準的制定過程中,希望為AI技術在真實場景下的安全性、可用性以及保護資料安全、保護使用者隱私貢獻自己的力量。
點陣圖向量圖差異 在 【設計知識】圖檔格式大揭密,一次搞懂向量圖和點陣圖最大差異 ... 的美食出口停車場
【設計知識】圖檔格式大揭密,一次搞懂向量圖和點陣圖最大差異。 你的專案需要向量圖或點陣圖嗎?此篇圖檔格式揭密將深入探討向量圖檔格式的功能及其與點陣圖檔的差異 ... ... <看更多>