創新工場“AI蒙汗藥”入選NeurIPS 2019,3年VC+AI佈局進入科研收穫季
本文來自量子位微信公眾號
……………………………………………………………………
NeurIPS 2019放榜,創新工場AI工程院論文在列。
名為“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”。
一作是創新工場南京國際AI研究院執行院長馮霽,二作是創新工場南京國際人工智慧研究院研究員蔡其志,南京大學AI大牛周志華教授也在作者列。
論文提出了一種高效生成對抗訓練樣本的方法DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到“資料下毒”的目的。
創新工場介紹稱,這一研究就並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,還能協助針對性地制定防範“AI駭客”的完善方案,推動AI安全攻防領域的發展。
NeurIPS,全稱神經資訊處理系統大會(Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有32年的歷史,一直以來備受學術界和產業界的高度關注,是AI學術領域的“華山論劍”。
作為AI領域頂會,NeurIPS也是最火爆的那個,去年會議門票在數分鐘內被搶光,而且在論文的投稿錄取上,競爭同樣激烈。
今年,NeurIPS會議的論文投稿量再創新高,共收到6743篇投稿,最終錄取1428篇論文,錄取率為21.2%。
▌“資料下毒”論文入選頂會NeurIPS
那這次創新工場AI工程院這篇入選論文,核心議題是什麼?
我們先拆解說說。
近年來,機器學習熱度不斷攀升,並逐漸在不同應用領域解決各式各樣的問題。不過,卻很少有人意識到,其實機器學習本身也很容易受到攻擊,模型並非想像中堅不可摧。
例如,在訓練(學習階段)或是預測(推理階段)這兩個過程中,機器學習模型就都有可能被對手攻擊,而攻擊的手段也是多種多樣。
創新工場AI工程院為此專門成立了AI安全實驗室,針對人工智慧系統的安全性進行了深入對評估和研究。
在被NeurIPS收錄的論文中,核心貢獻就是提出了高效生成對抗訓練資料的最先進方法之一——DeepConfuse。
▌給數據下毒
通過劫持神經網路的訓練過程,教會雜訊生成器為訓練樣本添加一個有界的擾動,使得該訓練樣本訓練得到的機器學習模型在面對測試樣本時的泛化能力盡可能地差,非常巧妙地實現了“資料下毒”。
顧名思義,“資料下毒”即讓訓練資料“中毒”,具體的攻擊策略是通過干擾模型的訓練過程,對其完整性造成影響,進而讓模型的後續預測過程出現偏差。
“資料下毒”與常見的“對抗樣本攻擊”是不同的攻擊手段,存在於不同的威脅場景:前者通過修改訓練資料讓模型“中毒”,後者通過修改待測試的樣本讓模型“受騙”。
舉例來說,假如一家從事機器人視覺技術開發的公司希望訓練機器人識別現實場景中的器物、人員、車輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓練資料。
研發人員在目視檢查訓練資料時,通常不會感知到異常(因為使資料“中毒”的噪音資料在圖像層面很難被肉眼識別),訓練過程也一如既往地順利。
但這時訓練出來的深度學習模型在泛化能力上會大幅退化,用這樣的模型驅動的機器人在真實場景中會徹底“懵圈”,陷入什麼也認不出的尷尬境地。
更有甚者,攻擊者還可以精心調整“下毒”時所用的噪音資料,使得訓練出來的機器人視覺模型“故意認錯”某些東西,比如將障礙認成是通路,或將危險場景標記成安全場景等。
為了達成這一目的,這篇論文設計了一種可以生成對抗雜訊的自編碼器神經網路DeepConfuse。
通過觀察一個假想分類器的訓練過程更新自己的權重,產生“有毒性”的雜訊,從而為“受害的”分類器帶來最低下的泛化效率,而這個過程可以被歸結為一個具有非線性等式約束的非凸優化問題。
▌下毒無痕,毒性不小
從實驗資料可以發現,在MNIST、CIFAR-10以及縮減版的IMAGENET這些不同資料集上,使用“未被下毒”的訓練資料集和“中毒”的訓練資料集所訓練的系統模型在分類精度上存在較大的差異,效果非常可觀。
與此同時,從實驗結果來看,該方法生成的對抗雜訊具有通用性,即便是在隨機森林和支援向量機這些非神經網路上也有較好表現。
其中,藍色為使用“未被下毒”的訓練資料訓練出的模型在泛化能力上的測試表現,橙色為使用“中毒”訓練資料訓練出的模型的在泛化能力上的測試表現。
在CIFAR和IMAGENET資料集上的表現也具有相似效果,證明該方法所產生的對抗訓練樣本在不同的網路結構上具有很高的遷移能力。
此外,論文中提出的方法還能有效擴展至針對特定標籤的情形下,即攻擊者希望通過一些預先指定的規則使模型分類錯誤,例如將“貓”錯誤分類成“狗”,讓模型按照攻擊者計畫,定向發生錯誤。
例如,下圖為MINIST資料集上,不同場景下測試集上混淆矩陣的表現,分別為乾淨訓練資料集、無特定標籤的訓練資料集、以及有特定標籤的訓練資料集。
實驗結果有力證明,為有特定標籤的訓練資料集做相應設置的有效性,未來有機會通過修改設置以實現更多特定的任務。
對資料“下毒”技術的研究並不單單是為了揭示類似的AI入侵或攻擊技術對系統安全的威脅,更重要的是,只有深入研究相關的入侵或攻擊技術,才能有針對性地制定防範“AI駭客”的完善方案。
隨著AI演算法、AI系統在國計民生相關的領域逐漸得到普及與推廣,科研人員必須透徹地掌握AI安全攻防的前沿技術,並有針對性地為自動駕駛、AI輔助醫療、AI輔助投資等涉及生命安全、財富安全的領域研發最有效的防護手段。
▌還關注聯邦學習
除了安全問題之外,人工智慧應用的資料隱私問題,也是創新工場AI安全實驗室重點關注的議題之一。
近年來,隨著人工智慧技術的高速發展,社會各界對隱私保護及資料安全的需求加強,聯邦學習技術應運而生,並開始越來越多地受到學術界和工業界的關注。
具體而言,聯邦學習系統是一個分散式的具有多個參與者的機器學習框架,每一個聯邦學習的參與者不需要與其餘幾方共用自己的訓練資料,但仍然能利用其餘幾方參與者提供的資訊更好的訓練聯合模型。
換言之,各方可以在在不共用資料的情況下,共用資料產生的知識,達到共贏。
創新工場AI工程院也十分看好聯邦學習技術的巨大應用潛力。
今年3月,“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”論文的作者、創新工場南京國際人工智慧研究院執行院長馮霽代表創新工場當選為IEEE聯邦學習標準制定委員會副主席,著手推進制定AI協同及大資料安全領域首個國際標準。
創新工場也將成為聯邦學習這一技術“立法”的直接參與者。
▌創新工場AI工程院科研成績單
創新工場憑藉獨特的VC+AI(風險投資與AI研發相結合)的架構,致力於扮演前沿科研與AI商業化之間的橋樑角色。
創新工場2019年廣泛開展科研合作,與其他國際科研機構合作的論文,入選多項國際頂級會議,除上述介紹的“資料下毒”論文入選NeurlPS之外,還有8篇收錄至五大學術頂會,涉及影像處理、自動駕駛、自然語言處理、金融AI和區塊鏈等方向。
┃兩篇論文入選ICCV
Disentangling Propagation and Generation for Video Prediction
https://arxiv.org/abs/1812.00452
這篇論文的主要工作圍繞一個視頻預測的任務展開,即在一個視頻中,給定前幾幀的圖片預測接下來的一幀或多幀的圖片。
Joint Monocular 3D Vehicle Detection and Tracking
https://arxiv.org/abs/1811.10742
這篇論文提出了一種全新的線上三維車輛檢測與跟蹤的聯合框架,不僅能隨著時間關聯車輛的檢測結果,同時可以利用單目攝像機獲取的二維移動資訊估計三維的車輛資訊。
┃一篇論文入選IROS
Monocular Plan View Networks for Autonomous Driving
http://arxiv.org/abs/1905.06937
針對端到端的控制學習問題提出了一個對當前觀察的視角轉換,將其稱之為規劃視角,它把將當前的觀察視角轉化至一個鳥瞰視角。具體的,在自動駕駛的問題下,在第一人稱視角中檢測行人和車輛並將其投影至一個俯瞰視角。
┃三篇論文入選EMNLP
Multiplex Word Embeddings for Selectional Preference Acquisition
提出了一種multiplex詞向量模型。在該模型中,對於每個詞而言,其向量包含兩部分,主向量和關係向量,其中主向量代表總體語義,關係向量用於表達這個詞在不同關係上的特徵,每個詞的最終向量由這兩種向量融合得到。
What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues
https://assert.pub/papers/1909.00421
提出了一個新模型(VisCoref)及一個配套資料集(VisPro),用以研究如何將代詞指代與視覺資訊進行整合。
Reading Like HER: Human Reading Inspired Extractive Summarization
人類通過閱讀進行文本語義的摘要總結大體上可以分為兩個階段:1)通過粗略地閱讀獲取文本的概要資訊,2)進而進行細緻的閱讀選取關鍵句子形成摘要。
本文提出一種新的抽取式摘要方法來模擬以上兩個階段,該方法將文檔抽取式摘要形式化為一個帶有上下文的多臂老虎機問題,並採用策略梯度方法來求解。
┃一篇論文入選IEEE TVCG
sPortfolio: Stratified Visual Analysis of Stock Portfolios
https://www.ncbi.nlm.nih.gov/pubmed/31443006
主要是對於金融市場中的投資組合和多因數模型進行可視分析的研究。通過三個方面的分析任務來幫助投資者進行日常分析並升決策準確性。
並提出了一個全新的視覺化分析系統sPortfolio,它允許使用者根據持倉,因數和歷史策略來觀察投資組合的市場。sPortfolio提供了四個良好協調的視圖。
┃一篇論文入選NSDI
Monoxide: Scale Out Blockchain with Asynchronized Consensus Zones
https://www.usenix.org/system/files/nsdi19-wang-jiaping.pdf
提出了一種名為非同步共識組 Monoxide 的區塊鏈擴容方案,可以在由 4.8 萬個全球節點組成的測試環境中,實現比比特幣網路高出 1000 倍的每秒交易處理量,以及 2000 倍的狀態記憶體容量,有望打破“不可能三角”這個長期困擾區塊鏈性能的瓶頸。
▌獨特的“科研助推商業”思路
國內VC,發表論文都很少見,為什麼創新工場如此做?
這背後在於其“VC+AI”模式。
最獨特之處在于,創新工場的AI工程院可以通過廣泛的科研合作以及自身的科研團隊,密切跟蹤前沿科研領域裡最有可能轉變為未來商業價值的科研方向。
這種“科研助推商業”的思路力圖儘早發現有未來商業價值的學術研究,然後在保護各方智慧財產權和商業利益的前提下積極與相關科研方開展合作。
同時,由AI工程院的產品研發團隊嘗試該項技術在不同商業場景裡可能的產品方向、研發產品原型,並由商務拓展團隊推動產品在真實商業領域的落地測試,繼而可以為創新工場的風險投資團隊帶來早期識別、投資高價值賽道的寶貴機會。
“科研助推商業”並不是簡單地尋找有前景的科研專案,而是將技術跟蹤、人才跟蹤、實驗室合作、智慧財產權合作、技術轉化、原型產品快速反覆運算、商務拓展、財務投資等多維度的工作整合在一個統一的資源體系內,用市場價值為導向,有計劃地銜接學術科研與商業實踐。
以AI為代表的高新技術目前正進入商業落地優先的深入發展期,產業大環境亟需前沿科研技術與實際商業場景的有機結合。
創新工場憑藉在風險投資領域積累的豐富經驗,以及在創辦AI工程院的過程中積累的技術人才優勢,特別適合扮演科研與商業化之間的橋樑角色。
於是,創新工場AI工程院也就順勢而生。
創新工場人工智慧工程院成立於2016年9月,以“科研+工程實驗室”模式,規劃研發方向,組建研發團隊。
目前已經設有醫療AI、機器人、機器學習理論、計算金融、電腦感知等面向前沿科技與應用方向的研發實驗室,還先後設立了創新工場南京國際人工智慧研究院、創新工場大灣區人工智慧研究院。
目標是培養人工智慧高端科研與工程人才,研發以機器學習為核心的前沿人工智慧技術,並同各行業領域相結合,為行業場景提供一流的產品和解決方案。
而且, 創新工場還與國內外著名的科研機構廣泛開展科研合作。
例如,今年3月20日,香港科技大學和創新工場宣佈成立電腦感知與智慧控制聯合實驗室(Computer Perception and Intelligent Control Lab)。
此外,創新工場也積極參與了國際相關的技術標準制定工作。例如,今年8月,第28屆國際人工智慧聯合會議(IJCAI)在中國澳門隆重舉辦,期間召開了IEEE P3652.1(聯邦學習基礎架構與應用)標準工作組第三次會議。
IEEE聯邦學習標準由微眾銀行發起,創新工場等數十家國際和國內科技公司參與,是國際上首個針對人工智慧協同技術框架訂立標準的專案。
創新工場表示,自身的科研團隊將深度參與到聯邦學習標準的制定過程中,希望為AI技術在真實場景下的安全性、可用性以及保護資料安全、保護使用者隱私貢獻自己的力量。
imagenet介紹 在 Terry&Friends程天縱與朋友們 Facebook 的最讚貼文
兩年前的文章,謝謝吳俊毅找出來分享。
我的大兒子是UCLA CSE (加州大學洛杉磯分校計算機科學與工程系)畢業的博士,他專注在移動應用軟體的開發。畢業後,他並沒有走入學術領域當教授,反而選擇進入企業,走軟體開發的技術路線。
他告訴我,在學校的教授每年都忙著寫論文,發表在專業雜誌或論壇上。如果沒有辦法找到大企業合作,通常教授的論文就會偏向理論,在發表過後,就永遠歸檔留存,無法商品化。
只有跟大企業合作,才能夠得到許多真實的案例和大數據,才能夠驗證教授論文中的理論和模型。但是和大企業合作,談何容易?由於牽涉到商業機密,如果不是很知名的教授,通常都找不到願意合作的大企業。
與其留在學校當教授,得不到企業的合作,每年寫一些理論性的論文發表,我大兒子選擇進入企業,接觸真實的商業領域,開發可以應用和使用的產品。
我的三兒子今年暑假從 UCSD CSE(加州大學聖地牙哥分校的計算機科學與工程系)畢業,八月下旬他就進入 USC(南加大)攻讀碩博士,他專注在 AI 人工智慧領域的類神經網路模型與算法。
他跟我分享人工智慧過去70年的發展,曾經三起兩落。最早在上個世紀50年代,就出現人工智慧這個名詞。經過一陣子熱潮以後,由於技術出現瓶頸,無法突破,因此逐漸衰退。
80年代透過「專家系統」的程序和「知識處理」的應用,「機器學習」(Machine Learning)成了熱門話題,人工智慧迎來了第二次流行。經過一陣子熱潮以後,由於做不到業界預期的應用,又逐漸冷卻了。
第三波熱潮開始於2006年,Hinton教授找到了解方,提出限制玻爾茲曼機(RBM)模型成功訓練多層神經網路,重新命名為「深度學習」(Deep Learning),人工智慧的應用出現了一線曙光。
真正的爆發點是在2012年10月,Hinton教授的兩個學生參加了全世界最大的圖像識別資料庫 ImegeNet 的比賽,以深度學習的算法加上GPU圖形處理器的運算速度,一舉拿下第一名。
其實從 2007 年 ImageNet 比賽創辦以來,每年的比賽結果、每家都差不多,錯誤率大致落在 30%、29%、28%... 瓶頸一直無法突破。結果這兩位學生以 16.42% 的錯誤率遠勝第二名的 26.22%。
從此爆發深度學習熱潮。先是 Google 在 2013 年收購了 Hinton 和他的兩位學生的公司,接下來一堆企業爭相投入深度學習的研究領域。後來,2015 年的冠軍 Microsoft ,以 3.5% 的錯誤率贏得冠軍,超越⼈類的 5%錯誤率,發展快速,一日千里。
2016年3月,AlphaGo擊敗李世乭,成為第一個不讓子而擊敗職業圍棋棋士的電腦圍棋程式。2017年5月,AlphaGo在中國烏鎮圍棋峰會的三局比賽中擊敗當時世界排名第一的中國棋手柯潔。
我的三兒子說,人工智慧能夠發展到今天的這個結果,主要的就是靠大量的「伺服器運算」和大量的「數據學習」。
我以上所說的大兒子和三兒子的例子,主要的目的就是指出大數據的重要性。而擁有各種大數據的機構,不外乎政府和大企業。
在未來互聯網和人工智慧爆發的時代𥚃,大企業擁有大量的伺服器和大數據,跟新創企業比起來,大企業擁有絕對的競爭優勢。
可是回顧歷史,在高科技領域的競爭中,反而是許多新創企業打敗了跨國大企業。為什麼呢?除了創業家和專業經理人的不同心態以外,我認為最主要的原因就是大企業不會創新。
大企業空擁有大量的數據和各種競爭優勢,但是大部分的專業經理人卻不懂得怎麼樣利用這些數據,產生策略和行動。
在上一篇文章當中,我提到過,80年代中期,我在惠普台灣分公司,負責電子測試儀器和電腦系統的銷售部門,主要市場就是台灣的電子產業。
在成立我的這個部門之前,測試儀器和電腦產品是隸屬於兩個不同的產品線業務團隊。雖然台灣的電子企業是共同的目標客戶,但是這兩個不同產品線的業務團隊,彼此很少交流合作。
我的這個部門在當時也是一個創舉,是第一次把兩個產品線放在一個部門裡。部門剛成立時,我首先到這兩個不同產品線的客戶資料庫裡面去做了一些統計分析。
當我將所有的測試儀器客戶和電腦產品的客戶列表出來以後,發現只有30%的客戶是兩種產品都有採購的。也就是說,有70%的現有客戶,我們可以推銷另外一種產品。
在軍事上來講,現有客戶就是我們已經佔據的山頭,如果競爭對手要取代我們,就是要攻山頭。攻山頭和守山頭的兵力,至少10比1才能打成平手。
例如我們的測試儀器現有客戶,或許使用競爭對手的電腦系統,但是我們和競爭對手都在一個山頭上了,比起重新攻打一個新山頭,要容易得多。
因此,我就把大部分資源集中在這70%的客戶上面,訂出目標,列出行動計劃,努力把這些現有客戶攻克。
一年以後,我們把同時向惠普購買測試儀器和電腦的客戶比率,從30%提高到80%。再加上我們還有新開發的客戶,當年的業績達成率遠遠超過我們年初所訂的目標。
另外,我在客戶資料庫裡又做了一些統計分析。我把過去三年買過惠普產品(包含配件、耗材、軟硬體維修合同)的客戶,定義為「現有客戶」(Installed Base Customers)。然後把過去一年曾經買過惠普產品的客戶,定義為「活躍客戶」(Active Customers)。
結果我發現,「活躍客戶」只佔了「現有客戶」的40%左右。所以我把這60%,在過去一年沒有跟惠普有過任何交易的客戶,叫做「冬眠客戶」(Dormant Customers)。
很簡單的數學公式:活躍客戶數+冬眠客戶數=現有客戶數。
這些冬眠客戶到底發生了什麼事?過去三年曾經是我們的現有客戶,可是卻在過去12個月當中,沒有跟公司發生任何採購交易紀錄?這些就是所謂 Low Hanging Fruits,應該是垂手可得的產品銷售對象。
80年代中期,還沒有互聯網和手機等等的通訊工具。我唯一可以使用的就是電子郵件和電話。
於是我組識了一個小小的電話行銷(Telemarketing)團隊,主動打電話給這些冬眠客戶,一方面更新我們的客戶資料庫,一方面介紹、推銷我們的新產品。這個計劃就叫做「叫醒」(Wake Up Call)。
除了極少數已經停止營業的小客戶之外,我們發現,有一些現有客戶已經轉投競爭者的陣營,也就是說,我們攻下的山頭並沒有好好守住,反而讓競爭對手攻佔了。
其餘大部分的現有客戶,都是由於我們沒有主動去好好照顧,也不了解到底我們有些什麼新產品,也不知道應該採購一些零配件或消耗品,因此在過去一兩年都沒有提出採購的需求。
經過我們一個一個的「叫醒」以後,我們得到了很大的收穫,重新連結客戶關係、更新了客戶資料庫、提高了客戶滿意度、取得了許多新的訂單。小投入得到大成果,關鍵就在於我們懂得利用數據做分析,然後採取行動。
回顧過去的經驗和歷史,我也重新學習,並且和各位朋友分享我的總結。
1)在中大型企業上班的朋友們,公司裡一定有許許多多的資料庫和大數據,各位可以發揮各種創新和創意,加以統計分析,或是找到新的「市場區隔」,或是找到新的「行銷策略」,都會得到意想不到的收穫。
2)對於新創企業,或許可以嘗試和政府、大企業合作,取得他們的大數據,加上創業者的創新生意模式和產品技術,增加創業成功的機會。
3)前一陣子,在網路上有許多爭論,對於台灣是否適合在人工智慧領域創業和投資,有不同的看法。我認為,人工智慧的領域非常廣泛,台灣一定有機會的。
最重要的關鍵是,擁有大數據的機構未必能夠創新,而想要創新創業的年輕人,又未必能夠接觸到這些大數據。
因此,擁有大數據的政府機構和大企業,應該把資源開放出來,鼓勵年輕人利用這些大數據來創新創業。
政府除了開放所擁有的大數據資源給新創者之外,還可以訂定一些優惠政策,鼓勵大企業將其擁有的大數據資源,開放出來給新創團隊。而大企業也可以透過合作、投資,達到輔導新創,建立雙贏的結果。
imagenet介紹 在 工研院產業學院 Facebook 的最讚貼文
🔥(熱烈招生中,歡迎企業包班)
【政府補助50%】基於電腦視覺之物體偵測與辨識
本課程首先將介紹傳統的特徵式物體辨識系統,並以車道線偵測為例,接著我們將引入特徵(Feature)+分類器(Classifier)之機械學習技巧,並運用到汽車之偵測。從2010年開始,Imagenet大規模視覺辨識競賽( Imagenet Large Scale Visual Recognition Competition, ILSVRC )以前所未有的資料量(>1 million)帶起了深度學習(Deep Learning)的熱潮,從2012年開始,各種不同的CNN(Convolutional Neural Network),如Alexnet, GoogLenet, VGG,Residual Network等分類器因此比賽不斷的被發明,而運用CNN之物體偵測與辨識亦從不可端對端(end-to-end)學習的R-CNN, Fast R-CNN, Faster R-CNN一路進化到真正實現端對端學習的YOLO(You Only Look Once)與SSD( Single Shot Multibox Detector),而這樣的單一CNN即可同時偵測多類(行人、腳踏車、汽車、機車、巴士等)物體。
課程網址:https://college.itri.org.tw/…/A4EA3591-12F0-4994-90E4-8D9D7…
imagenet介紹 在 Wolfram 神經網路資料庫新例介紹~ 使用DenseNet-121 訓練的... 的美食出口停車場
Wolfram 神經網路資料庫新例介紹~ 使用DenseNet-121 訓練的ImageNet 來看圖像特徵https://wolfr.am/WCLDL2An #neuralnet. ... <看更多>