四兩撥千斤! 創新工場首席科學家AI大牛周明博士率瀾舟團隊刷新CLUE新紀錄,輕量化模型孟子一鳴驚人!
本週,中文語言理解權威評測基準CLUE榜單,被「低調」刷新。
不同的是,不是大公司、不是超大模型……
一個新面孔,一個輕量化模型,首戰即登頂,四兩撥千斤。
CLUE榜單近年來由巨頭——騰訊、搜狗、華為、阿里達摩院輪番霸榜的格局,被首次打破。
瀾舟科技-創新工場推出的孟子模型,以十億參數完成了此前百億、千億參數模型刷新的紀錄。
這也是瀾舟科技首次對外曝光,背後團隊負責人,正是創新工場首席科學家、全球AI大牛周明博士。以下文章解釋了這個模型的原理,文章來自《量子位》微信公眾號,經授權轉載。
▎輕量化模型孟子?
孟子,基於瀾舟團隊自研技術研發的大規模預訓練語言模型。
包括創新工場、上海交通大學、北京理工大學等單位參與聯合研發。
可處理多語言、多模態數據,同時支持多種文本理解和文本生成任務,能快速滿足不同領域、不同應用場景的需求。
孟子模型基於Transformer架構,僅包含十億參數量,基於數百G級別涵蓋互聯網網頁、社區、新聞、電子商務、金融等領域的高質量語料訓練。
但誰也沒想到,小模型卻有大智慧,一經登場,打破格局。
CLUE,中文語言理解領域最具權威性的測評基準,涵蓋文本相似度、分類、自然語言推理、閱讀理解等共10項語義分析和理解類子任務。
該榜單競爭激烈,幾乎是業內所有自然語言理解玩家必爭之地。
騰訊、搜狗、華為、阿里達摩院等更是輪番霸榜刷新紀錄。
而且隨著大參數模型愈演愈烈,CLUE還漸有巨頭壟斷之勢。
因為百億、千億甚至萬億參數的大模型,已然不再是創業或其他玩家可與之爭鋒。
萬萬沒想到,瀾舟科技-創新工場團隊出手,四兩撥千斤。
因為孟子,走的是基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。
孟子預訓練模型性能比肩甚至超越千億大模型,在包含文本分類、閱讀理解等各類任務上表現出色。
相對已有的中文語言模型,孟子模型實現了多項突破性進展:
1) 堅持「小而精」的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的性能。作為精巧的小模型,對標「巨無霸」,小模型性能超越千億規模模型。
2)使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威CLUE中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,刷新三項榜單世界紀錄。總排行榜分數突破84分,逼近人類基準分數(85.61)。
3)靈活的領域和場景適應能力,方便快速定制和應用。基於T5-style的端到端生成的訓練範式,同步適配BERT-style的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。
當然,隨著孟子一鳴驚人,也必然能讓輕量化模型研究來到聚光燈下。
▎原理方法和應用?
在輕量化模型算法研究方面,基於自研的基於語言學知識、知識圖譜和領域數據增強等技術,從模型架構(包括基礎層Embedding表示和交互層Attention機制)到預訓練策略進行了全方位改進。
具體有四方面:
1) 模型結構方面,將語義角色、詞性標註等語言學特徵融合到Embedding表示中,基於句法約束引入註意力機制中,從而提升模型對語言學知識的建模能力。
2) 訓練策略上,引入基於實體知識和Discourse的Mask機制,強化模型對語言成分和語篇關係的表徵。
3) 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。
4) 為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域數據繼續訓練並構造相應的提示模版(Prompt),取得了明顯的性能提升。
基於以上算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義信息能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。
另外,在Finetune的進展方面,如何將預訓練模型用於各項任務?
瀾舟團隊也有總結,從數據增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的性能:
1) 數據增強:使用領域相關數據;
2) 知識蒸餾:基於Teacher-Student自蒸餾提升訓練效率;
3) 遷移訓練:結合課程學習的思想,由易到難訓練下游模型;
4) 訓練優化:使用多種訓練目標,多角度提升模型能力;
而且孟子還已經展開了垂直化領域應用。
基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:
1) 通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。
2) 通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。
瀾舟方面還透露,孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文本生成、行業搜索、機器翻譯等諸多領域。
並且毫無疑問的是,因為輕量級模型具有的模型參數較少、快速推斷的特點,更易於線上部署和推廣到移動設備中,自然不會局限於現有應用和場景,接下來還會有更廣泛的研究和應用場景中。
▎瀾舟團隊?
最後,也簡單介紹本次一鳴驚人的新面孔瀾舟科技。
瀾舟科技是創新工場孵化的一家認知智能公司。公司創始人——周明博士。
AI領域內,周明已不用過多介紹,他是公認的世界級AI科學家,自然語言處理領域的代表性人物。
周明博士在2020年加盟創新工場,擔任創新工場首席科學家。
而瀾舟科技則針對商業場景的數字化轉型,基於大數據、知識圖譜和行業模型,提供新一代的信息檢索、知識推理和商業洞見技術和相關產品。
據稱目前已與國內外幾十所著名高校和十餘個相關領域的頭部企業建立了穩定的合作關係。
值得注意的是,瀾舟科技除了大牛坐鎮,其實也是行業趨勢的體現。
引用創新工場董事長兼CEO李開復最新分享來說:
AI的發展可以按照兩個時間點劃分。
第一個時間點是2015年,以CNN為核心的計算機視覺技術讓機器超越了人類,帶來了人臉識別、智能質檢、無人零售、智慧城市、無人駕駛等商機。
而第二個時間點出現在2019年,以大模型為代表的自然語言方向取得突破性進展,讓NLP從數據、信息走向知識和洞見成為可能,將會在翻譯、語音識別、法律、金融、新聞、廣告、醫療、娛樂等大賽道帶來機遇。
「如果說CNN造就了今天計算機視覺領域的突破和眾多應用,預訓練大模型+微調也將帶來自然語言的百花齊放的發展,用數據智能驅動各類業務的升級。瀾舟科技在周明老師的帶領下取得了今天的成果,在新機遇面前躬身入局,一起發掘NLP領域的黃金發展期」,李開復說到。
embedding介紹 在 經濟部中小企業處 Facebook 的最佳貼文
【科技加油站】第一手評測循環經濟開箱文來了📦📦📦
小編半夜不小心手滑
將循環經濟主題網站(The Circular Economy Club)
加入⭐我的最愛⭐中了,
國際上無人不知無人不曉介紹循環經濟概念、
提供認證考核還有相關資訊技術的網站,
就請大家一起跟小編開箱逛逛吧
👉👉https://www.circulareconomyclub.com/
P.s 開箱之前請服用微量翻譯豆沙包
【長知識】ABOUT:原來循環經濟就是垃圾變黃金💰💰💰
【解成就】CERTIFICATE:我也要成為循環經濟大師💪💪,參與並通過免費考試
【湊熱鬧】EVENT:🌍地球🌎繞一圈,台灣🇹🇼也有說國語的循環經濟論壇活動喔,走過路過不要錯過。
【跪求老司機】RESOURCE:想聽想認識循環經濟的博主、twitter、應用工具,往這鑽準沒錯。
The Circular Economy Club (CEC) is the international network of over 4,500 circular economy professionals and organizations from over 140 countries. Non-for-profit, global and open to anyone to join the club for free.
The goals by 2022 are:
1.Bringing together local actors to create circular economy strategies in 200 cities.
2.Embedding the circular economy in 200 university curriculums.
3.Supporting 200 startups and companies to implement circular practices, through mentoring, funding and communications.
Those goals are achieved by the CEC online platform and three main programs:
1.CEC Organizers program - for circular leaders to bring the circular economy to live in their cities, universities, hubs and companies;
2.CEC Mentors program - for members with expert skills to give free advice to the most promising circular talent; and
3.CEC Global events - for members to work collaboratively to solve local and global challenges.
#Someone's Trash is Someone's Treasure.
#TheCircularEconomyClub
#循環經濟
embedding介紹 在 辣媽英文天后 林俐 Carol Facebook 的最佳貼文
感謝東吳巨量資料學院的胡學長,貢獻了大數據英文用語的part 2囉!
這次胡學長focus在「機器學習篇」,以及介紹三個因為機器學習出現而發展非常快速的領域,分別是「文字」、「影像」和「音訊」。
大家不用覺得機器學習離我們很遙遠,像是youtube的推薦系統、google翻譯以及siri的背後通通都是使用機器學習的演算法哦!而且其實概念並不難,有興趣的孩子可以多探究!
——————————————————
🤖 胡哥+俐媽英文教室—機器學習篇 machine learning:
1️⃣ <機器學習四大類別>
* supervised learning 監督式學習
* semi-supervised learning 半監督式學習
* unsupervised learning 非監督式學習
* reinforcement learning 強化學習
2️⃣ <常見用語>
* cluster 分群
* classification 分類
* regression 迴歸
* model 模型
* parameter 參數
* predict 預測
* accuracy 準確率
* overfitting 過度擬合
* feature 特徵欄位
* label 目標欄位
* training data 訓練資料
* testing data 測試資料
* validation data 驗證資料
* standardization 資料標準化
* feature extraction 特徵提取
* dimension reduction 資料降維
3️⃣ <文字分析>
* text mining 文字探勘
* natural language process 自然語言處理
* text categorization 文本分類
* information retrieval 資訊檢索
* word segmentation 自動分詞
* machine translation 機器翻譯
* topic modeling 主題式分析
* sentiment analysis 文字情緒分析
* part of speech 文字詞性分析
* word embedding 詞向量轉換
4️⃣ <影像辨識>
* computer vision 電腦視覺
* image recognition 影像辨識
* image segmentation 影像切割
* image annotation 影像標注
* object detection 物件偵測
* face detection 人臉辨識
5️⃣ <音訊辨識>
* speech recognition 語音辨識
* signal extraction 訊號處理
* noise reduction 雜訊處理
* acoustic model 聲學模型
* time domain 時域
* frequency domain 頻域
* Fourier transform 傅立葉轉換
—————————————————
真是隔行如隔山,有你們提供其他專業領域英文,大家都彼此受惠!
感謝胡哥🙏🏼~
.
#俐媽英文教室 #俐媽英文教室徵稿中 #俐媽英文教室大數據篇 #謝謝胡哥 #東吳巨量資料學院 #大數據 #bigdata #AI #machinelearning