四兩撥千斤! 創新工場首席科學家AI大牛周明博士率瀾舟團隊刷新CLUE新紀錄,輕量化模型孟子一鳴驚人!
本週,中文語言理解權威評測基準CLUE榜單,被「低調」刷新。
不同的是,不是大公司、不是超大模型……
一個新面孔,一個輕量化模型,首戰即登頂,四兩撥千斤。
CLUE榜單近年來由巨頭——騰訊、搜狗、華為、阿里達摩院輪番霸榜的格局,被首次打破。
瀾舟科技-創新工場推出的孟子模型,以十億參數完成了此前百億、千億參數模型刷新的紀錄。
這也是瀾舟科技首次對外曝光,背後團隊負責人,正是創新工場首席科學家、全球AI大牛周明博士。以下文章解釋了這個模型的原理,文章來自《量子位》微信公眾號,經授權轉載。
▎輕量化模型孟子?
孟子,基於瀾舟團隊自研技術研發的大規模預訓練語言模型。
包括創新工場、上海交通大學、北京理工大學等單位參與聯合研發。
可處理多語言、多模態數據,同時支持多種文本理解和文本生成任務,能快速滿足不同領域、不同應用場景的需求。
孟子模型基於Transformer架構,僅包含十億參數量,基於數百G級別涵蓋互聯網網頁、社區、新聞、電子商務、金融等領域的高質量語料訓練。
但誰也沒想到,小模型卻有大智慧,一經登場,打破格局。
CLUE,中文語言理解領域最具權威性的測評基準,涵蓋文本相似度、分類、自然語言推理、閱讀理解等共10項語義分析和理解類子任務。
該榜單競爭激烈,幾乎是業內所有自然語言理解玩家必爭之地。
騰訊、搜狗、華為、阿里達摩院等更是輪番霸榜刷新紀錄。
而且隨著大參數模型愈演愈烈,CLUE還漸有巨頭壟斷之勢。
因為百億、千億甚至萬億參數的大模型,已然不再是創業或其他玩家可與之爭鋒。
萬萬沒想到,瀾舟科技-創新工場團隊出手,四兩撥千斤。
因為孟子,走的是基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。
孟子預訓練模型性能比肩甚至超越千億大模型,在包含文本分類、閱讀理解等各類任務上表現出色。
相對已有的中文語言模型,孟子模型實現了多項突破性進展:
1) 堅持「小而精」的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的性能。作為精巧的小模型,對標「巨無霸」,小模型性能超越千億規模模型。
2)使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威CLUE中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,刷新三項榜單世界紀錄。總排行榜分數突破84分,逼近人類基準分數(85.61)。
3)靈活的領域和場景適應能力,方便快速定制和應用。基於T5-style的端到端生成的訓練範式,同步適配BERT-style的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。
當然,隨著孟子一鳴驚人,也必然能讓輕量化模型研究來到聚光燈下。
▎原理方法和應用?
在輕量化模型算法研究方面,基於自研的基於語言學知識、知識圖譜和領域數據增強等技術,從模型架構(包括基礎層Embedding表示和交互層Attention機制)到預訓練策略進行了全方位改進。
具體有四方面:
1) 模型結構方面,將語義角色、詞性標註等語言學特徵融合到Embedding表示中,基於句法約束引入註意力機制中,從而提升模型對語言學知識的建模能力。
2) 訓練策略上,引入基於實體知識和Discourse的Mask機制,強化模型對語言成分和語篇關係的表徵。
3) 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。
4) 為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域數據繼續訓練並構造相應的提示模版(Prompt),取得了明顯的性能提升。
基於以上算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義信息能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。
另外,在Finetune的進展方面,如何將預訓練模型用於各項任務?
瀾舟團隊也有總結,從數據增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的性能:
1) 數據增強:使用領域相關數據;
2) 知識蒸餾:基於Teacher-Student自蒸餾提升訓練效率;
3) 遷移訓練:結合課程學習的思想,由易到難訓練下游模型;
4) 訓練優化:使用多種訓練目標,多角度提升模型能力;
而且孟子還已經展開了垂直化領域應用。
基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:
1) 通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。
2) 通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。
瀾舟方面還透露,孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文本生成、行業搜索、機器翻譯等諸多領域。
並且毫無疑問的是,因為輕量級模型具有的模型參數較少、快速推斷的特點,更易於線上部署和推廣到移動設備中,自然不會局限於現有應用和場景,接下來還會有更廣泛的研究和應用場景中。
▎瀾舟團隊?
最後,也簡單介紹本次一鳴驚人的新面孔瀾舟科技。
瀾舟科技是創新工場孵化的一家認知智能公司。公司創始人——周明博士。
AI領域內,周明已不用過多介紹,他是公認的世界級AI科學家,自然語言處理領域的代表性人物。
周明博士在2020年加盟創新工場,擔任創新工場首席科學家。
而瀾舟科技則針對商業場景的數字化轉型,基於大數據、知識圖譜和行業模型,提供新一代的信息檢索、知識推理和商業洞見技術和相關產品。
據稱目前已與國內外幾十所著名高校和十餘個相關領域的頭部企業建立了穩定的合作關係。
值得注意的是,瀾舟科技除了大牛坐鎮,其實也是行業趨勢的體現。
引用創新工場董事長兼CEO李開復最新分享來說:
AI的發展可以按照兩個時間點劃分。
第一個時間點是2015年,以CNN為核心的計算機視覺技術讓機器超越了人類,帶來了人臉識別、智能質檢、無人零售、智慧城市、無人駕駛等商機。
而第二個時間點出現在2019年,以大模型為代表的自然語言方向取得突破性進展,讓NLP從數據、信息走向知識和洞見成為可能,將會在翻譯、語音識別、法律、金融、新聞、廣告、醫療、娛樂等大賽道帶來機遇。
「如果說CNN造就了今天計算機視覺領域的突破和眾多應用,預訓練大模型+微調也將帶來自然語言的百花齊放的發展,用數據智能驅動各類業務的升級。瀾舟科技在周明老師的帶領下取得了今天的成果,在新機遇面前躬身入局,一起發掘NLP領域的黃金發展期」,李開復說到。
句子成分分析法 在 Emily Ng 黃佩玲 Facebook 的精選貼文
女孩,妳知道你一生中會來幾次月經嗎?
/ / /
根據《 #月經不平等》,從青春期到更年期,大約400次。然而,對從最窮困到最富有、最無知到最博學的女性們而言,今天月經依舊是頭號禁忌,在那些讓我們偷偷摸摸低聲討論的事物中,佔據了前10名的位置 🤷♀️
以下摘錄自封底的一段話:
👉 「 在今日的玻利維亞,女性月經時使用過的生理用品被認為會傳染癌症;在印度,月經來潮的女性禁止與丈夫同床;或許我們以為這些都是發生在第三世界的不平等,但從小就被教導生理期不准拿香、不准進廟的我們呢?為甚麼不論在東西文化中,月經始終是個禁忌? 」
/ / /
因為號稱是第一本以 #月經 為主題、重新思考女性身體的書籍,所以我抱著很高的期待來翻閱,想要從中進一步探索自己的身體。前面幾章還蠻有趣的,聊了一些國家的古老文化、刻板印象與世俗習性;譬如,在俄羅斯流傳著一則風俗,要求母親給初經來潮的女兒一巴掌,讓她蒼白的臉有光彩而別人不曉得她正值經期。
關於這樣的禁忌,確確實實存在於各個國度、朝代、社會、各種宗教、家庭以及可能女性自己的心中。
/ / /
👉「 要不感覺有什麼在摩擦我的黏膜,就是一直覺得自己包著尿布,從來不曾覺得非常舒服,但也不曾問過自己為甚麼選擇如此有限。我在月經前後有過膀胱炎、真菌感染,起過疹子,也曾發炎,這些都會在接觸到某些月經用品時發作或加速。」
👉「 在二零一五年八月,獨立實驗室 AnAlytikA 發表了對 Nett、Tampax和Casino品牌下六種衛生棉條的初步研究。這份研究揭露了在分析樣品內,有二十到三十種不同的化學成分,都沒有在包裝上被提及。 」
👉「 因此,與洗髮精、保濕乳液、口紅等相反,沒人知道在衛生棉條與衛生棉裡有什麼東西。」
👉 「 根據統計,在四十年的月經生涯裡,我總共使用了一萬兩千到一萬五千個棉條、衛生棉和護墊。這花了我兩千五百歐元,製造出一噸半的垃圾。」
/ / /
這本書有點妙,前半部很有趣,但看了一半之後,我的速度放慢了許多,因為開始需要花更多時間去理解法籍作者嘗試要表達的。我不太確定是作者的筆鋒,還是譯者的能力所致,句子變得有點難以一讀就懂;有點累贅、囉嗦,而且有很多與月經沒有直接關係的歷史與社會時事史跡。最後一部分聊了很多醫藥知識,主要圍繞在子宮內膜異位症,就……文筆關係,有點乏味 😂
總而來說,沒有帶給我太多驚喜的一本書,我甚至覺得有點遺憾。不過,我還是有所收穫的,而不同的書籍對於不同人來說,必然也會有不同的感受與愉悅。
這本書想要二手價賣出,RM28,包郵 😉
#閱讀天下
#2020年讀完的第10本書
#其實更鼓勵男性來讀這本書
#我在用的是月亮杯
句子成分分析法 在 MissAnita 御姊愛 (徐豫) Facebook 的精選貼文
#娛樂圈公關溝通策略- 周揚青聲明分析
到了一定年紀之後,你會發現,比起遇到渣男的憤慨,更重要的是「如何漂亮下莊」。
恨是一定有的,但怎樣漂亮轉身也很重要。對公眾人物來說更是如此。一個不小心,傷人傷己。
周揚青的信堪稱娛樂圈感情危機處理模板,同時也是正宮的逆襲,靠一封信一擊斃命的她本人(或她的撰文智囊)絕對是大內高手。
先說,我個人是很心疼她的遭遇,也覺得浪費九年青春實在可惜,但以下我們就以 #公關傳播角度 單純分析這封「來自前女友的信」在語意論述上為什麼厲害:
1. #看起來是信其實是公開的控訴
雖然開頭是寫給羅志祥,但其實信貼在公開平台上,所以這是一封看起來像信但實質是公告(或聲明稿)的信。
信跟公告(或聲明稿)的差別在於,可以用彼此之間的回憶和個人感受來作為文章的主體,並且還能用口語的語感增加讀者可讀性。
2.#開頭就破除大家認為女性失戀會失控報復的揣測避免立場不穩
感情是兩個人之間的事,社會大眾對於受傷的前女友一方面同情,但另一方面又常常會覺得對方「太超過」、「衝動報復」。
周揚青的信在一開始用引號寫下「一直沒說是因為前段時間突如其來的疫情不想因此佔用公共資源」,以及強調分手時間已經長到不是「不冷靜的報復心態」。
(對,其實是冷靜的報復XD)
當大家不認為自己是在看一個失戀失控的人寫的信時,後續的論述才會值得信任。
3.#對介入感情的女性沒有恨意滿點或指名道姓
一般來說,受到感情傷害的一方會恨不得想要讓所有的人都知道誰是介入感情的人,但如此一來也可能讓論述被轉移焦點,如果今天周揚青直接說出其他女性的姓名,一來若沒有足夠證據可能惹上官司,二來可能讓媒體轉移原本想強調的男人惡形惡狀焦點,而變成兩女之間的恩怨情仇。
不指名道姓也讓信看起來更加讓人心疼,而不是張牙舞爪的報仇。
不過厲害的是,她信上雖不說女藝人,但說了「旗下的女藝人」,網友又翻出旗下女藝人就只有一個人,其實跟直接tag幾乎沒有差別,但作法看起來漂亮很多。
至於化妝師,因為藝人普遍都有專屬的化妝師,是在指誰總是有好事的人會去洩露。
4.#一擊斃命對方最在意的重心
有些傻女孩遇到渣男會想跟對方的家人講,但哪個家人不是護自己人?講了又能怎樣?周揚青知道,羅志祥如果沒有中國大陸市場就完了,於是抓住重點「中國大陸演藝事業」、「粉絲信任」在信內直接擊破。
中國大陸姑且不論藝人之間私德如何,但檯面上大家素行要端正,所以信上「不正常男女關係」、「多人運動」、「毀我三觀」、「約P」都是讓他無法再回到大舞台的重砲文字。
儘管這些事已經很毀羅志祥在女粉眼中的形象,但不排除還是有鐵粉可能一心一意,信上一開始寫「以前都是幫你編輯微博文案...」,簡直讓粉絲心頭一驚,原來之前那些看起來關心大家的文案都是周寫的,說不定跟大家打招呼或是回留言的其實也都是周,在羅志祥跟粉絲之間,原來是周的影子。
5.#強調這封信的合理性與必需性
許多人可能還是覺得這種檯面下的情愛糾葛有必要拿出來講嘛?如果都像前面說「分手好久了」「已經久到冷靜了」,那幹嘛還講?
被這樣質疑的話,這信的出現就沒有所謂的合理性了。
於是周揚青的信最後寫著,如果不是因為種種原因,他本來可以當個安靜的前女友,但因為不希望其他女生無辜受害,所以決定公諸於世。
雖然自己感情受傷,但受傷事小,照顧所有女生未來幸福事大。寫信寫得好,女粉圈不少。
6.#公眾人物顏面和高度還是要保住的
這封信的重點是控訴男人的渣,但如果女方自己也是公眾人物,就不能讓自己只是扮演受害者,如果在信中呈現得一文不值好像被玩過就算,也會讓人恥笑。
顏面一定要顧,「形象/人設」也要高,後續在圈子闖蕩才能抬頭挺胸。
於是信裡也寫下,「你也是愛過我的吧」「不然怎麼會為我做這麼多事」「不承認別人只承認我」...之類的句子。看似爬梳對方的好,其實是強調自己和其他被玩還沒有名份的女人是不一樣的。
在感情裡的身份,會影響形象和人設。
-----
周揚青此信一出,我相信她絕對是非常聰明的女生。傻妹還真寫不出這種等級的聲明。
但這封信很顯然並不是信,它是聲明稿,既然是聲明稿就有聲明背後的用意。如果只是強調兩人已分手,大可以用「本人與XXX已分手,謝謝大家關心」一句帶過。但出的是一篇讓市場幾乎一面倒反豬聲浪的高手信,對方是渣,但一封好的控訴信卻可以讓渣*10000倍,實在讓人忍不住認真分析了。
與其說是報復,這成分當然也是有,但我想,最可能的情況是周揚青可能也不想自己再度心軟,這種無法挽回的信,絕對是下了此生不再相見的決定才出手的。
----
最後我想說,信真的寫得太有策略,如果演藝圈發展不好(但我預測她會更紅上一段時間了),不如考慮一下當某黨的數位公關溝通諸葛亮?他們感覺需要很多人才XD
句子成分分析法 在 句子成分 - YouTube 的美食出口停車場
Your browser can't play this video. Learn more. ... <看更多>