四兩撥千斤! 創新工場首席科學家AI大牛周明博士率瀾舟團隊刷新CLUE新紀錄,輕量化模型孟子一鳴驚人!
本週,中文語言理解權威評測基準CLUE榜單,被「低調」刷新。
不同的是,不是大公司、不是超大模型……
一個新面孔,一個輕量化模型,首戰即登頂,四兩撥千斤。
CLUE榜單近年來由巨頭——騰訊、搜狗、華為、阿里達摩院輪番霸榜的格局,被首次打破。
瀾舟科技-創新工場推出的孟子模型,以十億參數完成了此前百億、千億參數模型刷新的紀錄。
這也是瀾舟科技首次對外曝光,背後團隊負責人,正是創新工場首席科學家、全球AI大牛周明博士。以下文章解釋了這個模型的原理,文章來自《量子位》微信公眾號,經授權轉載。
▎輕量化模型孟子?
孟子,基於瀾舟團隊自研技術研發的大規模預訓練語言模型。
包括創新工場、上海交通大學、北京理工大學等單位參與聯合研發。
可處理多語言、多模態數據,同時支持多種文本理解和文本生成任務,能快速滿足不同領域、不同應用場景的需求。
孟子模型基於Transformer架構,僅包含十億參數量,基於數百G級別涵蓋互聯網網頁、社區、新聞、電子商務、金融等領域的高質量語料訓練。
但誰也沒想到,小模型卻有大智慧,一經登場,打破格局。
CLUE,中文語言理解領域最具權威性的測評基準,涵蓋文本相似度、分類、自然語言推理、閱讀理解等共10項語義分析和理解類子任務。
該榜單競爭激烈,幾乎是業內所有自然語言理解玩家必爭之地。
騰訊、搜狗、華為、阿里達摩院等更是輪番霸榜刷新紀錄。
而且隨著大參數模型愈演愈烈,CLUE還漸有巨頭壟斷之勢。
因為百億、千億甚至萬億參數的大模型,已然不再是創業或其他玩家可與之爭鋒。
萬萬沒想到,瀾舟科技-創新工場團隊出手,四兩撥千斤。
因為孟子,走的是基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。
孟子預訓練模型性能比肩甚至超越千億大模型,在包含文本分類、閱讀理解等各類任務上表現出色。
相對已有的中文語言模型,孟子模型實現了多項突破性進展:
1) 堅持「小而精」的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的性能。作為精巧的小模型,對標「巨無霸」,小模型性能超越千億規模模型。
2)使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威CLUE中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,刷新三項榜單世界紀錄。總排行榜分數突破84分,逼近人類基準分數(85.61)。
3)靈活的領域和場景適應能力,方便快速定制和應用。基於T5-style的端到端生成的訓練範式,同步適配BERT-style的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。
當然,隨著孟子一鳴驚人,也必然能讓輕量化模型研究來到聚光燈下。
▎原理方法和應用?
在輕量化模型算法研究方面,基於自研的基於語言學知識、知識圖譜和領域數據增強等技術,從模型架構(包括基礎層Embedding表示和交互層Attention機制)到預訓練策略進行了全方位改進。
具體有四方面:
1) 模型結構方面,將語義角色、詞性標註等語言學特徵融合到Embedding表示中,基於句法約束引入註意力機制中,從而提升模型對語言學知識的建模能力。
2) 訓練策略上,引入基於實體知識和Discourse的Mask機制,強化模型對語言成分和語篇關係的表徵。
3) 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。
4) 為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域數據繼續訓練並構造相應的提示模版(Prompt),取得了明顯的性能提升。
基於以上算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義信息能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。
另外,在Finetune的進展方面,如何將預訓練模型用於各項任務?
瀾舟團隊也有總結,從數據增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的性能:
1) 數據增強:使用領域相關數據;
2) 知識蒸餾:基於Teacher-Student自蒸餾提升訓練效率;
3) 遷移訓練:結合課程學習的思想,由易到難訓練下游模型;
4) 訓練優化:使用多種訓練目標,多角度提升模型能力;
而且孟子還已經展開了垂直化領域應用。
基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:
1) 通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。
2) 通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。
瀾舟方面還透露,孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文本生成、行業搜索、機器翻譯等諸多領域。
並且毫無疑問的是,因為輕量級模型具有的模型參數較少、快速推斷的特點,更易於線上部署和推廣到移動設備中,自然不會局限於現有應用和場景,接下來還會有更廣泛的研究和應用場景中。
▎瀾舟團隊?
最後,也簡單介紹本次一鳴驚人的新面孔瀾舟科技。
瀾舟科技是創新工場孵化的一家認知智能公司。公司創始人——周明博士。
AI領域內,周明已不用過多介紹,他是公認的世界級AI科學家,自然語言處理領域的代表性人物。
周明博士在2020年加盟創新工場,擔任創新工場首席科學家。
而瀾舟科技則針對商業場景的數字化轉型,基於大數據、知識圖譜和行業模型,提供新一代的信息檢索、知識推理和商業洞見技術和相關產品。
據稱目前已與國內外幾十所著名高校和十餘個相關領域的頭部企業建立了穩定的合作關係。
值得注意的是,瀾舟科技除了大牛坐鎮,其實也是行業趨勢的體現。
引用創新工場董事長兼CEO李開復最新分享來說:
AI的發展可以按照兩個時間點劃分。
第一個時間點是2015年,以CNN為核心的計算機視覺技術讓機器超越了人類,帶來了人臉識別、智能質檢、無人零售、智慧城市、無人駕駛等商機。
而第二個時間點出現在2019年,以大模型為代表的自然語言方向取得突破性進展,讓NLP從數據、信息走向知識和洞見成為可能,將會在翻譯、語音識別、法律、金融、新聞、廣告、醫療、娛樂等大賽道帶來機遇。
「如果說CNN造就了今天計算機視覺領域的突破和眾多應用,預訓練大模型+微調也將帶來自然語言的百花齊放的發展,用數據智能驅動各類業務的升級。瀾舟科技在周明老師的帶領下取得了今天的成果,在新機遇面前躬身入局,一起發掘NLP領域的黃金發展期」,李開復說到。
「文案生成器」的推薦目錄:
- 關於文案生成器 在 Facebook 的最佳貼文
- 關於文案生成器 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
- 關於文案生成器 在 創業小聚 Meet Startup Facebook 的最佳解答
- 關於文案生成器 在 史上最完整的文案百科全書『銷魂文案』打造變現力NO.1的超 ... 的評價
- 關於文案生成器 在 FB廣告文案必備,AI文案生成神器! | 行銷MOOC 的評價
- 關於文案生成器 在 英語大師部落格- 兆鴻老師推薦!!銷魂文案 的評價
- 關於文案生成器 在 廣告文案產生器的評價費用和推薦,FACEBOOK、PINTEREST ... 的評價
- 關於文案生成器 在 廣告文案產生器的評價費用和推薦,FACEBOOK、PINTEREST ... 的評價
文案生成器 在 台灣物聯網實驗室 IOT Labs Facebook 的最佳解答
銀行如何提供超級個人化服務?百人數據團隊靠AI打造中信腦
為了顧及全產品、全客群、全通路、全覆蓋,中國信託採取的對策是走入AI與大數據,更為發展AI應用訂下3大KPI,來掌握研發資源的最適化;今年,中信更成立數據治理委員會,希望將數據治理走向更全行化的關鍵議題
文/李靜宜 | 2021-06-10發表
「透過科技力,來創造競爭力。」中國信託銀行數據暨科技研發處處長王俊權,用一句話點出中國信託大力發展AI與大數據的戰略核心。
3年多前,中國信託定調以AI與大數據作為主要發展方向,並成立了數據研發中心,要用AI來加值業務場景的服務與產品。設立初期僅有一人,到現在已擴大為百人團隊,更在2020年初正式提升為數據暨科技研發處。王俊權正是該團隊的一號員工,更是中國信託內部大力推動AI與大數據的關鍵人物。
中國信託的經營策略是,顧及全產品、全客群、全通路、全覆蓋。而為了守住既有的優勢,中信採取的對策是走入AI與大數據,來作為轉型的利器。不只要轉型,王俊權表示,中信更希望透過AI與大數據,孵化出不同於以往的經營模式。
「CTBC+AI」是中國信託發展AI的大方向,在各業務線上,都能將既有的經營方法加上AI,來提升效率與效能,更要以這樣的科技力創造競爭力。更以優化、平臺、全面、轉型、顛覆這5大階段任務,往下推動AI。
王俊權解釋,中信的策略是,從最小且最有把握的項目開始,所以,透過AI來優化既有的經營方式,是中信切入AI的第一項任務。運用AI優化的專案成功後,下一步,中信就能將AI技術進一步平臺化;有了平臺之後,就能將AI技術全面導入到銀行。
走過了優化階段、平臺階段到全面發展階段,AI已經落地到中信的金融場景,也陸續有了一些階段性成果。王俊權表示,中信現在聚焦「轉型」與「顛覆」,希望透過AI幫助組織轉型,最終期待是要用AI提出顛覆的想法,創造新的經營模式,他透露,目前已有幾個專案正在進行中。
依循著CTBC+AI這項大主軸,中國信託打造了「中信腦」,定調3條研發路線: 電腦視覺、自然語言處理(NLP)、機器思考,也成立了3大實驗室,聚焦研發6大AI應用核心,包括了精準行銷、市場預測引擎、文字與文件辨識應用、人臉與物件辨識應用、機器閱讀到機器對話。從應用場景來看,則鎖定營銷經營、流程優化、風險控管這3項。累計至今,中信在業務單位落地的AI專案超過了20個。
第一類應用場景的AI,中信稱為「營銷經營+AI」,囊括個人化推薦、需求預測,目的是協助增加收益,並提升客戶滿意度、客戶資產、新申購產品數等。王俊權提到,像是推薦引擎專案,中信金控整體客戶數有1,100多萬戶,產品與通路又多,需要透過AI推薦引擎來實現精準行銷,預測顧客未來的金融需求,才能進一步推薦。中信也將這類預測技術,應用到金融商品的預測,比如房價預測、股市預測、匯率預測等。
「流程優化+AI」則是中信第二大類應用場景,包含法金作業流程、客戶申請流程、線上作業流程,希望用來協助內部提升作業效率,來減少作業成本,最終目的也同樣要能夠提升客戶滿意度。 目前,中信內部有多項端對端的流程數位化專案,像是個金、法金、AML(反洗錢)、HR等業務,都有導入AI來優化既有流程。
最後一類場景的應用是「風險控管+AI」,則應用在AML作業、偽冒偵測、稽核,來改善內部作業效率,減少風險的損失。比如,王俊權提到,前年底,中信銀行上線了一套用自然語言處理技術分析負面新聞的平臺,這個AI反洗錢專案的成果,後來更從臺灣擴大應用到7個國家的海外分行。
王俊權表示,3大實驗室所負責的6大AI核心,就是沿著這3大類應用分頭進行,其中,因為銀行面對數位化的壓力較大,所以,又以銀行為應用主力,再逐漸將AI技術擴大到金控旗下子公司,如投信、台灣人壽、中國信託資融等。
自行培養AI研發能力,更訂定3大AI管理KPI
AI發展策略上,中國信託除了自主研發,也會與廠商協作。不過,這兩種策略該如何拿捏,中信內部也走過一段辯論的路。王俊權表示,最後的判斷依據是,「金融業需要的核心能力,中信會投入有限的研發資源。若不是中信認為的核心能力,則盡可能用市場上的解決方案,來加快回應市場的時間。」
舉例來說,銀行業使用分析模型並非新鮮事,AI技術與傳統統計回歸最大的不同是,能夠處理大量非結構數據,像是人臉、電文等資料,可是,這些數據機敏性較高,如果銀行不能自行掌握技術,而需委外,王俊權認為,第一個問題就是,銀行創新的保密性較弱,再者,廠商進入銀行接觸到如此多的機密性資料,有時也有法遵問題。
尤其,金融業對個資的管制嚴格,非結構化資料很難離開金融業,但是,在臺灣,許多AI技術原廠來自海外,對於銀行來說,整體應用或導入的彈性都相對較低,這些都是中國信託選擇培養自家AI研發能量的關鍵因素。
中信在AI應用發展策略,更訂出3大關鍵績效指摽(KPI),作為研發資源最適化的參考。王俊權表示:「對資源有限,需求無限的單位而言,研發的管理是一大關鍵。」首先,中信不會輕易增加AI生產線,因每開一條生產線就會涉及維運與資源分散的議題。所以,「AI生產線的管理」是第一項KPI。
「AI研發資源調度的管理」是第二項KPI。王俊權提到,資源有限狀況下,應該分配多少資源,投入短期的落地變現,還是長期的亮點顛覆,「是一種決策的藝術。」過去,中信希望AI可以迅速擴大到各單位,所以,王俊權採取80/20法則,將80%的資源用在短期落地變現,讓大家有感,保留20%在真正創新的研發。不過,他表示,這個比例每年或每季會進行調整,要讓研發資源投入到需要的地方。
第三項KPI則是「核心複用的比率」,也就是同一項核心技術盡可能重複利用的比率。王俊權要求研發團隊,每條AI生產線至少要有3個落地應用。目前,中國信託共有6條AI生產線,以及20幾個AI落地應用的專案,他提到:「平均每條AI生產線,有3~4個核心複用。」未來,更希望將每個AI核心,擴大到金控內各個應用,所以,要盡可能提升核心的複用,他對團隊的期待是,能提高到兩位數的複用率。
他進一步舉例,3年前,中信導入工研院智能文審技術,來辨識客戶申辦信用卡、貸款所需檢附的財力證明,像是存摺、扣繳憑單等金融常用的固定格式文件。去年,中信將文字辨識應用,複用到分行的場景,上線AI票券辨識服務,在審票機中加入AI、OCR技術來辨識支票,來減少櫃員人工審票與顧客等待的時間,及提升作業人員登打的產能。
目前,中信已做到一張支票上的7個要件,包括到期日、抬頭人、金額、禁止背書轉、發票章讓章或手寫、背書、帳號,都能夠用AI辨識。王俊權提到,中信將自行研發的印刷體的文字辨識核心、手寫英數的AI辨識核心、文印鑑辨識技術,通通導入支票辨識上,「這就是一種AI核心的複用」。此外,為了持續優化辨識正確率,中信更導入AI反饋機制,內部自己發展出標記功能,來改善標記效率,長期目標是達到9成的辨識正確率。今年,中信預計將該AI應用擴大到22家分行。
中信還有另一項AI核心應用是人臉與物件辨識應用,王俊權坦言:「人臉辨識技術,對於組織的轉型與顛覆是亮點有餘,可是力道不足。」不過,若能結合防偽能力及數位流程,可能會創造出藍海的新應用。中信正在思考,如何運用人臉辨識、活體辨識、微表情辨識、情緒辨識等AI核心,交錯組合來打造遠端核身相關應用。
金融業需緊跟科技的腳步,轉變為自身的競爭力,才能在指數型成長的趨勢下,站上領先地位。AI與大數據,正是下一波競爭力的最大利器。─── 中國信託銀行數據暨科技研發處處長 王俊權
推動超級個人化服務,中信靠大數據建立5大行銷策略
「中信銀行每個月有1.5億筆的金融數據,1.9億筆的非金融數據。更可觀的是,疫情期間,顧客更加喜歡使用數位服務,每月高達2億筆的顧客數位數據。」王俊權首度揭露了中信內部統計的海量數據。不只如此,中信銀行1年與顧客會有20億次的行銷溝通,顧客造訪行動銀行、網路銀行或到行銷網頁觀望的次數,更是高達16億次。
「中國信託的數據含金量很高,因此,全都要採集起來,作為銀行KYC的關鍵第一步。」他提到,光在2017年到2018年這段期間,中信內部就採集了大量數據,來建立360度客戶全景標籤。即便,當時各個單位已有自己的全景標籤,中信仍認為要有一個可以全行共用的主數據庫。
有數據來了解顧客,銀行就能出手,中信的策略是以數據掌握顧客人生不同階段需求,提供超級個人化服務。王俊權表示,中信策略是運用AI與大數據,透過個人化溝通方式,來提升顧客的成交機會。中信更先將這種作法,落地到銀行的「艱困區」,若在艱困區測試後有成效,再轉移到「黃金區」主戰場。「一方面不會影響到既有的業務動能,另一方面團隊也會比較有信心。」
在推動超級個人化服務,中信採取了5大行銷策略,並各自搭配合適的AI技術。第一項策略是使用最適合的通路對不同顧客溝通;第二項是尋找顧客有興趣的話題來互動,王俊權透露,今年底將從人工轉為全自動化,用AI生成銀行與顧客行銷的文案。
選擇對的時間,則是第三項策略,比如,當外幣跌到一定數值時,跟該名顧客歷史申購外幣的成本有競爭性,就能在此時發送推薦資訊給顧客。
第四項策略則是打造貼合顧客需求的產品,他提到,中信已有不同產品的預測模型,能預測未來3個月或1周後,該名顧客可能需要的產品。可供業務單位、EDM數位行銷,來聚焦其中高成交率的顧客。最後一項策略是對的活動,即便是賣同一項產品,不同活動的優惠或行銷設計都要不一樣。
王俊權認為,不僅不要過度叨擾顧客,更希望提供一次就能擊中顧客的服務。甚至,目標是做到自動化行銷,他透露,目前正在建置平臺的階段,除了要能自動採集數據,更要自動反應顧客下一步的預測,讓銀行出手可以更快,或盡可能減少PM或行銷出手時會遇上的人工斷點,甚至,讓每次出手後的反饋可以更為即時,來推動多波段行銷。
成立數據治理委員會,優先梳理2類數據
「數據治理是比下水道還要更下水道的底層工程。」特別對於大型金融機構來說,海量的數據勢必要有與過往不同的梳理方式,王俊權如此說著。
因此,今年中信銀行成立了數據治理委員會,由總經理親自主持,各個業務單位主管都參與,「希望將數據治理走向更全行化的關鍵議題。」他坦言,今年是試行階段,但中信已經注意到這個趨勢,而且必須往這方向走。
中信在數據治理特別強調「以用為治」,去年,更研究了全世界數據治理做得較好的企業,比如,數據治理發展超過20年的華為。王俊權坦言:「對中信而言,數據治理既然是一場長期抗戰,就必須明確為何而戰。」
由於資源有限,中信在數據治理的戰略,優先從兩類業務來推動,第一類是不能犯的錯,這類資料的處理一旦犯錯,銀行容忍度很低,如監理報送這類數據就需要優先梳理。另外一類是業務效益較大者,王俊權表示,若沒有好的數據治理標準,業務效益很難有長期的呈現。這是中信今年訂下數據治理的方向,也希望從小開始,慢慢擴大到全行。
經理人小檔案
王俊權
中國信託銀行數據暨科技研發處處長
學歷:臺灣大學國際企業研究所商學碩士
經歷:早年在美國矽谷的科技公司做美股分析,回臺後陸續待過4家銀行,主要負責風險管理;2005年加入中國信託銀行擔任全球個金風險管理處處長,2018年兼任數據研發中心最高主管;現為中信銀行數據暨科技研發處處長,兼任中信金控數據主管
附圖:中國信託銀行數據暨科技研發處處長 王俊權 (攝影/洪政偉)
資料來源:https://www.ithome.com.tw/people/144842?fbclid=IwAR0XaBPczoiqTWTEQH8qHfNDbmyyTpA43Akd2gYWhsBbh0oIbWsBNWdF4Fk
文案生成器 在 創業小聚 Meet Startup Facebook 的最佳解答
#小編也要數位轉型啦 雲端供應商 CloudMile 推出 AI 華語文案生成工具「AI 智慧寫手」,能幫助行銷人快速產出文案,未來你看到的貼文很可能是機器人寫的!
文案生成器 在 FB廣告文案必備,AI文案生成神器! | 行銷MOOC 的美食出口停車場
現在介紹一個好工具,讓你頭皮可以不用這麼硬了,將將~那就是『阿里媽媽』的『一鍵生成電商行銷文案』工具! ... <看更多>
文案生成器 在 英語大師部落格- 兆鴻老師推薦!!銷魂文案 的美食出口停車場
兆鴻老師推薦!!銷魂文案:打造變現力NO.1的超給力文案生成器!! ... <看更多>
文案生成器 在 史上最完整的文案百科全書『銷魂文案』打造變現力NO.1的超 ... 的美食出口停車場
史上最完整的文案百科全書『銷魂文案』打造變現力NO.1的超給力文案生成器!! · Telent ko salam || #shorts · science class... · WILD Broken Chair Prank! · RAINBOW FISH ... ... <看更多>