來自創新工場大灣區人工智慧研究院的兩篇論文入選了自然語言處理領域(NLP)頂級學術會議 ACL 2020 。
這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
本文來自創新工場公眾號
……………………………………………………………………
創新工場兩篇論文入選ACL 2020,將中文分詞性能刷至新高
“土地,我的金箍棒在哪裡?”
“大聖,你的金箍,棒就棒在,特別配你的髮型。”
感謝神奇的中文分詞,給我們帶來了多少樂趣。豐富多變的中文行文,給人的理解造成歧義,也給AI分詞帶來挑戰。
近日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 (https://acl2020.org/)正在火熱舉行。
令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各資料集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
分詞及詞性標注是中文自然語言處理的基本任務,尤其在工業場景對分詞有非常直接的訴求,但當前沒有比較好的一體化解決方案,而且中文分詞普遍存在歧義和未登錄詞的難題。
基於此,兩篇論文各自提出了“鍵-值記憶神經網路的中文分詞模型”和“基於雙通道注意力機制的分詞及詞性標注模型”,將外部知識(資訊)創造性融入分詞及詞性標注模型,有效剔除了分詞“噪音”誤導,大幅度提升了分詞及詞性標注效果。
兩篇文章的作者有:華盛頓大學博士研究生、創新工場實習生田元賀,創新工場大灣區人工智慧研究院執行院長宋彥,創新工場科研合夥人張潼,創新工場CTO兼人工智慧工程院執行院長王詠剛等人。
ACL(The Association for ComputationalLinguistics)國際計算語言學協會是自然語言處理領域影響力最大、最具活力的國際學術組織之一,自1962年創立以來已有58年歷史,其每年夏天舉辦的年會是該領域學術頂會。
與往年不同的是,受新冠疫情影響,ACL2020全部轉為線上進行,不過這絲毫沒有減弱熱度。根據之前公佈的資料,今年大會投稿數量超過3000篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,在全球疫情衝擊下反而是有史以來最盛大的一屆ACL會議,創新工場的技術大牛們也頂著時差連續數晚熬夜參會。
▌利用記憶神經網路,將中文分詞性能刷到歷史新高
中文分詞目的是在中文的字序列中插入分隔符號,將其切分為詞。例如,“我喜歡音樂”將被切分為“我/喜歡/音樂”(“/”表示分隔符號)。
中文語言因其特殊性,在分詞時面臨著兩個主要難點。一是歧義問題,由於中文存在大量歧義,一般的分詞工具在切分句子時可能會出錯。例如,“部分居民生活水準”,其正確的切分應為“部分/居民/生活/水準”,但存在“分居”、“民生”等歧義詞。“他從小學電腦技術”,正確的分詞是:他/從小/學/電腦技術,但也存在“小學”這種歧義詞。
二是未登錄詞問題。未登錄詞指的是不在詞表,或者是模型在訓練的過程中沒有遇見過的詞。例如經濟、醫療、科技等科學領域的專業術語或者社交媒體上的新詞,或者是人名。這類問題在跨領域分詞任務中尤其明顯。
對此,《ImprovingChinese Word Segmentation with Wordhood Memory Networks》這篇論文提出了基於鍵-值記憶神經網路的中文分詞模型。
該模型利用n元組(即一個由連續n個字組成的序列,比如“居民”是一個2元組,“生活水準”是一個4元組)提供的每個字的構詞能力,通過加(降)權重實現特定語境下的歧義消解。並通過非監督方法構建詞表,實現對特定領域的未標注文本的利用,進而提升對未登錄詞的識別。
例如,在“部分居民生活水準”這句話中,到底有多少可能成為詞的組塊?單字可成詞,如“民”;每兩個字的組合可能成詞,如“居民”;甚至四個字的組合也可能成詞,例如“居民生活”。
把這些可能成詞的組合全部找到以後,加入到該分詞模型中。通過神經網路,學習哪些詞對於最後完整表達句意的幫助更大,進而分配不同的權重。像“部分”、“居民”、“生活”、“水準”這些詞都會被突出出來,但“分居”、“民生”這些詞就會被降權處理,從而預測出正確的結果。
在“他從小學電腦技術” 這句話中,對於有歧義的部分“從小學”(有“從/小學”和“從小/學”兩種分法),該模型能夠對“從小”和“學”分配更高的權重,而對錯誤的n元組——“小學”分配較低的權重。
為了檢驗該模型的分詞效果,論文進行了嚴格的標準實驗和跨領域實驗。
實驗結果顯示,該模型在5個資料集(MSR、PKU、AS、CityU、CTB6)上的表現,均達了最好的成績(F值越高,性能越好)。(注:所選擇的五個資料集是中文分詞領域目前全世界唯一通用的標準資料集)
創新工場大灣區人工智慧研究院執行院長宋彥表示,與前人的模型進行比較發現,該模型在所有資料集上的表現均超過了之前的工作,“把中文分詞領域廣泛使用的標準資料集上的性能全部刷到了新高。”
在跨領域實驗中,論文使用網路博客資料集(CTB7)測試。實驗結果顯示,在整體F值以及未登陸詞的召回率上都有比較大提升。
▌“雙通道注意力機制”,有效剔除“噪音”誤導
第二篇論文《Joint ChineseWord Segmentation and Part-of-speech Tagging via Two-way Attentions ofAuto-analyzed Knowledge》提供了一種基於雙通道注意力機制的分詞及詞性標注模型。
中文分詞和詞性標注是兩個不同的任務。詞性標注是在已經切分好的文本中,給每一個詞標注其所屬的詞類,例如動詞、名詞、代詞、形容詞。詞性標注對後續的句子理解有重要的作用。
在詞性標注中,歧義仍然是個老大難的問題。例如,對於“他要向全班同學報告書上的內容”中,“報告書”的正確的切分和標注應為“報告_VV/書_N”。但由於“報告書”本身也是一個常見詞,一般的工具可能會將其標注為“報告書_NN”。
句法標注本身需要大量的時間和人力成本。在以往的標注工作中,使用外部自動工具獲取句法知識是主流方法。在這種情況下,如果模型不能識別並正確處理帶有雜音的句法知識,很可能會被不準確的句法知識誤導,做出錯誤的預測。
例如,在句子“他馬上功夫很好”中,“馬”和“上”應該分開(正確的標注應為“馬_NN/上_NN”)。但按照一般的句法知識,卻可能得到不準確的切分及句法關係,如“馬上”。
針對這一問題,該論文提出了一個基於雙通道注意力機制的分詞及詞性標注模型。該模型將中文分詞和詞性標注視作聯合任務,可一體化完成。模型分別對自動獲取的上下文特徵和句法知識加權,預測每個字的分詞和詞性標籤,不同的上下文特徵和句法知識在各自所屬的注意力通道內進行比較、加權,從而識別特定語境下不同上下文特徵和句法知識的貢獻。
這樣一來,那些不準確的,對模型預測貢獻小的上下文特徵和句法知識就能被識別出來,並被分配小的權重,從而避免模型被這些有噪音的資訊誤導。
即便在自動獲取的句法知識不準確的時候,該模型仍能有效識別並利用這種知識。例如,將前文有歧義、句法知識不準確的句子(“他馬上功夫很好”),輸入該雙通道注意力模型後,便得到了正確的分詞和詞性標注結果。
為了測試該模型的性能,論文在一般領域和跨領域分別進行了實驗。
一般領域實驗結果顯示,該模型在5個資料集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表現(F值)均超過前人的工作,也大幅度超過了斯坦福大學的 CoreNLP 工具,和伯克利大學的句法分析器。
即使是在與CTB詞性標注規範不同的UD資料集中,該模型依然能吸收不同標注帶來的知識,並使用這種知識,得到更好的效果。
而在跨領域的實驗中,和斯坦福大學的CoreNLP 工具相比,該模型也有近10個百分點的提升。
▌主動引入和分辨知識,實現中文分詞技術突破
中文分詞在中國科研領域已經有幾十年的歷史。最初的中文分詞是基於詞典構建,詞典的好壞會直接影響到最後分析的效果。如果某個新詞在詞典裡沒有,那麼模型是死活都分不出來的。
這種方式的局限性還在於,詞典和分詞兩件事情中間始終有一條鴻溝,儘管詞典可以編撰得非常全面,但在處理分詞的時候,因為每一句話都有上下文語境,往往會產生多種不同的切分方法,從而無法有效地在當前語境下對分詞結構進行恰當的指導。
從2003年開始,分詞方法出現了新的突破。研究人員提出了打標籤的方式,通過給每一個字打詞首、詞尾、詞中的標籤,不再需要構建詞典,大幅度提升了未登錄詞的召回效果。
到了2014年左右,深度學習和神經網路開始被廣泛應用到中文分詞中,打標籤的模型從之前的淺層學習變成了深度學習,但演算法本質沒有發生變化,所以提升作用並不太大。
近兩年,學界開始研究怎麼在打標籤的過程中加入外部知識和資訊。創新工場的這兩篇文章就是沿著這個路徑,用記憶神經網路的方式記錄對分詞結果有影響的 n元組,並引入對詞性標注有影響的句法知識,將分詞結果和自動獲得的知識銜接起來,既發揮了神經網路的優勢,也把知識的優勢用上,實現了分詞技術上小而有效的改進和突破。
宋彥表示,“從技術創新的角度,我們的貢獻主要有兩點。一是在現有技術的基礎上,建立了一個一體化的模型框架,使用非監督方法構建詞表,並把知識(資訊)融入進來,使用更高層次的句法知識,來幫助詞性標注,起到'他山之石,可以攻玉’的效果。”
“二是主動吸收和分辨不同的外部知識(資訊)。通過鍵-值記憶神經網路和雙通道注意力機制,進行動態權重的分配,能夠有效分辨知識,區分哪些是有效的,哪些是無效的。雖然這些知識是自動獲取的、不準確的,但‘三個臭皮匠,頂個諸葛亮’,經過有效利用,總能湊出一些有用的資訊。如何實現模型的主動吸收和分辨,就變得更加重要。”
據瞭解,今年的ACL大會,在分詞領域一共收錄了18篇論文,創新工場人工智慧工程院同時有2篇入選,也表現出ACL官方對這一貢獻的認可。
▌具備跨領域分詞能力,提升工業應用效率
中文分詞和詞性標注是最底層的應用,對於接下來的應用和任務處理非常重要。例如對於文本分類、情感分析,文本摘要、機器翻譯等,分詞都是不可或缺的基本“元件”。
宋彥表示,做此項研究的目的是主要為了拓展其工業場景的應用,正確的分詞能夠平衡公司應用開發的效率和性能,同時方便人工干預及(預)後處理。
這也是創新工場人工智慧工程院的努力方向之一。工程院成立於2016年9月,宗旨是銜接科技創新和行業賦能,做嫁接科研和產業應用的橋樑,為行業改造業務流程、提升業務效率。
工程院下設北京總部、南京研究院和大灣區研究院。大灣區研究院再下設資訊感知和理解實驗室,專注于對自然語言處理(NLP)領域的研究。執行院長宋彥本人也有超過15年的NLP領域的科研經驗。
“在工業場景使用的時候,跨領域的模型能力是一個非常直接的訴求。”宋彥表示,在某個領域的訓練模型,大概率也需要應用到其他領域。
“如何在新領域缺少資料,或者新領域只有少量未標注資料的情況下,實現模型的冷開機,依然是項巨大的挑戰。如果能利用外部知識,提高模型性能,就能有效地召回很多在訓練集中沒有出現過的新詞。”
例如搜尋引擎的廣告系統,最初也是通過組詞匹配的方式,在某個特定領域訓練其分詞模型,但在進入一個新的領域時,例如從新聞領域進入醫療領域或體育領域,效果往往會大打折扣,甚至頻頻出錯。
而使用跨領域特性後,廣告系統在進入新領域時,便無需額外的資料,就可以對它進行比較準確的分詞和標注,從而有效匹配廣告和客戶,大大提升系統運行的效率和穩定性。
目前,這兩篇論文的工具都已經開源,在下面兩個連結中,可以找到對應的所有代碼和模型,各位朋友可按需自取:
分詞工具:https://github.com/SVAIGBA/WMSeg
分詞及詞性標注工具:https://github.com/SVAIGBA/TwASP
機器翻譯 歷史 在 李開復 Kai-Fu Lee Facebook 的最佳貼文
挖出了好多我們的歷史啊~
與王堅院士有關的日子
本文來自杭派工程師。撰文 | 猛哥;視頻 | 阿竜
…………………………………………………………………
21年前,他是學界翹楚,比爾·蓋茨最信任的人之一。
11年前,他受馬雲之托,在阿裡掀起技術革命。
從“騙子”到“雲計算開拓者”,十年一覺“飛天”夢。
他就是王堅,中國工程院新晉院士。
1
那年,李開復37歲,受比爾·蓋茨之托,帶著一項使命飛抵北京。
甫一落地,他就到處尋找電腦使用者介面領域的頂尖人才,跑遍清華大學和北京大學,都沒有。後來,北京大學電腦系圖形學老師董士海給他指了條道。
董士海在視覺化領域深耕多年,熟諳學界,他想了想,說,“有一個,在杭州!”
此人就是王堅。
李開復又多方打聽,大家都說王堅是國內研究“人機界面”最優秀的一個人。
人機界面,是人與電腦之間傳遞、交換資訊的媒介和對話介面,是電腦系統的重要組成部分。
王堅生長在西子湖畔,卻南人北相,身材高大,總是頂著一頭亂髮,挎著黃色軍用挎包,衣服皺巴巴,走路一顛一顛,脖子前伸,全然不關心外界的書生派頭。
細數王堅的經歷,完全稱得上是一個“異類”。他生於1962年,被打上了那個時代特有的烙印,癡迷大飛機,卻在1980年考入杭州大學工業心理專業,讀研期間常去浙江大學旁聽電腦課程,他的碩士論文《人機交互和多通道使用者介面》是中國第一部人機交互的論文,後來還影響了航太工程。
這多少算間接圓了他的“飛天”夢,也許是覺得不滿足,很多年後,他乾脆直接上陣,帶領一幫年輕人編造另一個版本的“飛天”夢,歷經挫折,每當下屬們洩氣時,他總會講,過去“那麼多優秀的工程師一輩子連造飛機的機會都沒有”,相較之下,現今一切堅持都是值得的。
1990年,王堅獲得心理系博士學位,並留校任教,1992年就晉升為教授,1993年又列為博士生導師,並擔任心理系系主任。1998年8月,杭州大學與浙江大學合併,王堅新增了一連串耀眼的頭銜:中國人類工效學會理事、浙江大學工業心理學國家專業實驗室主任。
不過,李開復一門心思要找到他,可不是因為這些頭銜,而是另有緣由。他給王堅發出郵件,邀請他來京參加一個典禮。
2
1998年11月5日,北京天氣蕭瑟,長安街兩邊的白楊樹正在凋零。
但與北京火車站相去不遠的國際俱樂部門庭若市,來了300餘人,均為中國電腦業的翹楚,包括18位院士、56位教授、4位大學校長、9位系主任、27位研究員、7位所長、1個總工程師、1個高級工程師和1個總裁。
此外,還有29個政府官員和美國駐華使館的1位外交官。
王堅沒有到場。但這個小插曲絲毫沒有影響李開復的好心情。
科技部部長及教育部副部長先後登臺致辭,此外資訊產業部及中科院等官方機構都贈送了花籃。
這些官員和學者聚集一堂,只因美國微軟公司在中國建立了一個研究院。
微軟CTO 奈森·梅爾沃德是敦促比爾·蓋茨做出此項決議的“推手”。當天,他在祝賀視頻中說:“因為人才是成功研究的先決條件,我們決意追隨人才,到人才濟濟的地方開設研究院。”
李開復進一步解釋說,微軟中國研究院的初衷是“彙聚中國本地的優秀人才和微軟公司自己的專業人才,彙集其思想。”
此話當日與會者都未給予足夠的注意。只有王選(北京大學教授、中科院院士、電腦漢字雷射排版技術創始人)隱約覺得微軟志不在此,“有眼光”,還有“遠大戰略。”
1999年春節前,微軟中國研究院開始大規模招攬人才,觸角幾乎覆蓋了所有一流科研院校。
《經濟日報》說微軟中國研究院“一網”就“網”了十幾位拔尖人才。
3
儘管1998年的秋天,李開復和王堅沒能見面,但兩人在通了五封郵件後,再次約定見面。
李開復出差時,曾專門去浙江大學找王堅,沒見上,後來微軟中國研究院副院長沈向洋(剛宣佈從微軟離職。此前為微軟全球執行副總裁,美國工程院院士)去浙江大學做演講,李開復囑託他去與王堅見一面,仍然緣慳一面。
李開復只好在郵件上邀請王堅北上,“看看研究院。”
一個素昧平生的人如此執著,這令王堅既驚訝又感動,他回信說:“我來北京看你。”
1999年1月10日,李開復終於見到了王堅。沒有寒暄,開門見山。談話只有半小時,但對聰明人來說已經足夠。
當王堅回到杭州時,一封電子郵件已在等著他,那是李開復發的。儘管李開復很希望王堅能夠加盟微軟中國研究院,但抹不開情面直接挖人,畢竟浙江大學校長潘雲鶴是微軟中國研究院的顧問。
李開復只是提出可以和王堅的實驗室合作,這讓王堅很開心,覺得大展宏圖的機會來了,但幾天後,他給李開復回信說,要到微軟中國研究院做訪問學者。
導致王堅改變主意的原因是作為系主任和副院長,需要參加無數的冗雜會議,這令他不勝其煩。
1999年的春天剛開始,王堅來到微軟中國研究院。接觸越深,李開復越希望王堅把“訪問”變成“加盟”。
最後,還是王堅自己捅破窗戶紙。到了夏天,他向李開復明確表示要到微軟來工作。
王堅被任命為多通道使用者介面組的主任研究員,組員有張高(中科院博士)和韓堅(清華大學博士)兩個年輕人。
以潘雲鶴的身份和學養,自然不能阻攔王堅的出走。
那個夏天和潘雲鶴一樣心情複雜的還有哈爾濱工業大學的黨委書記李生,他是哈工大電腦系的老系主任,也是中國人工智慧領域第一個博士生候選人(因為選擇提副教授沒有繼續讀博,張大鵬遂成為中國人工智慧領域第一個博士生)。
李開復給李生寫了一封信,說要挖走三個人,即:荀恩東、王海峰和劉挺。
荀恩東,在微軟中國研究院工作了兩年,後被引入香港科技大學,現在北京語言大學任教,研究機器翻譯和語法分析。
劉挺,在微軟中國研究院呆了一年,又返回哈工大教書,現在是哈工大人工智慧研究院副院長。
王海峰,是中國最早做搜索的一撥人,加入微軟中國研究院後,李開復親自帶他。一年多後,跳槽到東芝中國研究院,2010年加入百度,深得李彥宏信任,2019年5月出任百度空缺了10年之久的CTO。
巧合的是,同月,中國工程院公佈了2019年院士增選有效候選人名單,所涉專業為“人工智慧”方向的候選人共有五位,分別是王海峰(百度),沈向洋(微軟中國),楊強(微眾銀行),莊越挺(浙江大學),鄭慶華(西安交通大學)。
候選名單中還有兩位與人工智慧相關的企業人物,分別是李彥宏和王堅,均位元列工程管理學部“新興交叉領域工程技術創新管理”專業。
一個月後,第二輪評審的候選人名單公佈,李彥宏、王海峰、沈向洋落選,王堅仍在列。
能PK掉沈向洋和王海峰等老同事,足以證明王堅的卓越,此時他的身份是阿裡巴巴集團技術委員會主席。
20年前,當王堅離開杭州來到北京時,創業失敗的馬雲正帶領一幫人從北京折返杭州,希冀東山再起;當王堅正式加入微軟中國研究院時,馬雲與“十八羅漢”在湖畔花園創辦了阿裡巴巴。
一個是風頭正勁的學術明星,一個是屢敗屢戰的創業者,誰能想到這兩個人將來會有交集,並作出驚天之事。
機緣就是這麼神奇。
4
在微軟中國研究院,專家學者們得以全心全意投入基礎研究,而不用操心經費及產出。
在王堅看來,研究院要做的就是提出新概念,“我們不是要改進現有的而是要提出新的,不是把人家已經做過的東西做得更好,而是要做人家從來沒有做過的事情。”
即使是三流的開創也要比一流的跟隨更加艱難。所以,王堅一直給自己出難題。夏天開始的時候,他帶領張高和韓堅全力投入“人機界面”的研究,改進中文輸入法就是他加入微軟後的“首秀”,結果“驚豔”。
1999年10月18日,李開復帶領微軟中國研究院的6個研究員(王堅、李勁、周明、高劍峰、沈向洋和張益肇),抵達微軟美國總部,親自向比爾·蓋茨彙報。
李開復著重介紹了中文輸入方面的研究,比爾·蓋茨非常感興趣。回京後,微軟中國研究院專門舉辦了一次新聞發佈會。
王堅最後上臺,他說“做研究不一定隨大流。”
2001年,微軟中國研究院更名為微軟亞洲研究院。2004年,王堅出任常務副院長。他的主要成果包括:SQM大規模資料處理系統、數位墨水、支援亞洲語言的無模式切換使用者介面等,特別值得一提的是2005年在世界上首次推出手寫數學公式識別器,並在胡錦濤主席2006年訪問微軟時專門為主席和夫人作了演示。
王堅深受比爾·蓋茨信任。他帶的組是研究院裡當面和比爾·蓋茨討論問題最多的小組。
微軟正處巔峰期,微軟亞洲研究院兵強馬壯,王堅有足夠的空間去大展拳腳,直到一個叫劉振飛的人找上門來。
5
劉振飛,現阿裡巴巴合夥人、高德總裁,不過2008年他找到王堅時,還是淘寶網技術保障總監,他因為資料上的技術難題,想挖王堅的手下,結果被跳票,他索性直接去挖王堅。
王堅當時帶人所做的專案正和資料相關,通過海量資料分析瞭解使用者習慣、優化軟體反覆運算。有人寫郵件給王堅,描述了他在比爾·蓋茨面前提到軟體的資料分析,比爾·蓋茨說你應該去找王堅。
劉振飛畢業於北京大學,是王選院士的高足,眼光可謂毒辣。
那年夏天,阿裡巴巴CPO彭蕾(阿裡巴巴創始人、合夥人,現任Lazada董事長)親自找到王堅,一見面就說:“我們現在很差,就希望你來拯救我們”。
她說的是阿裡巴巴的“登月計畫”。
頭一年,馬雲召集阿裡巴巴的高管們在寧波開了一次戰略會,決定要把淘寶、支付寶、B2B 等子公司的底層資料打通,實現“商業新文明”。為此,阿裡巴巴迫切需要尋找一個技術“救星”。
王堅就這樣進入了彭蕾的視野。
彭蕾說,阿裡巴巴的資料就是一座金山,但不知道如何挖掘,現在是坐在金山上吃饅頭。
王堅心動了。
2008年11月18日,阿裡巴巴宣佈,王堅博士正式加盟阿裡巴巴集團,擔任首席架構師一職,直接向馬雲彙報工作。
馬雲表示:“王堅博士將幫助阿裡巴巴集團建立世界級的技術團隊,並負責集團技術架構以及基礎技術平臺建設。”
彼時,阿裡巴巴高管中不乏技術牛人,比如中國開源第一人章文嵩。他本碩博均就讀於國防科大,師從電腦學院泰斗胡守仁教授(我國第一台億次銀河巨型電腦研製的設計者和主要領導者之一),1998年創建LVS(Linux Virtual Server),2000年,Google搜索“wensong”會出現上千萬條記錄,2009年加入淘寶後,帶動了一系列開源運動。
但為何馬雲偏偏如此相信王堅?
除了都充滿理想主義氣息之外,在阿裡巴巴安全團隊負責人吳翰清看來,原因是“王博士是唯一一個能把技術講得連馬雲都能聽懂的人。阿裡有很多技術VP,但他們都沒有王博士這本事,所以他們也只能做到VP,而做不到CTO。”
被馬雲任命為CTO是王堅加入阿裡巴巴差不多四年後的事情,卻招致了這家公司史上最強烈的反彈。
阿裡巴巴已很長時間沒有CTO,上一任CTO還是吳炯。
吳炯曾就讀于上海交通大學,後赴美,1989年畢業于密西根大學,1996年加入美國雅虎,負責搜尋引擎和電子商務技術的開發。他1997年結識馬雲,2000年初成為阿裡巴巴的天使投資人,2000年5月正式加入阿裡巴巴,擔任CTO,領導開發了阿裡B2B網站,淘寶網以及相關系統的核心技術和產品設計。2005年阿裡巴巴合併雅虎中國後,他還主持了雅虎中國搜索事業部的工作。2008 年離職,專做投資人。
兩相對照,吳炯的光環太矚目了,而王堅進入阿裡巴巴後,卻成了名噪一時的“騙子”。
6
一切皆因阿裡雲所起。
1961年,美國總統甘迺迪向全世界宣佈:“美國要在十年內,把一個美國人送上月球,並將使他重新回到地面。”從此,美國雄心勃勃的“阿波羅登月計畫”開始實施,共分為“水星計畫”、“雙子星座計畫”及“土星計畫”三步。
雖然沒有關於阿裡巴巴“登月計畫”的具體時間表,但顯然也採用了分步走的策略。2009年9月10日,阿裡巴巴成立十周年的日子,阿裡雲成立了,它要為阿裡巴巴“登上月球“提供無盡的算力。
王堅擔任阿裡雲首任總裁,他對400多名團隊成員說:“如同電力是工業社會的底層設施,雲計算將取代傳統IT設備,成為互聯網世界的底層設施”。
雲計算這項新技術的雛型來自上世紀70年代,1963年,DARPA(美國國防高級研究計畫局)向麻省理工學院提供津貼啟動MAC專案,要求麻省理工學院開發“多人可同時使用的電腦系統”技術,這產生了“雲”和“虛擬化”技術的雛形。
2003-2006年Google發表了四篇文章,分別是關於分散式檔案系統(GFS),平行計算(MapReduce),資料管理(Big Table)和分散式資源管理(Chubby)。至此奠定了雲計算發展的基礎。
2006-2008年,亞馬遜、Google、微軟、IBM等巨頭相繼推出雲服務生態系統和雲計算平臺。
這樣看來,中國雲計算起步並不算晚。但先行者註定孤獨。阿裡雲成立之初,雲計算在中國還是個新名詞,外界充滿不解。
一個令阿裡雲老員工們記憶猶新的細節是,公司剛成立的前兩年,他們出差用餐時,開發票的服務員總是“好心”地將“阿裡雲計算有限公司”加一個字“阿裡雲電腦有限公司”。
王堅從微軟亞洲研究院帶過來的林晨曦等人成為阿裡雲乃至中國雲計算的最初班底。
林晨曦,畢業于上海交通大學,亞洲第一個ACM全球大賽總冠軍,2005年加入微軟亞洲研究院。他和同事們“每天思考著全人類命運這樣的宏大未來,從不為經費擔心。“ 有一天,王堅把他和孫冰(奧林匹克資訊學競賽冠軍)叫到辦公室,說他和馬雲聊得非常好,打算去阿裡,準備做雲計算,如果他們有興趣,可以一起去。
王堅的遊說很具有鼓舞性,他說,“雲計算這件事非做不可。如果我們所有的資訊計算都必須通過國外的系統,那麼未來的中國不堪設想。”
林晨曦和孫冰很快就做出了決定,“其實很簡單,我相信王博士。只能選擇相信。“
儘管阿裡雲是2009年9月10日才宣佈成立,實際上早幾個月前就開始運轉了。林晨曦記得很清楚,阿裡雲第一個員工在2008年10月24日入職,正好是1024。“冥冥註定,阿裡雲和代碼脫不開關係。”
林晨曦成為阿裡雲第一任技術總監,入職後“兵荒馬亂,十幾個人邊寫代碼邊四處招人。”
阿裡雲當時辦公室在北京上地,沒有空調,夏天很慘,工程師們只好買來一堆冰塊,放在臉盆裡降溫。此外,辦公室還經常停電。
有次馬雲來京,專門去阿裡雲辦公室,想看看工程師們到底在做什麼。林晨曦打開電腦想給馬老師看看,不巧還停電了,馬雲只好坐在辦公室等了半個小時,直到電力恢復。
環境確實太差了。許多工程師來面試,一看樓裡這麼破,就不想來了。林晨曦趕緊解釋,這只是暫時的,新的寫字樓還在裝修。
饒是如此,在那個破舊辦公室裡,2009年2月1日,阿裡雲工程師寫下“飛天”第一行代碼。
“飛天”是阿裡雲為了“登月計畫”而做的分散式運算系統,其英文名是Apsara——吳哥王朝的阿僕薩羅飛天仙女,寓意希望為人帶來幸福。
“飛天”是想將全球數百萬台伺服器連成一台超級電腦,讓任何企業、機構和個人只要聯網就能獲得即開即用的計算能力。
關於“飛天”,林晨曦有個通俗的比方:
有一波人不知天高地厚,想做分散式系統,好比大家把腳綁在一起,單、雙報數,然後同時邁步。人數少時,這很簡單。但是當人足夠多時,就不簡單了。每個人都覺得自己在邁腳,但實際上不是,這是分散式系統遇到的第一個挑戰,同時性具有相對性;有人邁左腳,有人邁右腳,有些人兩隻腳一起邁,就有人摔倒了,摔倒的人會把邊上的人帶著摔倒,這是分散式系統遇到的第二個難題;還有第三個問題,那就是異構,有的人長得高,有的人長得矮,步伐不一樣,就會帶來困難;還有很多動態環境下帶來的不確定性,路面有石頭,或者颳風下雨……最後還是走到了終點。
可誰也沒想到,“終點”那麼遠,“走”得好辛苦。
7
馬雲對王堅是百分百支持, 要人給人、要槍給槍,阿裡巴巴內部各路精兵強將都彙集到阿裡雲。
有一次元旦年會上,王堅把馬雲叫來給工程師們打氣。馬雲說他不懂技術,但很尊敬搞技術的人,認為技術大牛都是俠客,還說“程式都是bug 組成的”,贏得了全場的掌聲。接著,馬雲更是豪氣的說“登月計畫”是一定要做的,先砸10 個億,不夠再砸10 個億,直到做出來為止,再次贏得了全場的掌聲。
一開始大家都志得意滿,意氣風發,覺得一群技術牛人在一起還有什麼是做不出來的?
但現實是,沒有先例可循,阿裡雲得從零開始。
在林晨曦看來,“阿裡雲就像是一個軍隊,在攻佔一個看起來不可能攻克的山頭,一批衝鋒者倒下了,下一批衝鋒者接著頂上。其實是很悲壯的,因為沒有人知道,未來到底能不能成功。”
工程師們的黃金時間只有幾年,不願意在黑暗中一直摸索。各種爭吵和懷疑出現。壓力實在太大,很多人只在團隊呆了半年就走了。
甚至從微軟亞洲研究院追隨王堅而來的人也在放棄。2010年,一位老部下離開阿裡雲時,深情又失落地對王堅說,做雲計算的感覺就像集體合圍抱一棵大樹,誰都知道最終大家的手會連在一起,但誰也不知道那一刻會發生在何時。
2011年底到2012年初,是阿裡雲最艱難的時候。
在阿裡巴巴外部,業界都不看好雲計算。中國IT 領袖峰會上,李彥宏說“雲計算這個東西,不客氣一點講它是新瓶裝舊酒,沒有新東西。"馬化騰則認為"它是一個超前的概念,目前佈局為時過早。"
在阿裡巴巴內部,大家都在看王堅的笑話,譏諷他是糊弄馬雲的“騙子”。其它部門的技術leader們都虎視眈眈,就等阿裡雲解散,然後去“瓜分”工程師。
有一次一群人吃飯,劉振飛問王堅,外面那麼多人罵你不靠譜,看你好像不在乎。眾人都愣住了。王堅埋著頭,想了半天說了一句,“我這就是死豬不怕開水燙。”
當王堅被燙的體無完膚時,馬雲又添了一桶開水。2012年8月14日,他發文任命王堅為CTO,全面負責規劃、制定和實施集團技術發展戰略。
阿裡巴巴內網徹底炸了,反對之聲洶湧不止,概而言之就是:王堅不懂技術、不懂管理,浪費資源無數,不被追責,反而高升,難以服眾。
沒人知道那段時間王堅承受了多少壓力。“有時候堅持是很難的,有時候放棄是很難的,進退維谷,但是具體到做飛天這件事我覺得堅持是很難的。”
關鍵時刻,又是馬雲撐了王堅和阿裡雲一把。他在內網公開回應:“博士是人不是神,博士的不足大家都知道,我瞭解的也並不比大家少,但博士了不起的地方,估計很少有人知道。假如,10年前我們就有了博士,今天阿裡的技術可能會很不一樣”。
為此,王堅對馬雲無比感激,後來寫書時,把這段話作為前序。
8
因為“理想主義”和“太執著”,王堅被認為是阿裡巴巴最像約伯斯的人,他的書架上也有一本沃爾特·以撒森寫的《約伯斯傳》。
約伯斯不好相處,以“現實扭曲力場”著稱。無獨有偶,王堅身邊人也能感受到他的“現實扭曲力場”。
那幾年,阿裡雲的工程師們一旦決定留下來,就會成為王堅的“腦殘粉”,他們堅信王堅的方向永遠正確。即使錯了,也是他們這些執行者錯了,“能力無法匹配博士的要求”。
王堅極具感染力,總喜歡給部下講雷達的故事。在二戰勝利前夕,《時代》週刊封面本來要刊登雷達的照片,都已經通知發明雷達的團隊了,這是一件無比榮耀的事情。結果發行前,改為刊登原子彈的照片。雷達團隊非常沮喪,因為從整場戰爭來說雷達的意義才是最大的。
每次王堅講這個故事時,聽眾都很興奮。他總會用“你們在做從來沒有人做過的事情,不要怕犯錯”一類的話來鼓勵大家,然後眾人就覺得在做著一份無比光榮的工作。
2012年8月,王堅把每年一度的阿裡雲“飛天獎”頒給了全體員工,頒獎詞是一句略帶悲情的話——“堅持就是偉大”。
那年下半年,淘寶系“去IOE”完成,“飛天”已經跑得比較順暢,林晨曦可以放心離開了,“我在阿裡四年,其實相當於呆了十年。阿裡雲是一年走完了正常研發兩年半的路。人的頻率調快了兩倍半。”
離職那天,他和同事們在西湖國際旁邊的一家小館子聚餐,氣氛有點沉重。王堅開玩笑,“我們不應該這麼自私,晨曦不只屬於阿裡。”
那是一種什麼感覺呢?
林晨曦覺得不是傷感,不是難過,恍惚覺得:“在阿裡雲的四年,像是過完了一輩子。以後的事情,都是下輩子的。”
榮光時刻到底來臨。2013年8月15日,“飛天”5K系統上線提供服務,這是中國第一次實現單個集群超過5000台伺服器的通用計算平臺,也是世界上第一個對外提供這種能力的公司。
阿裡雲終於守得雲開見月明。同年12月,啟動“登月計畫”。
“去IOE”完成後,阿裡雲沉澱了一套“商業-開源-自主” 軟體交互反覆運算的工程管理方法,成功服務國內關鍵行業客戶超過20萬家,推動了國內企業向雲計算的全面轉型。
後來,那些早年離開的工程師,一直在想,阿裡雲最終能成功,王堅的堅持是不是唯一的原因?
有一次,林晨曦和老同事們聚會,為這個問題一直聊到淩晨3點,結論是:“如果換一個人,也許早就掛了10遍了”。
在2012 年的阿裡雲年會上,王堅走上台,他緊攥話筒,幾次抬眼望向遠處,幾次欲言又止,最終泣不成聲。
他說:“這兩年我挨的罵甚至比我一輩子挨的罵還多。但是,我不後悔。只是,我上臺之前看到幾位同事,他們以前在阿裡雲,現在不在阿裡雲了。”
這其中就包括吳翰清,2012年9月離職創業,就在“飛天”即將展露曙光的前夕。走之前,王堅約他長談,臨別時,他流淚說:“博士,其實我一直是相信你的!”
兩人相對,淚眼凝噎。
當吳翰清創業後,才深深體會到王堅的不易。“現在我回想起來,王博士是一個典型的理想主義者,他沒有太多的創業經驗和產品經驗,僅憑著一腔熱忱帶領著一群同樣熱忱的工程師們在做世界上最難的技術之一。走了很多彎路,也傷了很多人的心,但也栽了很多樹,讓後人乘了涼。”
9
乘涼者甚多。
阿裡雲趟出一條路後,國內雲計算熱潮興起,2013年就此成為中國雲計算的轉捩點。UCloud和七牛雲等協力廠商雲計算企業成立,騰訊開放平臺也是這一年對生態企業開放,AWS高調入華。
2014年9月19日,阿裡巴巴在美國上市。在上市故事中,阿裡巴巴一再強調的核心業務之一是“雲”和大資料,業務戰略是“雲+端”。這個基於“雲”的宏大敘事,正是始於六年前王堅掀起的內部技術革命。
技術底座已經構築,接下來就是高歌猛進。
馬雲再次展現了善於點將的本領,用阿裡小貸負責人胡曉明(現為螞蟻金服總裁)接替王堅,擔任阿裡雲新CEO,給這家技術公司注入商業基因。
到2016年,阿裡雲營收規模已躍居亞太第一,全球第三,連續數年保持三位數的增長。
同年,王堅卸去阿裡雲總裁及阿裡巴巴CTO兩職,專任阿裡巴巴集團技術委員會主席。
目前,40%的中國500強企業、近一半中國上市公司、80%中國科技類公司是阿裡雲的客戶。
在阿裡巴巴內網,王堅被貼上各種各樣的的標籤,出現頻次最高的有:“遠見”、“先知”、“堅定”、“堂吉訶德”……
但這個被稱為中國10年來最成功CTO的男人卻說,“我是一個既得利益者。”
2018年,王堅受邀參加央視《朗讀者》節目,誦讀了喬恩·克拉考爾的《進入空氣稀薄地帶》,回憶起阿裡雲的創業史。
他對董卿說,計算像是一口井,井裡有著最珍貴的水資源。隨著大家對計算需求的增大,要有人想辦法把井水變為自來水,讓它順暢地流入尋常百姓家。這個過程看似簡單,實際上需要建水廠、鋪管道、做水龍頭、裝水錶等一系列環節的精密配合。更重要的是人們對新理念的接納,因為第一口自來水從水龍頭裡流出之前,沒有人相信。
在阿裡雲出現之前,國內也沒有人覺得這個新技術能推動社會進步。
王堅說,他願意做那個引水的人。領著一群年輕人,去做一個中國人從來沒有做過,只在他們腦子裡存在過的東西。
2017年,中國電子資訊技術年會上,王堅代表“飛天雲作業系統核心技術及產業化”專案接過科技進步特等獎的獎牌,這是該獎項設立15年以來,首次頒發的特等獎。
中國電子學會鑒定認為:“飛天系統核心技術完全自主可控,總體技術達到國際領先水準……對我國乃至全球互聯網產業發展具有特殊重要的推動作用,是以企業為主體的雲計算核心關鍵技術自主創新的成功實踐。”
有人在知乎上寫下這樣幾句話:“10年前,我也覺得博士(王堅)是個騙子。現在看看,我覺得他是個偉人。我覺得沒有這些別人嘴裡的偏執狂,世界又怎麼可能被改變。”
10
道不孤,必有鄰。
王堅現在更多扮演的是阿裡巴巴技術先驅的角色,當下研究旨趣是“城市大腦”,開闢以資料資源為關鍵要素的城市發展路徑。
人類最偉大的作品是城市,但也帶了“城市病”。在王堅看來,“城市大腦”可以解決這些問題,它最主要的作用就是讓城市的資料流程動起來,產生價值。
解決交通問題,並不是“城市大腦”的唯一功效,它是未來城市新的基礎設施,可以在城市的建設發展中做出更多貢獻。
互聯網、資料、雲計算,這三者始終讓王堅念茲在茲,在他心目中就如同火,新大陸和電,足以改變世界,值得用一生去探尋。
英雄所見略同。李開覆沒有看走眼,馬雲也沒有看走眼,他真是一個純粹的技術人。
2014年,吳翰清重回阿裡雲,回首往事,他說時光本身無法倒流,如果能穿越到那個時間,他可能不會選擇離開,有可能選擇在這個公司把這個事情做成。“其實我從王博士身上學到了很多東西,我學到的最重要的東西就是堅持,其實他的所作所為以及他個人的軌跡,有一點顛覆我的世界觀。”
被改變的不止吳翰清一人。
如今,阿裡巴巴技術大牛雲集。許多人,無論是才智,還是年華,都不遜於10年前的王堅。當國家給予民營企業技術人至高榮譽時,對他們而言,風好正是揚帆時。
王堅的故事,重新定義了阿裡巴巴工程師這個群體,他們腳踏實地,但高舉理想主義旗幟,不墜青雲之志。保不齊,若干年後,他們之中會湧出又一個院士。
十年一覺“飛天”夢,譭謗也好,讚歎也罷,對王堅來說,皆為過眼雲煙。他撰有《線上》,結尾如此寫道:
什麼是對技術的熱愛?你真的相信技術會改變很多東西嗎?你有沒有足夠的自信和熱愛去捂暖這條蛇,哪怕它蘇醒以後可能會咬你一口?當你熱愛一個東西的時候,你很難預料最終的結果。
但是“如果困難出現,就要戰鬥到底。“ 那是他最喜歡的《進入空氣稀薄時代》中的一句話。
參考資料:
1.《追隨智慧——中國人在微軟》,淩志軍,中國友誼出版公司
2. 《道哥:王博士》,吳翰清,道哥的黑板報
3. 《阿裡雲第一任技術總監的故事》,林晨曦,阿裡雲橙
4. 《雲之戰》,孫宏超,騰訊深網
5.《雲計算深刻改變未來》,張為民,科學出版社
6.《王堅:一個預言家的命運》,張寒、周欣宇,人物
機器翻譯 歷史 在 翻譯這檔事 Facebook 的最佳解答
《基因:人類最親密的歷史》,莊安祺譯:翻譯問題續探(二)
上一篇po出後有網友希望具體指出問題所在。另外,也得知出版社見文立即商議修改所提段落的翻譯問題:
//昨天與合作夥伴討論了原文翻譯與專業知識 ( 謝謝嘉儀與小安子 ),修正了譯文。覺得身在資訊流通的年代也有很大的好處,量產時代就算我們找盡資源還是力有未逮之處,尤其編輯不是專業人士,更是汗顏,而各路專業人士願意幫我們指出錯誤,讓我很感激,書能有不停修正至更臻完善的機會。//
在一本新書的熱銷期,樂見如此積極的作爲。本文:
一、討論上一篇指出的翻譯問題細節,供出版社參考;
二、討論網友一頁截圖中發現的新問題;
三、再加「博客來」試讀內容第一頁(此書前言的開頭)發現的誤譯。
//Once genes had been implicated in the development of sexual preference, the gay child was instantly transformed to normal. His 【hateful】 enemies were the abnormal monsters.
一旦性偏好的發展牽扯到基因,同性戀的孩子瞬間就變為正常,他【可惡的】敵人才是異常的怪物。//
說明:hateful 有兩個相反的意思,要從語境去弄清楚,這句話看了前文,加上末句有「才是」的對照語氣,意思非常清楚,是「懷著恨、充滿惡意的敵人」倒過來變成異常的怪物,而不是「可惡的敵人」。如果作者意指「可惡的敵人」,就不可能有 His hateful enemies were the abnormal monsters. 這句當中的「反而變成」、「才是」的含意。
hateful + 事物,意思通常很明白,是「可恨的」;hateful + 人,就要小心思考理解了,兩種意思都可能出現,光查字典幫不了你。
//It was boredom, more than activism, that prompted the search for the gay gene. Dean Hamer, a researcher at the National Cancer Institute, was not looking for controversy. He was 【not even looking for himself】. Although openly gay, Hamer had never been particularly intrigued by 【the genetics of any form of identity, sexual or otherwise.】
美國國家癌症研究所(National Cancer Institute)的研究員狄恩・哈默(Dean Hamer)並無意找碴,他甚至【也並不在乎自己的身分】,雖然他已出櫃,但對【任何形式的身分認同、性或其他遺傳學】並無特別興趣。//
說明:
1. not even looking for himself 的 looking 呼應同一段第一句 search for the gay gene(探尋是否有同性戀基因)的 search,兩個字都是「尋找」之意,所以這句意為「他甚至也不是爲了自己去探尋」,因爲下一句便說明原因:原來,他對很多東西根本不太感興趣,會發現同性戀基因,只不過因爲無聊、無意間發現。不懂這英文怎會理解成「不在乎自己的性向/身分」?根本瞎掰!
2. 下一句也很糟糕:Hamer 對「任何形式的身分認同、性或其他遺傳學」三件事不感興趣,中譯意思顯然是三種東西平行並列,但原文怎麼寫?the genetics of any form of identity, sexual or otherwise 這串字所指的,只有一件事,這是一個樹狀結構:of any form of identity 修飾 genetics,而 sexual or otherwise 又修飾 identity,整個合起來理解,就是「性(sexual)或其他方面的任何一種身分認同的遺傳成因」,也就是說,Hamer 對同性戀是否有遺傳成因並不太感興趣。
//He had tried, unsuccessfully, to study medicine at Edinburgh—but, horrified by the “screams of a strapped-down child 【amid the blood and sawdust】 of the . . . 【operating theater】,” had fled medicine to study theology at Christ’s College in Cambridge.
他本在愛丁堡習醫,卻因「【手術劇場】裡被綁縛的兒童【在血汙和鋸屑中】的尖叫」而驚悸,棄醫轉到劍橋大學基督學院研習神學。//
(中譯來自網友提供的截圖)
說明:
1.「手術劇場」真是個荒謬的譯法,operating theater 是醫院的手術示範室、手術觀摩室,像樣的字典會另立條目指出這個意思,不會跟「劇場」的意思混淆。在這樣一個空間,一邊進行手術、一邊讓見習醫師或訪問者居高觀摩,處理的是人命關天的真人真事,怎麼變成虛構故事的「劇場」了?在戰爭語境下,theater 是「戰場」,theater 同時也是「電影院」,也是「戲劇表演」,也可指「看表演的觀衆」(比較古老的用法)。最近有本出版熱烈宣傳的書,書名竟然就叫《手術劇場》,這是一種譁衆取寵的取名手段,不是原書名的直譯,但畢竟那是出版社爲了賣書、吸睛所擁有的權利和自由。在普通的文章裡,不同意義的 theater 就該有合適的譯法,否則要叫讀者如何理解?中國的中文譯法經常大而化之,電腦程式的 macro,和 macroeconomics 的 macro,一律是「宏」字;餐廳的 menu 和應用軟體的 menu 一律稱「菜單」,台灣請不要新創如「手術劇場」、「(二次大戰)歐洲劇場」這種沒水準的糟糕詞彙,中文沒有貧瘠到需要一詞用到底。
話說,香港有個動物醫院,網站有中英雙語介紹文,中文看來像是拙劣的半人工半機器翻譯的內容:
// 他們還接受靜脈輸液的利益,在手術過程中,包括絕育成本。手術是在無菌的方式和手術劇場。//
極爲可笑,不知所云,英文則是:
// They also receive the benefit of intravenous fluids during the surgery inclusive in the neutering cost. The surgery is carried out in a sterile manner and operative theater.//
這段英文拿去餵給 Google Translate 或 Bing 的機器翻譯,出來的結果都還勝過人工,機器都懂得把「operative theater」正確譯為「手術室」。難道現在一些譯者連查一查字典確認字義,或拜現代科技之賜、參考一下機譯結果這兩件事都懶得做了?
2. 同一句中譯裡,「在血汙和鋸屑中的尖叫」太過直譯 amid 這字,尖叫如何能在「鋸屑中」?這 blood and sawdust 指的是從手術臺流到地上的一灘血水,以及傾倒在地上用來吸收血水的木屑,可不是「人體鋸屑」,而木屑並沒有在空氣中亂飄,譯者寫出「在鋸屑中的尖叫」時,腦子不知浮現什麼奇異的「劇場」景象?我好像看到了譯者心中想像著,是不是那小孩的腿被鋸斷時,有「鋸屑」噴飛出來?
以下這一長段落,來自出版社提供的博客來試讀第一頁:
//Jagu—the fourth-born of my father’s siblings—came to live with us in Delhi in 1975, when I was five years old. His mind was also crumbling. Tall and rail thin, with a slightly feral look in his eyes and a shock of matted, overgrown hair, he resembled a Bengali Jim Morrison. Unlike Rajesh, whose illness had surfaced in his twenties, Jagu had been troubled from childhood. Socially awkward, withdrawn to everyone except my grandmother, he was unable to hold a job or live by himself. By 1975, deeper cognitive problems had emerged: he had visions, phantasms, and voices in his head that told him what to do. 【He made up conspiracy theories by the dozens: a banana vendor who sold fruit outside our house was secretly recording Jagu’s behavior. He often spoke to himself, with a particular obsession of reciting made-up train schedules】 (“Shimla to Howrah by Kalka mail, then transfer at Howrah to Shri Jagannath Express to Puri”). He was still capable of extraordinary bursts of tenderness—when I mistakenly smashed a beloved Venetian vase at home, he hid me in his bedclothes and informed my mother that he had “mounds of cash” stashed away that would buy “a thousand” vases in replacement. But 【this episode was symptomatic:】 【even his love for me involved extending the fabric of his psychosis and confabulation.】
一九七五年,當時我五歲,父親的四哥賈古搬來德里與我們同住。他也有精神崩潰的現象。賈古生得又高又瘦,帶著略顯凶悍的眼神和一頭糾結的亂髮,長得就像孟加拉版的美國歌手吉姆.莫理森(Jim Morrison)。和二十歲才發病的拉結什不同的是,他自幼就有精神問題。賈古生性內向畏縮,除了祖母之外,他對任何人都退避三舍,無法工作,生活也不能自理。到了一九七五年,他出現更嚴重的認知問題:幻象、幻覺,聽到腦裡有人指揮他要怎麼做。【他捏造了數十個陰謀:我家門外賣香蕉的小販偷偷記錄了賈古的言行舉止,說他自言自語,特別迷戀自訂的火車行程】 (「由西姆拉搭卡爾卡特郵車到豪拉,然後在豪拉轉札格納斯快車到浦里」)。他依舊會有溫情流露的時刻──有一次我不小心打破了家裡珍藏的威尼斯花瓶,他把我藏在他的被子裡,還告訴我媽他有「成堆的現金」可以買「上千個」花瓶賠償。不過,【這件事其實也說明了】【連他對我的愛都含有思覺失調和虛談症(confabulation)】//
說明:
1. He made up conspiracy theories by the dozens 後接一個冒號,這告訴我們,接下來的那句應該是要舉例陰謀,的確也是。不過,譯者卻誤解了英文,把再下一句的「自言自語」誤認為作者還在講述那陰謀,意思變成小販在無端指控賈古(「說他會自言自語、特別迷戀自訂的火車行程」),因此不是事實,但其實作者僅用一個短句舉例陰謀(a banana vendor who sold fruit outside our house was secretly recording Jagu’s behavior),接著便把主題拉回賈古身上,不再提陰謀,所以賈古的自言自語和覆誦火車行程,都是事實。
改:他捏造了數十個陰謀,例如:指控我們家門外賣香蕉的小販偷偷記錄了他的言行舉止。賈古也經常自言自語,特別執迷於覆誦他捏造的火車行程。
2. this episode was symptomatic 的翻譯頗敷衍,連醫學基本字彙都掌握不好,很令人不放心。symptomatic 是基本義「表現為某疾病的symptom」,不是引申義「某某事物即將發生的徵兆、跡象、預示」(sign, omen, portent),原譯「說明」,似乎把 symptomatic 理解爲後者而脫離了「病徵、症狀」之意。
symptomatic 後接冒號,表示下一句的內容在解釋、釐清前一句。什麼病的symptom?psychosis 和 confabulation。psychosis 還不能譯為思覺失調,因爲作者到了下一段才交代賈古被醫生正式診斷有思覺失調,這一段,作者對賈古的病症只是稱之為較籠統的 psychosis,譯者不要隨便「劇透」,辜負作者細心的鋪陳。
改:不過,這個小插曲是病徵的展現,連他對我的愛也攙進他的精神錯亂和虛談症(confabulation)。
* * *
順便介紹一下,此書除了譯者以外,還有好棒棒的專家「掛名」審訂、導讀,以及一堆名人「掛名」推薦:
臺灣大學生命科學系教授 于宏燦 審訂/導讀
朱雪萍、吳青錫、呂俊毅、李文雄、李家維、阮雪芬、洪蘭、孫以瀚、徐建國、陳沛隆、陳嘉祥、超級歪、董桂書、劉炯朗、鍾明怡、顏擇雅、蘇文慧 各界學者/名人好評推薦
* * *
讀不了原文、必須靠翻譯書吸收知識的讀者,請多多運用你批判思考的本能,不要對翻譯照單全收,或誤以爲你自己腦袋有問題。譯文的品質不太可能改善,我們必須反求諸己。
機器翻譯 歷史 在 机器翻译的发展与局限 - 汉斯出版社 的相關結果
机器翻译 的研究历史可以追溯到20世纪三四十年代。20世纪30年代初,法国科学家G. B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,俄罗斯人特洛伊斯基 ... ... <看更多>
機器翻譯 歷史 在 机器翻译发展简史 - 知乎专栏 的相關結果
机器翻译 的提出(1933-1949)机器翻译的研究历史最早可以追溯到20 世纪30年代。1933年,法国科学家G.B. 阿尔楚尼提出了用机器来进行翻译的想法。 ... <看更多>
機器翻譯 歷史 在 是巴別塔】機器翻譯發展史:笨機器人,是怎麼學會說人話的 的相關結果
在冷戰初期的1954年1月7日,Georgetown–IBM experiment在紐約的IBM總部開始了,IBM 701計算機完成了史上第一個機器翻譯,自動將60個俄語句子翻譯成了英語 ... ... <看更多>