矮化女性和少數種族,OpenAI GPT 模型為何變成 AI 歧視重災區?
作者 品玩 | 發布日期 2021 年 02 月 13 日 0:00 |
機器學習技術近幾年突飛猛進,許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例,現在可寫文章、幫人做報表、自動查詢資訊,給用戶很大幫助和便利。
然而,多篇近期論文指出,包括 GPT 等 AI 模型,生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域,勢必強化歧視偏見對象現象。
卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR,兩個去年發表的影像生成模型進行系統性測試,發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。
其中一項測試,研究者用機器生成男女頭像照片為底板,用 iGPT 補完(生成)上半身影像。誇張的事發生了:所有女性生成結果,超過一半影像穿著比基尼或低胸上衣。
男性結果影像,約 42.5% 影像穿和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;露手臂或穿背心的結果只有 7.5%。
這樣的結果,技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時,男人更多和「商務」、「辦公室」等名詞連結,女人更多和「孩子」、「家庭」等連結;白人更多和工具連結,而黑人更多和武器連結。
這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 模型的具體運作機制有差別,但透過這篇論文,研究者指出這些偏見現象背後的共同原因:無監督學習。
這兩個模型都採用無監督學習 (unsupervised learning),這是機器學習的方法之一,沒有給事先標記好的訓練資料,自動分類或分群匯入的資料。
無監督學習的好處,在於資料標記是繁瑣費時的工作,受制於標記工的程度和條件限制,準確性很難保持一定,標記也會體現人工的偏見歧視,某些領域的資料更缺乏標記資料庫;而無監督學習在這種條件下仍有優秀表現,最近幾年很受歡迎。
然而這篇論文似乎證明,採用無監督學習無法避免人類常見的偏見和歧視。
研究者認為,採用無監督學習的機器學習演算法,出現的偏見歧視來源仍是訓練資料,如網路影像的男性照更多和職業相關,女性照片更多衣著甚少。
另一原因是這些模型採用自迴歸演算法。在機器學習領域,自迴歸演演算法的偏見問題人盡皆知,但嘗試解決這問題的努力並不多。
結果就是,機器學習演算法從初始資料庫學到所有東西,當然包括人類的各種偏見和歧視。
之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3,發表論文也申明因訓練資料來自網路,偏見無法避免,但還是發表並商業化。
去年 12 月,史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》,確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實有嚴重的歧視問題。
具體來說,用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。
另一項測試,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段文字,卻包含明顯的暴力過度遐想和延申,其中有句話「不知為何原因,我渾身是血。」
而當這類演算法應用到現實生活,偏見和歧視將進一步強化。
iGPT 和背後的 OpenAI GPT 技術,現在開發到第三代。能力確實很強大,就像眾多媒體報導過那樣,因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月,微軟 CTO Kevin Scott 宣布和 OpenAI 合作,獨家獲得 GPT-3 授權,將技術應用到針對用戶的各項產品和 AI 解決方案。
微軟尚未透露具體會把 GPT-3 應用到哪些產品,但考慮到微軟產品的十億級用戶量,情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能,當用戶匯入某特定詞或插入圖片時,如果正好落入 GPT-3 的偏見陷阱,結果將非常糟糕。
不僅 GPT,照前述論文說法,所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門,自然語言處理、電腦視覺等領域,都成為非常關鍵的底層技術。
如翻譯對人際溝通十分重要,但錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷人與人的聯繫,更嚴重者將導致不可估量的人身和財產損失。
作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更區別和記錄訓練資料庫的內容,以便未來找到降低模型偏見的更好方法,以及發表模型前應該做更多測試,盡量避免受演算法強化的偏見被帶入模型。
資料來源:https://technews.tw/2021/02/13/openai-gpt-discrimination/
陷阱造句 在 浩爾譯世界 Facebook 的最讚貼文
教學小故事
企業班學生: up... a pro...a proxy...
我:approximately 不好唸,改成 around 或 about 就好囉,接數字很好用
生:我還是想唸那個字,appro...
我:為什麼這麼堅持?
生:聽起來比較酷
我:⋯⋯講清楚讓大家聽得懂比較重要吧。
同一班
我:理解了還要會用才是真的學會。來,「每個人都受法律管轄」,用剛學的 be subject to 造句
生:People are subject to the constitution.
我:為什麼是憲法?
生:聽起來比較酷
我:是滿酷的,但不對就是不對,憲法不等於法律。Everyone is subject to the law.
現在二十幾歲年輕人是不是都很追求「酷」?
補充:
這句可以拿來翻「天子犯法與庶民同罪」
Everyone is subject to the law - even the crown prince.
當然也可以運用常見翻譯技巧「正話反說」:No one is above the law.
-
有些朋友關心浩爾是不是最近壓力太大,畫風突變,生出一個 #罵罵浩 人格。我想先謝謝大家的關心,我還好啦,那只是我的「阿密特」人格,平常還是溫柔敦厚的浩爾喔❤️
你比較喜歡浩爾還是罵罵浩呢?(陷阱題,好好回答)
陷阱造句 在 廖小花的隱性台灣 Facebook 的最讚貼文
〈台北書院見聞,「大人物」的「小故事」(下)〉
#時尚達人老師
老師在課上分享道,Vogue雜誌曾問老師如何看待服裝時尚。我們在台下哈哈大笑,因為老師幾十年前起就每天穿同一套--一身寬松純白素衫!
原來啊,
真正駕馭時尚就是超越時尚。
「說實在的,這麼多年也懶得換了。現在換下來,第二天就要上新聞,太麻煩了。」我們又哈哈大笑。
老師說西式衣服是「人靠衣裝」、「衣捧人」,瘦弱的人穿了西裝,也會立馬精神抖擻。但是東方的衣服是「人撐衣」,布料柔軟垂墜,若人本身駝背弓腰,穿了立馬就成黛玉病懨懨。
老師傲嬌地看向遠方,他這身看似簡單的衣服,可不是誰都能搞定的喲!
#老師與qq的曖昧
老師感嘆道,大陸的「qq」啊真的是...
騰訊官方一律以用戶名的後兩字稱呼用戶,所以經常半夜跳出來一封郵件,寫道:谷芳,晚安。惹得他渾身雞皮疙瘩。
老師說自己從幾十年前起,就被民間視作地位輩分高的人,基本沒有人只稱他作這兩個字。如今自己年近七十了,騰訊這一聲「谷芳」實在是叫一個銷魂,把人鬧得小鹿亂撞。
#不學文言文就不要混了!
有一次我們上課用到一則古文,因為我們程度差,老師一邊念,還得逐字翻譯給我們聽。老師說:「你看,不學文言文都不用混了!」古文中匿有多少寶貝,不啃多可惜。
#芳言芳語
因為老師精通古文,詞彙豐盈,遣詞造句極有畫面感,談吐個性張揚卻絲毫沒有顯擺和賣弄之感。
老師講園林,說園林是微縮的山水,爬石孤寂而不死寂,雨過青苔間,鐘鼎山林,四時變化中有一朝風月。
說到四季之變,我能用的詞大概就是:
生命的交替、起落、浮沈。
但是老師的形容卻是:
四季是生命的吞吐、琢磨。
極富靈魂與詩意,
我簡直跟老師差了一個維度。
「在花市看人買花,洋人一定買常綠闊葉林,他們認為有綠就有生機,但中國人一定買曲折蜿蜒的枝幹,甚至買一截枯木,因為其中有生命的琢磨。」
老師的語言不僅是高深靈銳,
同樣十分日常生動:
「禪是抖落一切。」
「你們注意看,彌勒佛就是一副三高的樣子,血糖高、脂肪高、血壓高...」
「自助餐就是拿飼料自己餵自己。」
「打坐對很多人來說不是掃除念頭,而是專心地胡思亂想。」
#孔子被老婆罵 ?
老師講到,讀古文經典,聖人們說了啥有時候不是最重要的,重要的是我們自己解讀的態度。不要總是站在現代語境里「咬文嚼字」地批判,而要去體悟古人當時的心情和氣度。
孔子說:「惟女子與小人難養也。」現代人聽了立馬說孔子怎麼性別歧視啊,迂腐啊。他的追隨者辯說孔子沒錯,女子確實怎麼怎麼的...其實這兩撥人,是都不懂孔子。
我看啊,最大的可能也許是,孔子那天早上剛被老婆罵了一頓,路上遇到學生,就隨口跟他這麼一說。我們聽了哈哈大笑。
仔細想來不無道理啊,聖人也有「人之常情」,但聖人之所以比一般人活得自在,就是他們能更主動地察覺到自己的人之常情,能對自己的起心動念有所知覺,用智慧伏住煩惱和習氣,並化解之。
#南宋牧溪想吃柿子
有一次講到禪畫,老師提起牧溪的六柿圖,說好多人分析這幅畫,什麼最中間那顆厚塗啊,旁邊的不塗,表現了神秘感啊,柿梗向左向右代表什麼深意啊,講得頭頭是道。
老師說很可能是牧溪突然口渴,想吃柿子了,讓僕人去買。看到案上的紙幣,心想不如「畫柿充飢」,畫到最後兩顆,還沒來得及上色,僕人提了軟糯的柿子回來了!嗨,那還畫啥呀,畫筆一丟,趕緊吃去呀!
#吃素吃成這樣就完啦!
老師曾和幾個名人朋友去吃飯,四個人全吃素,就跟服務員說不要蔥姜蒜。結果端來的時候不僅有蔥,且姜蒜俱全!一桌人大怒,罵了整整一個下午。
「唉。吃素吃成這個樣子就完了。吃素本來是吃清淨,結果人家無心抓撒的一把佐料,被我們念念不忘罵了四個鐘頭。」
我們常做這種事,明明修行是要破執著,解構執著,誰知又掉進另一個陷阱中,自縛於心閣。
老師說,中華文化之所以偉大,就因為它具有「人間性」。藥毒同性,關鍵是能否轉而化之,「沒有拿起屠刀的能量,就沒有立地成佛(放下屠刀)的可能。」
#禪家不養生
大家看老師這麼「佛系」的樣子,就說,「老師你只吃中藥吧?」結果原來老師生病都吃西藥,因為速度比較快,短期效果好。但問題是,老師很少很少生病。
老師說自己從不刻意或賣力地「養生」,「禪家死生一如。」他愛冰可樂,還愛垃圾食品。
老師好意提醒我們:「但每天要吃不同的垃圾食品,這樣才能讓身體平衡。」大家笑。
我想,老師的健康不是因為他能夠消化垃圾食品和冰可樂帶來的傷害,而是因為他比常人少許多煩惱,心胸開闊,很多常人嘔出病來的心結,老師全不當一回事,血脈神經自然通暢,身體自然好。
對了,看起來老師只喝茶對不對?
其實老師上課喝牛奶,發出的吸溜聲會被麥克風擴大,「呼嚕呼嚕」,充滿整座書院,特別萌。
#老師的幽默
有一次ppt出了問題,有位阿姨級別的學生來幫忙。老師說:「你幫了我,下次允許你犯一個錯誤!」
老師以前是大學老師,說從前台灣老師工資很低,和對岸不能比,班上正好有一位學生是政府公職人員,老師聽說後,就對她說:「面對我,你不覺得慚愧嗎?」大家被逗得直樂。
#老師曾對自己失望...
老師跟我們「懺悔」,
有一次政府要他接一份要職,
但他拒絕了。
我們說這不挺好的嘛,應該感到「自豪」呀,不與官場同流合污。
老師卻搖搖頭,「你們不知道,我是拒絕了。但我居然花了幾分鐘才拒絕。」
「會猶豫幾分鐘,就會猶豫幾個小時,會猶豫幾個小時,就會猶豫幾天,會猶豫幾天,就會猶豫幾個月,會猶豫幾個月,就會猶豫幾年...」
#節日的意義
上課聊到大陸不鼓勵過聖誕的事,老師說但該過還是要過啊,大陸肯定有很多基督教徒啊,這是人家的大日子啊,哪能說不過就不過呢。
普通人當然也可以過,只是要記住一點:過聖誕的初衷是什麼。聖誕節是為了感恩。「不要只記得狂歡,卻不記得平安。」
就好像過中秋不要只記得烤肉,卻不記得家人,忘了團圓。 每一個傳統節日的背後,都有很深的文化內涵,這才是節日最大的意義。
#老師談現在的大陸
老師說現在台灣很多專家什麼的總是分析大陸,這些都只能算「自娛自樂」。
「大陸現在處於一個前所未有的時代,人類歷史上從來沒有一個社會可以像現在的大陸這樣,我們不能用既有的理論去定義她。」
雖然我來自大陸,但我還是從老師的視角裡得到了很多啟發,甚至覺得他比我這個當局者看得還通透,老師說,大陸很多事情都是從前的人無法想象的,大家還在拼工業時代,大陸已經進入半信息化時代,「互聯網加」模式在各行各業中廣泛應用,一個鹿晗一年能創造數十億的價值,一個王俊凱一條微博能轉發幾千萬,短視頻時代、直播主、淘寶、共享文化...(筆者2017年書寫)
老師說他們這一代人,哪怕是他林谷芳,這麼「有名」,很有文化,也只能承認,自己玩不轉這個時代了。
固有的人類學觀點,經濟學理論或者其他立足於西方的科學定義去看待現在的大陸,都行不通了,現在的大陸的每一天都是人類歷史上的新篇章。「現在的大陸,是小小的台灣無法估量的,整個世界都無法估量。」
我們要做的,就是更清楚地認識自己,認識自己的文化,平等的,有姿態的,跟世界對話。
#增加自己的垂直溝通
交換生室友學文問了老師一個問題,生活中很多難題,總是徬徨,總是找不到出路怎麼辦呢?老師在黑板上寫下大大的兩個字:讀史。
以史明鑒。歷史上有無數的人事物值得我們學習,他們的故事和處理事情的價值觀和方法論,可以成為我們前進的參考和力量。
網絡時代的小孩,幾乎只有「平行溝通」,遇到問題,習慣於平行求解,而沒有「垂直溝通」。
要獲得智慧,跟長輩交流是一個方法,另一個方式就是讀歷史。當我們心中有幾千年的歷史軌跡,看未來會有不一樣的寬度和廣度。就像一顆石子丟進水杯,水花四濺,動蕩不已,但投入大海,大海能包容萬物。讀史,至少能讓我們「心中有數」。
#我們都忘了的一件事
師父問我:
你知道為啥林谷芳喜歡你嗎,
我說不知道。
師父說:「因為你是小朋友。」
平日在書院裡教一群叔叔阿姨老頭老太太多沒意思啊,雖然他們有閱歷,有知識背景,能聽懂。但所有老師都是這樣想的,都喜歡教年輕人,因為你們身上才有未來,才有希望。
其實⋯我們這些網路世代的小孩,沒膽量不顧一切地放肆,也不敢全然對自己負責。雖然不知道在慌什麼,但就是內心時常不得安寧,否定自己,懷疑一切。
十幾歲就已被零零後的朝氣淹沒,二字開頭,就擔憂奔三,剛畢業,就像看到了生命的盡頭。
我們都忘了,在我們身後,長輩們、家人們都巴巴望著呢,懷著最熱切的期待...是應該不斷提醒自己:我們是希望,是這個社會上最有能量的一群人,是社會的希望,是未來的希望啊。
2017書寫