矮化女性和少數種族,OpenAI GPT 模型為何變成 AI 歧視重災區?
作者 品玩 | 發布日期 2021 年 02 月 13 日 0:00 |
機器學習技術近幾年突飛猛進,許多強大 AI 因此誕生。以知名研究機構 OpenAI 開發的語言生成模型 GPT 為例,現在可寫文章、幫人做報表、自動查詢資訊,給用戶很大幫助和便利。
然而,多篇近期論文指出,包括 GPT 等 AI 模型,生成結果包含基於性別和種族的偏見。而這些 AI 模型應用在商業領域,勢必強化歧視偏見對象現象。
卡內基美隆大學 Ryan Steed 和喬治華盛頓大學 Aylin Caliskan 近日發表論文《無監督的方式訓練的影像表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT 和 Google 的 SimCLR,兩個去年發表的影像生成模型進行系統性測試,發現種族、膚色和性別等指標幾乎原樣複製人類測試物件的偏見和刻板印象。
其中一項測試,研究者用機器生成男女頭像照片為底板,用 iGPT 補完(生成)上半身影像。誇張的事發生了:所有女性生成結果,超過一半影像穿著比基尼或低胸上衣。
男性結果影像,約 42.5% 影像穿和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;露手臂或穿背心的結果只有 7.5%。
這樣的結果,技術方面的直接原因可能是 iGPT 採用的自迴歸模型機制。研究者進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立連結時,男人更多和「商務」、「辦公室」等名詞連結,女人更多和「孩子」、「家庭」等連結;白人更多和工具連結,而黑人更多和武器連結。
這篇論文還在 iGPT 和 SimCLR 比對不同種族膚色外觀的人像照片「親和度」(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 模型的具體運作機制有差別,但透過這篇論文,研究者指出這些偏見現象背後的共同原因:無監督學習。
這兩個模型都採用無監督學習 (unsupervised learning),這是機器學習的方法之一,沒有給事先標記好的訓練資料,自動分類或分群匯入的資料。
無監督學習的好處,在於資料標記是繁瑣費時的工作,受制於標記工的程度和條件限制,準確性很難保持一定,標記也會體現人工的偏見歧視,某些領域的資料更缺乏標記資料庫;而無監督學習在這種條件下仍有優秀表現,最近幾年很受歡迎。
然而這篇論文似乎證明,採用無監督學習無法避免人類常見的偏見和歧視。
研究者認為,採用無監督學習的機器學習演算法,出現的偏見歧視來源仍是訓練資料,如網路影像的男性照更多和職業相關,女性照片更多衣著甚少。
另一原因是這些模型採用自迴歸演算法。在機器學習領域,自迴歸演演算法的偏見問題人盡皆知,但嘗試解決這問題的努力並不多。
結果就是,機器學習演算法從初始資料庫學到所有東西,當然包括人類的各種偏見和歧視。
之前 OpenAI 號稱「1700 億參數量」的最新語言生成模型 GPT-3,發表論文也申明因訓練資料來自網路,偏見無法避免,但還是發表並商業化。
去年 12 月,史丹佛和麥克馬斯特大學的研究者另一篇論文《Persistent Anti-Muslim Bias in Large Language Models》,確認 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實有嚴重的歧視問題。
具體來說,用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力連結。
另一項測試,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段文字,卻包含明顯的暴力過度遐想和延申,其中有句話「不知為何原因,我渾身是血。」
而當這類演算法應用到現實生活,偏見和歧視將進一步強化。
iGPT 和背後的 OpenAI GPT 技術,現在開發到第三代。能力確實很強大,就像眾多媒體報導過那樣,因此許多商業機構青睞採用。最知名的用戶就是微軟。去年 9 月,微軟 CTO Kevin Scott 宣布和 OpenAI 合作,獨家獲得 GPT-3 授權,將技術應用到針對用戶的各項產品和 AI 解決方案。
微軟尚未透露具體會把 GPT-3 應用到哪些產品,但考慮到微軟產品的十億級用戶量,情況非常令人擔憂。如微軟近幾年 Word、PPT 等產品推廣的自動查詢資訊、文字補完和影像設計功能,當用戶匯入某特定詞或插入圖片時,如果正好落入 GPT-3 的偏見陷阱,結果將非常糟糕。
不僅 GPT,照前述論文說法,所有採用無監督學習的演算法都可能包含這些偏見。現在因無監督學習非常熱門,自然語言處理、電腦視覺等領域,都成為非常關鍵的底層技術。
如翻譯對人際溝通十分重要,但錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷人與人的聯繫,更嚴重者將導致不可估量的人身和財產損失。
作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更區別和記錄訓練資料庫的內容,以便未來找到降低模型偏見的更好方法,以及發表模型前應該做更多測試,盡量避免受演算法強化的偏見被帶入模型。
資料來源:https://technews.tw/2021/02/13/openai-gpt-discrimination/
contain造句 在 Eric's English Lounge Facebook 的最讚貼文
[Word Map 1: Health care]
各位同學是否曾經有想要背單字卻常常忘記的經驗,或是無法在口說或寫作時應用已經背過的單字?
老師幫同學設計的一種新的單字學習方式結合了 collocation、lexical chunks 和 semantic mapping 更有效率地學習單字:
我們可以使用 collocation(e.g. totally convinced, strong accent) 的方式來更有效率地學習單字( http://goo.gl/MHfDzx )。或是我們可以使用 lexical chunks (e.g. by the time, if I were you) 這會幫助你更快地在口說和寫作中產出適當的語言 (http://goo.gl/jswS0E)。更有效率的方式是把所有相關的lexical chunks (詞彙組塊) 歸納在一個主題下,在有上下文的情境下用 semantic map (語義圖) 讓你用一個主題展開一系列的話題的學習。接下來再利用時事英文加深同學們對這一些相關的lexical chunks 的認知來進行討論,進行有意義的學習。
今天,我們將要學習和health care有關的單字。我建議各位可以先讀過下面的字句,用他們造句,在讀過我提供的範文。接著,在自己使用剛剛學會的這些單字撰寫自己的文章。假如同學覺得此單元對自己學習英文有幫助或者想聽到老師錄的音檔 (甚至拍相關的影片) 請在下方留言喔!我會繼續努力提供新的教材給各位學習喔!
★★★★★★★★★★★★
Set I. 我們從preventing diseases預防疾病相關的lexical chunks開始:
1. improve our hygiene (加強衛生)
2. wet (弄濕), lather 起泡, scrub (搓洗), rinse (洗淨), and dry our hands (擦乾我們的手)
3. cook poultry and pork thoroughly (煮熟雞肉和豬肉)
4. refrigerate all leftovers (冷藏剩菜)
5. get vaccinated (注射預防針)
6. develop an immunity to (對…產生免疫)
★★★★★★★★★★★★
Set II. 當我們生病時我們應該用甚麼相關的lexical chunks來表達?
1. contract a disease (感染一種病)
2. receive treatment (接受治療 )
3. seek help from a medical professional (尋求專業醫療照護)
4. do not diagnose our own illnesses (不要自行診斷)
5. follow the doctor’s orders (聽從醫師的指示)
6. take our medication and follow the prescription (遵循處方吃藥)
7. follow the prescribed course of treatment (遵循處方/治療)
8. not finishing the prescription may slow down the healing process (沒吃完處方簽的藥物可能會減緩復原的時間 )
9. cause germs to develop antibiotic resistance (導致細菌產方抗藥性)
★★★★★★★★★★★★
Set III. 以下是與流行疾病的相關 lexical chunks:
1. contain an outbreak (阻止疫情的爆發)
2. contagious disease (傳染病)
3. an epidemic (流行病)
4. a pandemic (國家疫情爆發或擴散)
5. a global pandemic (國家和全世界的流行病)
6. avoid touching our mouths, noses, or eyes (避免觸碰我們的口鼻眼)
7. cover our mouths and noses when coughing and sneezing (咳嗽或打噴嚏時請遮口鼻)
8. avoid crowded places (避免前往人多的地方)
9. reduce human transmission 減少人類傳染
10. stay home if you show signs of illness (若感到不適請留在家中)
11. develop symptoms of the diseases (產生生病症狀)
12. seek medical attention by contacting your health care provider (與您的健保提供者聯絡尋求醫療協助)
13. have severe symptoms (有嚴重的症狀)
14. difficulty in breathing (難以呼吸)
15. wear a surgical mask (使用外科口罩)
16. reduce chances of contracting a disease (避免染上疾病)
17. pay attention to public announcements about the disease (注意關於疫情的公告)
18. be prepared for possible pandemics (對於疫情爆發要有準備)
★★★★★★★★★★★★
Set IV. 最後我們要如何保持健康的lexical chunks:
1. stay healthy (保持健康)
2. mentally healthy (心理上的健康)
3. understand our own emotions (認識與了解自己的情緒)
4. talk to others about problems such as depressions
(與其他人談談自己的問題,如情緒低落或憂鬱)
5. stay socially healthy (維持社交上的健康)
6. maintain good relationships (維持良好的關係)
7. stay physically healthy (維持生理上的健康)
8. exercise regularly (定期地運動)
9. get plenty of rest (有充足的休息)
10. maintain healthy eating habits (保持健康飲食習慣)
11. eat nutritious meals (每餐要吃得營養)
★★★★★★★★★★★★
這些字可以用主題來組織成這個word map,好處就是可以方便各為同學在需要的時候做聯想。不過單字跟單字的mapping只是第一步。現在我們來看看如何在時事新聞使用這些字。
News English:
The Middle East Respiratory Syndrome, known as MERS, is a viral respiratory illness. The most recent outbreak occurred in South Korea with over 150 reported cases and 19 deaths as of June 15th, and over 2300 have been placed under quarantine, making it the largest outbreak outside Saudi Arabia, its place of origin. Most patients who contracted MERS developed severe acute respiratory illness with symptoms of fever, cough and shortness of breath. Currently, there is no vaccine to prevent the MERS infection, but numerous countries are exploring the possibility of developing one. To prevent MERS, doctors have recommended the following: wash your hands often with soap and water for 20 seconds each time, and help young children do the same. If soap and water are not available, use an alcohol-based hand sanitizer. Cover your nose and mouth with a tissue when you cough or sneeze, then throw the tissue in the trash. Avoid touching your eyes, nose and mouth with unwashed hands. Avoid personal contact, such as kissing, or sharing cups or eating utensils, with sick people. Clean and disinfect touched surfaces and objects, such as doorknobs, frequently. Lastly, stay away from crowded places and pay attention to public announcements. Although there is no specific treatment recommended for MERS infection, individuals with MERS can seek medical care to help relieve symptoms. Stay healthy, everyone.
學習單字的方式 (Vocabulary Words): http://goo.gl/dESCms
Co-writer: Ray Du's English
https://www.facebook.com/RayDuEnglish
★★★★★★★★★★★★
Eric的心智圖詞彙攻略: https://bit.ly/2UbvFCj
contain造句 在 造句詞典在PTT/Dcard完整相關資訊 - 小文青生活 的美食出口停車場
推薦回答contain造句_用- 查查在線詞典。 ... 造句辭典-2021-01-28 | 星星公主英文Oral textbook? tw英文的「口說. ... translated example sentences ... ... <看更多>
contain造句 在 造句詞典在PTT/Dcard完整相關資訊 - 小文青生活 的美食出口停車場
推薦回答contain造句_用- 查查在線詞典。 ... 造句辭典-2021-01-28 | 星星公主英文Oral textbook? tw英文的「口說. ... translated example sentences ... ... <看更多>