在本周發(fā)表的一篇技術(shù)論文中,F(xiàn)acebook研究人員描述了一個框架,該框架可以沿多個維度分解文本中的性別偏見,他們使用該框架來注釋數(shù)據(jù)集并評估性別偏見分類器。如果實驗結(jié)果能說明問題,那么該團隊的工作可能會從性別角度揭示進(jìn)攻性語言,甚至可能控制自然語言處理(NLP)模型中的性別偏見。
研究人員稱,所有數(shù)據(jù)集,注釋和分類器都將公開發(fā)布。
一個公開的秘密是,人工智能系統(tǒng)和受其訓(xùn)練的語料庫經(jīng)常反映出性別定型觀念和其他偏見。實際上,谷歌最近在Google翻譯中引入了針對性別的翻譯,主要是為了解決性別偏見??茖W(xué)家們提出了一系列的方法來減輕和衡量這個,最近有一個排行榜,挑戰(zhàn)和指標(biāo)集的配音StereoSet。但是很少(如果有的話)得到廣泛使用。
Facebook團隊表示,其工作考慮了人類如何通過社交和社交方式構(gòu)建語言和性別認(rèn)同。也就是說,正在發(fā)言它占(1)從人的性別偏壓約,(2)從所述人的性別偏壓正在發(fā)言到,和(3)從揚聲器的性別偏見。該框架試圖以這種方式捕捉描述女性的形容詞,動詞和名詞與描述男性的形容詞,動詞和名詞不同的事實。收件人的性別影響他們與他人交談的方式;以及性別對一個人的身份的重要性。
利用此框架和Facebook的ParlAI(用于訓(xùn)練和測試NLP模型的開源Python工具集),研究人員開發(fā)了分類器,將句子的偏見分解為維度-偏見于所討論人員的性別等,同時包括性別信息。落在男女二進(jìn)制數(shù)之外。團隊對分類器進(jìn)行了培訓(xùn),內(nèi)容包括從Wikipedia,F(xiàn)unpedia(非正式的Wikipedia版本),Yelp評論,OpenSubtitles(電影對話),LIGHT(聊天幻想對話)和其他來源中提取的一系列文本。之所以選擇這些關(guān)鍵字,是因為它們包含有關(guān)作者和收件人性別的信息,可以為模型的決策提供依據(jù)。
研究人員還通過收集兩名志愿者演講者之間的對話,創(chuàng)建了一個專門的評估語料庫-MDGender,每個演講者都有一個包含性別信息的角色描述,并負(fù)責(zé)采用該角色并與維基百科的傳記部分進(jìn)行對話。注釋者被要求重寫對話中的每個回合,以清楚地表明他們是在談?wù)撘粋€男人或一個女人,以一個男人或一個女人的身份說話,并且正在與一個男人或女人說話。例如,對“您今天好嗎?我剛下班”可能被改寫為“嘿,我和我的朋友和她的狗一起去喝咖啡。”
在實驗中,研究小組評估了針對MDGender的性別偏見分類器,測量了男性,女性和中性類別的百分比準(zhǔn)確性。他們發(fā)現(xiàn),性能最佳的模型(即所謂的多任務(wù)模型)在所有數(shù)據(jù)集上正確地分解了77%的句子,而在Wikipedia上則僅分解了81.82%的句子。
在另一組測試中,研究人員應(yīng)用性能最佳的分類器來控制所生成文本的性別,在Wikipedia中檢測有偏見的文本,并探索令人反感的內(nèi)容與性別之間的相互作用。
他們報告說,在包含來自Reddit的250,000個文本片段的數(shù)據(jù)集上對分類器進(jìn)行訓(xùn)練后,分類器就可以根據(jù)命令生成性別句子,例如“ Awwww,聽起來很棒”和“您可以做到!”單獨地,該模型設(shè)法對一組傳記中的段落進(jìn)行評分,以識別哪些是“大約”維度中的男性(74%偏向男性),但是分類器對女性頁面的女性化更有信心,這表明女性傳記包含更多性別的文字)。最后,在對分類器進(jìn)行訓(xùn)練并將其應(yīng)用于流行的帶有明顯性別的單詞的語料庫之后,他們發(fā)現(xiàn)25%的男性單詞屬于“令人反感”的類別,例如“性暗示”。
“在理想的世界中,我們期望描述男性,女性和具有其他性別認(rèn)同的人的文字之間幾乎沒有區(qū)別,除了使用明顯的性別詞語,例如代詞或名字。因此,機器學(xué)習(xí)模型將無法掌握性別標(biāo)簽之間的統(tǒng)計差異(即性別偏見),因為這樣的差異將不存在。不幸的是,我們知道情況并非如此。”合著者寫道。“我們?yōu)榇四康奶峁┝艘粋€更細(xì)粒度的框架,分析了模型和數(shù)據(jù)中性別偏見的存在,并通過發(fā)布可用于解決眾多基于文本的用例的這些問題的工具來賦予他人權(quán)力。”