研究速遞:從百萬詞彙語料庫挖掘性別差異,原來People = Man?

集智俱樂部 發佈 2022-05-06T03:16:48.142084+00:00

摘要People和Person這兩個詞本應該是中性的,用來指代個人或群體,並不意味著男性或女性。然而,發表在 Science Advances 雜誌上的一項最新研究,從超過 6300 億個英語單詞的語料庫中提取的相似性指標,發現這些標籤的感知意義偏向男性。


摘要

People和Person這兩個詞本應該是中性的,用來指代個人或群體,並不意味著男性或女性。然而,發表在 Science Advances 雜誌上的一項最新研究,從超過 6300 億個英語單詞的語料庫中提取的相似性指標,發現這些標籤的感知意義偏向男性。簡而言之,不管人們用什麼詞彙來描述普通人,他們往往在精神上默認為「男性」。社會的「個人」概念的男性偏向,表明我們人類對自身的集體看法中存在一種根本性偏見。集體觀念不僅反映,而且灌輸和強化關於男女的廣泛思維方式。因此,使用計算社會科學的方法來研究普遍意義的性別刻板印象對社會發展有重要意義。

研究領域:計算語言學,計算社會科學,NLP,性別偏見

論文題目:

Based on billions of words on the internet, people = men

論文連結:

https://www.science.org/doi/10.1126/sciadv.abm2463


1. 詞嵌入技術發現集體概念中的性別偏見


自然語言處理技術的進展使得精確測量任意兩個詞來表示概念的相似程度成為可能,這種語言相似性度量可以提供對語言社區的集體概念(collective concept)的洞察,這些概念反映並加強了大眾普遍的思維方式。「個人/人們(person/people)」作為人類社會最重要的集體概念之一 ,構成了幾乎所有社會決策和政策制定的基礎。因此,對這一集體概念的理解一定程度上表徵了我們社會的價值和實踐的體系特徵,是超越個人並融入更廣泛的社會系統和歷史傳統的思想存在。然而,哲學、社會學和語言學的理論長期以來一直認為,男性被視為「默認」人類個體,存在女性的性別偏差。例如,男性與科學和工作的關係更為密切。

為了驗證上述假設,研究人員使用詞嵌入技術分析了名為Common Crawl的大規模網絡文本資料庫。該數據包含29.6億個網頁(包括博客、論壇和政府網站),超過6300億個英語單詞。研究人員通過觀察兩個單詞在上下文文本的相似程度(單詞在向量空間中的餘弦相似度),來衡量這一集體概念。這種方法的新穎之處在於,分析更具一般性,能揭示隱藏得更深的集體認知偏見。而傳統的衡量性別偏見的方法是通過問卷或行為測量個人的刻板印象。相比之下,通過計算集體概念偏向性能更普遍地反映人類社區中個人的信仰,揭示在潛移默化中向下一代灌輸和加強對於男性和女性普遍的思維模式。

2. 「人」傾向於指男性,女性更容易被刻板化


研究人員通過三項研究考察了描述人的一般性詞彙,以及相鄰形容詞和動詞的意義,並比較其意義和男性與女性的相似度。在第一項研究比較了描述人的詞彙(例如,「個人」)和描述男性的詞彙(例如,「他」和「男性」)及描述女性詞彙(例如,「她」和「女性」)在意義上的相似性。研究發現,描述人的單詞和男性在語義上更加相似,其意思更加類似於男性的單詞,而不是女性的單詞,而且具有統計學意義上的顯著差異。換句話說,「人」這個集體概念更多地與「男人」這個概念重疊,而不是與研究詞彙中的「女人」這個概念重疊。


在第二項研究中,研究小組沒有關注人的詞彙,而是比較了538個在以前的工作中確定為對人常見描述的特徵詞,例如外向、勇敢和富有同情心等詞彙。之前關於個人對女性和男性的心理刻板印象的研究中,性別刻板印象經常被發現是對稱的。 例如,女性被認為具有同情心等公共特徵,而不是勇敢等具體特徵,而相反男性被認為擁有的具體特徵多於公共特徵。但性別刻板印象往往是不對稱的。「男性」在用法上可能與許多常見的人稱特徵相似(例如,「勇敢」和「富有同情心」),而「女性」在用法上可能與一組更具體的特徵相似(如「富有同情心」而不是「勇敢」)。研究者比較了在過去研究中發現的數百個描述人類的特質詞彙和針對女性和男性的同類詞彙表,發現「女性」更多地出現在與女性刻板印象的特徵詞環境,意味著性別刻板印象具有不對稱性,女性更容易被標籤化。


在第三項研究中,研究人員關注動詞的使用情況,具體來說,如果「人」的一般概念與「男人」的概念重疊的程度大於與「女人」的概念重疊的程度,那麼描述「人們」做了什麼以及對「他們」做了什麼的詞語(例如,」愛」、」騷擾」),也更有可能在語境意義上與表示男人的詞語相似,而不是表示女人的詞語。研究者比較了描述「人們」行為的250多個動詞(例如,「便利」、「傻笑」和「威脅」)和表示男性的詞彙與表示女性的詞彙之間的意義相似性,發現男性與所有動詞都有關聯,而女性與傳統意義上的女性相關的動詞(例如傻笑)關聯更密切。



3. 集體概念偏見的現實啟示



雖然有的讀者會覺得前面敘述的是一個顯而易見的觀念,但經過大數據得出的結論,不僅比基於直覺的更為可靠,還能反映更多的細節。例如關注動詞的研究,指出人們認為某些行為更多和女性有關,這對於男性是不是也是一種隱含的歧視呢?而關注形容詞的研究,指出人們描述性格時是以男性為標準的,這對女性更容易被刻板化,是否會促使成功女性不得不以男性的方式做事這樣自我實現的預言?

Common Crawl 的海量數據可以用於多種目的,例如用這些數據來訓練人工智慧工具,包括語言翻譯網站和聊天機器人。而在使用包含內置偏見的數據集時,很有可能會產生以下惡性循環:人工智慧從人類身上學習,然後反作用於人類。這個問題令人擔憂,因為它表明,如果我現在打個響指,神奇地擺脫每個人自身的認知偏見,不再把普遍意義上的人看作男人,我們的社會仍然會有這種偏見,因為這種偏見植根於人工智慧工具中。因此該研究指出,需要對自然語音模型中的偏見予以糾正。


郭瑞東、劉志航 | 作者

鄧一雪 | 編輯

商務合作及投稿轉載|swarma@swarma.org
◆ ◆ ◆

搜索公眾號:集智俱樂部

加入「沒有圍牆的研究所」

讓蘋果砸得更猛烈些吧!

關鍵字: