心”而不是“勇敢”)。研究者比较了在过去研究中发现的数百个描述人类的特质词汇和针对女性和男性的同类词汇表,发现“女性”更多地出现在与女性刻板印象的特征词环境,意味着性别刻板印象具有不对称性,女性更容易被标签化。

图2. 描述个性特征的刻板印象词汇和男性及女性的余弦相似度

在第三项研究中,研究人员关注动词的使用情况,具体来说,如果“人”的一般概念与“男人”的概念重叠的程度大于与“女人”的概念重叠的程度,那么描述“人们”做了什么以及对“他们”做了什么的词语(例如,”爱”、”骚扰”),也更有可能在语境意义上与表示男人的词语相似,而不是表示女人的词语。研究者比较了描述“人们”行为的250多个动词(例如,“便利”、“傻笑”和“威胁”)和表示男性的词汇与表示女性的词汇之间的意义相似性,发现男性与所有动词都有关联,而女性与传统意义上的女性相关的动词(例如傻笑)关联更密切。

3. 集体概念偏见的现实启示

“人”的集体概念构成了许多社会观念表述和决策制定的基础。因为男人和女人各占一半,在我们所谓的“人”的集体观念中,优先考虑男人,基于这种观念的决策会给女性造成不平等。对此,在写作和决策过程中,要注意避免这样的偏差。

虽然有的读者会觉得前面叙述的是一个显而易见的观念,但经过大数据得出的结论,不仅比基于直觉的更为可靠,还能反映更多的细节。例如关注动词的研究,指出人们认为某些行为更多和女性有关,这对于男性是不是也是一种隐含的歧视呢?而关注形容词的研究,指出人们描述性格时是以男性为标准的,这对女性更容易被刻板化,是否会促使成功女性不得不以男性的方式做事这样自我实现的预言?

Common Crawl 的海量数据可以用于多种目的,例如用这些数据来训练人工智能工具,包括语言翻译网站和聊天机器人。而在使用包含内置偏见的数据集时,很有可能会产生以下恶性循环:人工智能从人类身上学习,然后反作用于人类。这个问题令人担忧,因为它表明,如果我现在打个响指,神奇地摆脱每个人自身的认知偏见,不再把普遍意义上的人看作男人,我们的社会仍然会有这种偏见,因为这种偏见植根于人工智能工具中。因此该研究指出,需要对自然语音模型中的偏见予以纠正。

最后,该研究主要是基于英文文本,而基于中文文本库能否得出类似的结论?对比不同类型,如体育、娱乐、社会新闻、经典小说、网络小说等来源的文本,是否会发现某些来源的性别偏见的程度更高?如果使用用户产生内容网站(UGC,诸如微博、知乎)的文本,将男性和女性产生的数据分开训练词向量,或者按不同地区、不同年龄段用户对文本进行分组训练,并分别计算性别偏见的程度,预期是否会存在差异?这些差异反映了哪些社会及文化变迁的一般规律?这些仍待后续研究工作解决。

郭瑞东、刘志航 | 作者

邓一雪 | 编辑

商务合作及投稿转载|swarma@
◆ ◆ ◆

搜索公众号:集智俱乐部

加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!

相关推荐