AI TIME欢迎每一位AI爱好者的加入!

 

 

亲密度这一概念来源于社会心理学,主要被用来描述人和人之间关系 (eg. 朋友) 或者互动 (eg. 亲吻) 的亲密程度。我们将这一概念沿用到了语言中,用来描述人际交流中所使用语言的亲密程度,比如 “我今天心情真的好差” 比 “吃了吗” 一般来说具有更高的语言亲密度,因为它涉及到了更个体化的情绪表达;而 “你最糟糕的童年回忆是什么” 则比 “你觉得新的苹果手机怎么样” 要更加亲密,因为它过于私密和个人化。

 

在这一研究中,我们提出了一套量化语言亲密度的数据标注方法和一个用于测量语言亲密度的NLP模型,并使用八千万 Reddit、Twitter、书籍和电影对话数据研究了性别、社交距离和匿名性对于人际交流中语言亲密度的影响。

密歇根大学裴嘉欣:量化语言亲密度_java

裴嘉欣密歇根大学二年级博士生,研究方向为计算社会科学,目前主要关注自然语言处理和社会心理学的结合。

 

密歇根大学裴嘉欣:量化语言亲密度_java_02

一、 让陌生人相爱的36个问题

 

1997年,美国心理学家阿瑟·亚伦(Arthur Aron)等人发表了一项研究,他们发现彼此询问一些特别亲密的问题,可以快速增强两个陌生人之间的亲密度。这一研究在被纽约时报报道后,也在中文互联网上被广泛转载,并被宣传为快速让心上人爱上你的良方。然而当人们在现实生活中面对心上人的时候,却会对这些问题大失所望,因为就像知乎上最高赞的评论所言,这些在实验室中效果良好的问题,在真实的生活中却很难找到合适的场景或契机。

 

密歇根大学裴嘉欣:量化语言亲密度_java_03

图1

 

图1中的问题同其他稀松平常的诸如“吃了没”这样的寒暄有什么区别?又究竟有哪些因素最终影响着人们在日常生活中的语言表达呢?这里引入了社会心理学中亲密度的概念来解释。

 

亲密度作为一种index:一方面,可以去表示人和人之间的一种关系的亲密度;另一方面,也可以表示人和人之间交互的亲密度,比如在街上对任何的陌生人问路。语言亲密度受到了广泛的社会和个体因素的约束,而违反这样的约束则往往会造成尴尬,或者带来更严重的后果。

 

因此,讲者提出本研究的两个主要问题:

第一,能否量化语言的亲密度;

第二,在社会生活中有哪些社会规范影响着人们在真实生活中关于语言亲密度的表达。

 

讲者主要从以下三个方面介绍:

1) 如何标注语言数据亲密度?

2) 如何使用NLP模型测量语言亲密度?

3) 验证基于社会规范的结论。

 

二、社会规范如何影响人际交流?

 

语言数据亲密度标注的目标是:对于任何一个问题,能够标注一个分值,比如说,“今天天气怎么样?”,它的分值是0.1或者“你最深的回忆是什么?”分值可能是0.7。讲者介绍到,这里使用best-worst scaling的方式,它的基本思路是说人们可能很难去给一个绝对的分值,但是一般可以分辨出来两个问题哪个更亲密,比如图2所示中,“who is your secret love?”比 “what are these plans?”要明显亲密很多。

 

具体的标注流程是:首先从4个随机生成的问题中,标注最亲密的E和最不亲密的C;然后在标注了非常多这样的问题元组之后,可将其转换成一个个pairwise ranking;进一步,通过一些排序算法可把它转换成一个关于语料中所有问题的一个全局ranking;最后每一个问题都会得到一个相对应的权重,即亲密度分值。亲密度的分值理论上是从-1~1之间,这里讲者介绍到,大概标注了有8500多个问题的元组,并最终得到了2397条标注有亲密度的文本数据。

 

密歇根大学裴嘉欣:量化语言亲密度_java_04密歇根大学裴嘉欣:量化语言亲密度_java_05

图 2

 

如何使用一些NLP模型自动预测语言亲密度?讲者提出直接使用fine-tuned的RoBERTa语言模型生成一个关于亲密度的分值。模型在Reddit测试集上的效果是非常好的,相关系数达到0.87,证明预先经过微调的模型可以更好的测量语言中的亲密度;同时根据对比实验,发现Linear regression+topic model的表现优于bag of words+Linear regression,原因在于一定程度上亲密度很大程度上是依赖于所谈论的话题

 

比如,谈论到一些关于个人的感情问题会更亲密一点,而关于一些日常生活中的食物,可能就不清楚。此外,讲者所提使用预训练之后的语言模型,可以达到非常好的效果。这说明,预训练语言模型相比较主题模型,可以学到更丰富的关于亲密度的一些特征。

 

密歇根大学裴嘉欣:量化语言亲密度_java_06

图3

 

哪些社会因素影响着人们之间的人际交流?为探究该问题,讲者构建了大概有8000万真实对话的数据集,其中有7800万来自 Reddit,Twitter的线上对话,同时大概将近200万来自于问题和电影对话。进一步,讲者研究了4种比较重要的因素:第一种是社交距离;第二种是性别;第三种是匿名性;最后一种是语言学上可以选择的一些语言学的特征。

 

a) 社交距离(Social Distance)

 

关于社交距离和语言亲密度,有两种比较经典的假说,第一种:人们最亲密的一种语言,可能只在非常亲密的关系中才会发生;另一种:其实是一个非常经典的现象,在社会心理学上被称做strangers on a train,就是说两个人可能之前从来都没遇到过,但是他们在火车上相遇的时候,可能会此分享非常亲密的一些东西。

 

在线下环境被验证过这种现象是否能在线上的场景中仍然存在?因此,讲者基于100万条Twitter数据集上的问题,研究社交距离对语言亲密度的影响。那么,如何构建人与人之间的社交距离?这里主要构建了一个mutual mention network,即根据两个账户在过去的对话历史中是否有相互提及过对方,来构建Twitter network,这其实是一种比互相关注更为紧密的互动关系。

 

这样做的原因是:

第一,在Twitter上很难获得人和人之间相互关注的数据;

第二,很多人尽管互关但可能从来都没有mutual mention过,而相互提及,其实是一种更亲密的社交活动。

 

讲者构建的Twitter network大概有十一亿条边,可以很好地模拟Twitter上人和人之间的社交距离。比如,图4所示,在 network中A和B是直接相连的,具有非常紧密的关系,且分割度是0;A和E分割度是3,可能关系已经非常的疏远了;当分割度变成6时,两个人可能就是完全的陌生人。

 

密歇根大学裴嘉欣:量化语言亲密度_java_07

图4

 

实验结果证明了最亲密的这样的一种互动仍然发生在最紧密的关系和最疏远的关系中。上述两种社会规范中,在线上的这样一种社交关系中仍然都是存在的。

 

密歇根大学裴嘉欣:量化语言亲密度_java_08

图5

 

b) 性别(Gender)

 

由于一方面性别是一个非常重要的社会影响因素;另一方面性别更多的是一种个人的 identity。因此,讲者进一步研究了性别对人们语言亲密度的影响

 

讲者介绍到,关于性别的一些非常经典的假说和结论,普遍认为女性的社交亲密度会比男性要更高,而对于男性来说,更多的受到一种男性气质的社会约束,所以他们在对话中往往不会去谈论一些非常私密的东西,尤其是在男性和男性之间。那么在线上的社交环境中,是否也存在这种强的社会约束?

 

讲者基于Reddit,Twitter、电影和书籍这样的4种数据来源,大概有6400万的数据规模,根据用户名,包括他们的名字去推断每一个用户和每一个在书籍和电影中出现人物的性别。分析结果如图6所示,可以发现确实不管是在线上,还是在一种想象的对话中,当有女性参与的时候,对话的亲密度都会显著的增高;而当两个男性在对话的时候,他们的语言亲密度受到非常强的男性气质社会约束。

 

密歇根大学裴嘉欣:量化语言亲密度_java_09

图6

 

一个有意思的发现是在书籍和电影这样一种想象的对话中,发现这样的约束仍然是存在的,也就是说大家对男性有一种非常强的期待,就是说不被允许去谈论非常亲密的东西。

 

具体地,基于书籍中的数据,使用两个 mix effect regression,研究书籍作家的性别对于他们的书籍中角色的语言亲密度的影响。实验结果同样反映出了一种对于男性的非常强社会规范,而且这种规范对于男性作家和女性作家来说都是同样程度。

 

密歇根大学裴嘉欣:量化语言亲密度_java_10

图7

 

c) 匿名性(Anonymity)

 

在人际交流中,是否存在一些机会能够允许人们暂时不考虑非常强的这些约束,然后尝试问一些更亲密的问题,讲者基于Reddit上的匿名性现象展开研究。比如,使用throwaway123,anonymous123这种账户或者有些用户名其实也没有展示任何个人信息。那这里需要研究的问题是:人们在使用一个有益的匿名身份时,会如何改变他们的语言亲密度?

 

讲者分别从以下三个方面设计对比实验:

 

第一个是匿名账号(Anonymous Accounts);

第二个是depersonalized account,就是说用户名中并不包含任何明显的个人身份信息,(比如,用户获得博士学位,那会有Doctor或者PhD相关信息体现)剔除掉这种个人身份的标记后,该账户被称为depersonalized account;

第三个是账户中包含了一个真实的名字(Name Containing)(比如说 samscool,它就包含了Sam这样的真实的姓名)。具体地,基于大概有1100万的问题,横跨11万的subreddits的实验集,使用一个mixed direct regression,同时控制每一个subreddits作为一个random effects,因为每个subreddits的对话亲密度不一样。

 

密歇根大学裴嘉欣:量化语言亲密度_java_11

图8

 

由实验可知,当人们使用了一个匿名身份的时候,其实从内心里会允许自己去问更亲密的问题,但是当使用一个本身从外界感知是匿名的身份时,便不会去问更亲密的问题。这就反映了,在真实生活中的这样的一种社会规范。尽管是在线上Reddit这样非常匿名的环境中仍然存在,而当人们尝试去打破这样的一种社会规范时,人们会给创造一个完全匿名的身份。

 

d) 语言技巧(Pragmatic Choices)

 

然而在线下的社交中很难用匿名的身份来进行交互,但是语言上存在的一些技巧或者说一些方法,可以使人们去问更亲密的问题。这里主要研究了两种非常经典的Pragmatic Choices,第一种是 swearing,类似于Oh My God这种词,就是能够表达对话者之间的一种连接度,因为很多时候会和一些非常亲密的人才会使用这些词;另外一种是hedging,比如会使用“可能” “也许”这种表达不确定性的词,来减少风险,避免可能出现的尴尬。那么这两种语言学的现象,是否能提高语言的亲密度?

 

基于此,讲者研究了来自于这4个数据集的大概2000万个问题,实验结果表明,这样的一个词汇或者语言学的现象,确实是和更高的亲密度紧密相关。在使用swearing的时候,往往整个问题的亲密度是更高的;然后对于 hedging word来说也是成立的,就是说人们可能会使用一种增强不确定性的词,来降低自己的风险,从而使得人们可以问一些更亲密的问题。

 

密歇根大学裴嘉欣:量化语言亲密度_java_12密歇根大学裴嘉欣:量化语言亲密度_java_13

图9

 

总结

 

讲者通过研究语言的亲密度,来研究人和人之间的关系。同时提出了一套非常有效的标注语言亲密度的方法,并且公开了数据和新的模型,进一步分别分析了性别、社交距离和匿名性对于人际交流的影响。

 

密歇根大学裴嘉欣:量化语言亲密度_java_14

图10

 

原文地址:

https://www.aclweb.org/anthology/2020.emnlp-main.428.pdf

 

代码链接:

http://blablablab.si.umich.edu/projects/intimacy

 

 

 

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你

 

密歇根大学裴嘉欣:量化语言亲密度_java_15 

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

密歇根大学裴嘉欣:量化语言亲密度_java_16