社交网络中的抑郁症用户语言和行为特征分析及(4) - 语言研究杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

社交网络中的抑郁症用户语言和行为特征分析及(4)

作者:

关键词:

摘要：

3 研究结果分析

3.1 抑郁用户的行为特征分析

3.1.1 交互行为分析

从抑郁用户组和正常用户组交互特征统计结果(如图2)可以发现，抑郁用户在社交网络上不如正常用户活跃，通常他们具有较少的朋友(432<608，p<0.001)。平均每天的发帖数量明显低于正常用户(25.79<27.92，p<0.001)，抑郁用户平均被关注数低于正常用户(0.330<1.362，p<0.001)。平均每天的收藏数量较低(7.73<9.73，p=0.032)。另外，他们对事物缺乏兴趣，关注或收藏的内容较少。抑郁症患者在社交网络上与其他用户之间的交互活动较少，具体表现在整体的发帖量明显低于正常用户。

图2 抑郁用户组和正常用户组交互特征统计

3.1.2 活动周期性分析

通过推特用户的发帖周期可以发现，正常用户组整体发帖数量要远高于抑郁用户组。从图3看，抑郁用户组的活跃时间峰值出现在凌晨2～3点之间，这可能与抑郁症患者普遍存在的失眠或者半夜早醒等睡眠障碍有关。

3.2 抑郁用户语言特征分析

3.2.1 语言结构分析

通过对抑郁症患者帖子的语言结构分析发现，抑郁用户使用人称代词的比例要显著高于正常用户，较常使用第一人称(0.023>0.022，p=0.01)和第二人称(0.020>0.019，p=0.002)，较少使用第三人称(0.015<0.017，p<0.001)。从心理学的视角看，较多的第一人称使用率表明，抑郁症患者更加关注自身，自我意识或自我感知能力过强。容易产生极端化的思维方式，喜欢用表示极端的副词，如“完全”、“绝对”或“所有人”(0.0066>0.0059，p<0.001)。每个单词的平均字符数存在一定差异(4.749>4.732，p=0.048)。

图3 抑郁用户和正常用户在社交媒体上活跃时间

抑郁症用户在交流中使用较为简单的语法形式，缺乏灵活性，语言可读性(CLI)较低(11.59<11.78，p=0.046)，在词性类别的选择上更加单一化，运用语言的能力要低于正常用户组。在连词(0.019>0.022，p<0.001)、数词(0.016<0.018，p<0.001)、情态助动词(0.013>0.012，p=0.01)、名词(0.176<0.179，p=0.006)、副词(0.061>0.059，p=0.004)、小品词(0.0049<0.0052，p=0.001)和动词(0.098<0.104，p<0.001)等词语使用频率整体较低。抑郁症患者语言和内容相对贫乏，倾向于使用更多的简单单词(4.73<4.74，p=0.047),每个句子平均单词数较少(17<37，p=0.002)。结果见图4。

3.2.2 Empath特征分析

对抽取的198维Empath特征进行比较，通过T检验发现两类用户在其中的82个词语类别具有显著差异，如表4所示。与正常用户相比，抑郁症用户更多使用阅读、感情、听觉、声音、睡眠等感知相关的词语类别，而仇恨、羞愧、辱骂、易怒、抑郁、混乱、犯罪、恐怖、受伤等负面情绪相关词汇频率也高于正常用户。这表明抑郁症用户经常表现出情绪低落，更多关注家庭、旅游、运动、互联网、计算机、社交媒体等相关的内容。较少关注时尚、法律、战争、军队、暴力等大众普遍关注的话题。Empath还进行了情感极性分析，其中在积极情感分数上，抑郁用户和正常用户之间没有显著差别，但是抑郁用户较多使用表示消极的词语(0.0045>0.0041，p<0.001)。

3.2.3 LDA主题分析

根据LDA主题个数与困惑度的曲线图(如图5)，主题个数设置为20，表5列出了抑郁用户的主题—高频关键词。从主题分析的高频词分析，抑郁用户在社交平台上会较多地谈论疾病症状、治疗经验等话题，会更多地关注自身情感状态。

为了比较抑郁用户组与正常用户组的主题差异，本文首先分别计算两个组中所有帖子的每个主题的后验概率。然后比较所有主题在每组用户所有帖子上的概率分布。对结果进行成对T检验，发现所有主题在两组用户的分布存在明显差异(p=0.006)。

3.3 抑郁用户的检测效果分析

分类实验结果表明，在应用的几种分类算法中，随机森林的分类效果最好，如表6所示。

图4 抑郁用户组和正常用户组语言结果分析

为了分析不同类别的特征对分类效果的影响，本文将每类特征分别用随机森林进行分类实验。从图6看，Empath分类效果最好，对整体的分类效果贡献最大。

随机森林算法的信息熵可以测量不同类别特征的重要性，熵值的平均降幅越大，则信息增益越大，即特征对分类结果的重要性越大。图7为每类特征信息熵的平均下降幅度进行归一化后的结果。

Empath特征对分类效果起着最关键作用。Empath特征共提取198维词语类别特征，因此需要足够多的语言信息。当用户在社交网络上分享的语言信息较少时，会增加被错分的可能性。通过观察随机森林分类模型中被错分的371个用户的社交数据，发现这些用户在社交网络上分享内容明显少于正确分类用户，其中正确分类用户平均发帖量为73条，每条帖子词汇数平均为86，而错分用户为38条，每条帖子词汇数为34。可以通过增大时间窗口获取更多用户信息的方法进行改进，但时间窗口的选择需要进行实验研究，如果时间窗口太大，会增加计算成本，也可能会降低特征的表征能力。另外，本文提出的方法在其他社交网络上的应用效果也需要进一步的验证。

文章来源：《语言研究》网址: http://www.yyyjzzs.cn/qikandaodu/2021/0214/656.html