- · 《语言研究》栏目设置[09/30]
- · 《语言研究》数据库收录[09/30]
- · 《语言研究》投稿方式[09/30]
- · 《语言研究》征稿要求[09/30]
- · 《语言研究》刊物宗旨[09/30]
社交网络中的抑郁症用户语言和行为特征分析及(4)
作者:网站采编关键词:
摘要:3 研究结果分析 3.1 抑郁用户的行为特征分析 3.1.1 交互行为分析 从抑郁用户组和正常用户组交互特征统计结果(如图2)可以发现,抑郁用户在社交网络上不如
3 研究结果分析
3.1 抑郁用户的行为特征分析
3.1.1 交互行为分析
从抑郁用户组和正常用户组交互特征统计结果(如图2)可以发现,抑郁用户在社交网络上不如正常用户活跃,通常他们具有较少的朋友(432<608,p<0.001)。平均每天的发帖数量明显低于正常用户(25.79<27.92,p<0.001),抑郁用户平均被关注数低于正常用户(0.330<1.362,p<0.001)。平均每天的收藏数量较低(7.73<9.73,p=0.032)。另外,他们对事物缺乏兴趣,关注或收藏的内容较少。抑郁症患者在社交网络上与其他用户之间的交互活动较少,具体表现在整体的发帖量明显低于正常用户。
图2 抑郁用户组和正常用户组交互特征统计
3.1.2 活动周期性分析
通过推特用户的发帖周期可以发现,正常用户组整体发帖数量要远高于抑郁用户组。从图3看,抑郁用户组的活跃时间峰值出现在凌晨2~3点之间,这可能与抑郁症患者普遍存在的失眠或者半夜早醒等睡眠障碍有关。
3.2 抑郁用户语言特征分析
3.2.1 语言结构分析
通过对抑郁症患者帖子的语言结构分析发现,抑郁用户使用人称代词的比例要显著高于正常用户,较常使用第一人称(0.023>0.022,p=0.01)和第二人称(0.020>0.019,p=0.002),较少使用第三人称(0.015<0.017,p<0.001)。从心理学的视角看,较多的第一人称使用率表明,抑郁症患者更加关注自身,自我意识或自我感知能力过强。容易产生极端化的思维方式,喜欢用表示极端的副词,如“完全”、“绝对”或“所有人”(0.0066>0.0059,p<0.001)。每个单词的平均字符数存在一定差异(4.749>4.732,p=0.048)。
图3 抑郁用户和正常用户在社交媒体上活跃时间
抑郁症用户在交流中使用较为简单的语法形式,缺乏灵活性,语言可读性(CLI)较低(11.59<11.78,p=0.046),在词性类别的选择上更加单一化,运用语言的能力要低于正常用户组。在连词(0.019>0.022,p<0.001)、数词(0.016<0.018,p<0.001)、情态助动词(0.013>0.012,p=0.01)、名词(0.176<0.179,p=0.006)、副词(0.061>0.059,p=0.004)、小品词(0.0049<0.0052,p=0.001)和动词(0.098<0.104,p<0.001)等词语使用频率整体较低。抑郁症患者语言和内容相对贫乏,倾向于使用更多的简单单词(4.73<4.74,p=0.047),每个句子平均单词数较少(17<37,p=0.002)。结果见图4。
3.2.2 Empath特征分析
对抽取的198维Empath特征进行比较,通过T检验发现两类用户在其中的82个词语类别具有显著差异,如表4所示。与正常用户相比,抑郁症用户更多使用阅读、感情、听觉、声音、睡眠等感知相关的词语类别,而仇恨、羞愧、辱骂、易怒、抑郁、混乱、犯罪、恐怖、受伤等负面情绪相关词汇频率也高于正常用户。这表明抑郁症用户经常表现出情绪低落,更多关注家庭、旅游、运动、互联网、计算机、社交媒体等相关的内容。较少关注时尚、法律、战争、军队、暴力等大众普遍关注的话题。Empath还进行了情感极性分析,其中在积极情感分数上,抑郁用户和正常用户之间没有显著差别,但是抑郁用户较多使用表示消极的词语(0.0045>0.0041,p<0.001)。
3.2.3 LDA主题分析
根据LDA主题个数与困惑度的曲线图(如图5),主题个数设置为20,表5列出了抑郁用户的主题—高频关键词。从主题分析的高频词分析,抑郁用户在社交平台上会较多地谈论疾病症状、治疗经验等话题,会更多地关注自身情感状态。
为了比较抑郁用户组与正常用户组的主题差异,本文首先分别计算两个组中所有帖子的每个主题的后验概率。然后比较所有主题在每组用户所有帖子上的概率分布。对结果进行成对T检验,发现所有主题在两组用户的分布存在明显差异(p=0.006)。
3.3 抑郁用户的检测效果分析
分类实验结果表明,在应用的几种分类算法中,随机森林的分类效果最好,如表6所示。
图4 抑郁用户组和正常用户组语言结果分析
为了分析不同类别的特征对分类效果的影响,本文将每类特征分别用随机森林进行分类实验。从图6看,Empath分类效果最好,对整体的分类效果贡献最大。
随机森林算法的信息熵可以测量不同类别特征的重要性,熵值的平均降幅越大,则信息增益越大,即特征对分类结果的重要性越大。图7为每类特征信息熵的平均下降幅度进行归一化后的结果。
Empath特征对分类效果起着最关键作用。Empath特征共提取198维词语类别特征,因此需要足够多的语言信息。当用户在社交网络上分享的语言信息较少时,会增加被错分的可能性。通过观察随机森林分类模型中被错分的371个用户的社交数据,发现这些用户在社交网络上分享内容明显少于正确分类用户,其中正确分类用户平均发帖量为73条,每条帖子词汇数平均为86,而错分用户为38条,每条帖子词汇数为34。可以通过增大时间窗口获取更多用户信息的方法进行改进,但时间窗口的选择需要进行实验研究,如果时间窗口太大,会增加计算成本,也可能会降低特征的表征能力。另外,本文提出的方法在其他社交网络上的应用效果也需要进一步的验证。
文章来源:《语言研究》 网址: http://www.yyyjzzs.cn/qikandaodu/2021/0214/656.html
上一篇:岩土工程论文写作问题探讨
下一篇:语言与社会互动的典型意义