投稿指南
一、稿件要求: 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立,论述详实,能够对读者的购买起到指导作用。文章体裁不限,字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件,请注明插图位置。插图应清晰可辨,可保存为*.jpg、*.gif格式。如使用word等编辑的文本,建议不要将图片直接嵌在word文件中,而将插图另存,并注明插图位置。 3、如果用电子邮件投稿,最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等,以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者,将保留追究由此引起的法律、经济责任的权利。 二、投稿方式: 1、 请使用电子邮件方式投递稿件。 2、 编译的稿件,请注明出处并附带原文。 3、 请按稿件内容投递到相关编辑信箱 三、稿件著作权: 1、 投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我方所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我方所投之作品不得同时向第三方投送,即不允许一稿多投。若投稿人有违反该款约定的行为,则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、 投稿人授予我方享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 投稿人委托我方声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

社交网络中的抑郁症用户语言和行为特征分析及(4)

来源:语言研究 【在线投稿】 栏目:期刊导读 时间:2021-02-14
作者:网站采编
关键词:
摘要:3 研究结果分析 3.1 抑郁用户的行为特征分析 3.1.1 交互行为分析 从抑郁用户组和正常用户组交互特征统计结果(如图2)可以发现,抑郁用户在社交网络上不如

3 研究结果分析

3.1 抑郁用户的行为特征分析

3.1.1 交互行为分析

从抑郁用户组和正常用户组交互特征统计结果(如图2)可以发现,抑郁用户在社交网络上不如正常用户活跃,通常他们具有较少的朋友(432<608,p<0.001)。平均每天的发帖数量明显低于正常用户(25.79<27.92,p<0.001),抑郁用户平均被关注数低于正常用户(0.330<1.362,p<0.001)。平均每天的收藏数量较低(7.73<9.73,p=0.032)。另外,他们对事物缺乏兴趣,关注或收藏的内容较少。抑郁症患者在社交网络上与其他用户之间的交互活动较少,具体表现在整体的发帖量明显低于正常用户。

图2 抑郁用户组和正常用户组交互特征统计

3.1.2 活动周期性分析

通过推特用户的发帖周期可以发现,正常用户组整体发帖数量要远高于抑郁用户组。从图3看,抑郁用户组的活跃时间峰值出现在凌晨2~3点之间,这可能与抑郁症患者普遍存在的失眠或者半夜早醒等睡眠障碍有关。

3.2 抑郁用户语言特征分析

3.2.1 语言结构分析

通过对抑郁症患者帖子的语言结构分析发现,抑郁用户使用人称代词的比例要显著高于正常用户,较常使用第一人称(0.023>0.022,p=0.01)和第二人称(0.020>0.019,p=0.002),较少使用第三人称(0.015<0.017,p<0.001)。从心理学的视角看,较多的第一人称使用率表明,抑郁症患者更加关注自身,自我意识或自我感知能力过强。容易产生极端化的思维方式,喜欢用表示极端的副词,如“完全”、“绝对”或“所有人”(0.0066>0.0059,p<0.001)。每个单词的平均字符数存在一定差异(4.749>4.732,p=0.048)。

图3 抑郁用户和正常用户在社交媒体上活跃时间

抑郁症用户在交流中使用较为简单的语法形式,缺乏灵活性,语言可读性(CLI)较低(11.59<11.78,p=0.046),在词性类别的选择上更加单一化,运用语言的能力要低于正常用户组。在连词(0.019>0.022,p<0.001)、数词(0.016<0.018,p<0.001)、情态助动词(0.013>0.012,p=0.01)、名词(0.176<0.179,p=0.006)、副词(0.061>0.059,p=0.004)、小品词(0.0049<0.0052,p=0.001)和动词(0.098<0.104,p<0.001)等词语使用频率整体较低。抑郁症患者语言和内容相对贫乏,倾向于使用更多的简单单词(4.73<4.74,p=0.047),每个句子平均单词数较少(17<37,p=0.002)。结果见图4。

3.2.2 Empath特征分析

对抽取的198维Empath特征进行比较,通过T检验发现两类用户在其中的82个词语类别具有显著差异,如表4所示。与正常用户相比,抑郁症用户更多使用阅读、感情、听觉、声音、睡眠等感知相关的词语类别,而仇恨、羞愧、辱骂、易怒、抑郁、混乱、犯罪、恐怖、受伤等负面情绪相关词汇频率也高于正常用户。这表明抑郁症用户经常表现出情绪低落,更多关注家庭、旅游、运动、互联网、计算机、社交媒体等相关的内容。较少关注时尚、法律、战争、军队、暴力等大众普遍关注的话题。Empath还进行了情感极性分析,其中在积极情感分数上,抑郁用户和正常用户之间没有显著差别,但是抑郁用户较多使用表示消极的词语(0.0045>0.0041,p<0.001)。

3.2.3 LDA主题分析

根据LDA主题个数与困惑度的曲线图(如图5),主题个数设置为20,表5列出了抑郁用户的主题—高频关键词。从主题分析的高频词分析,抑郁用户在社交平台上会较多地谈论疾病症状、治疗经验等话题,会更多地关注自身情感状态。

为了比较抑郁用户组与正常用户组的主题差异,本文首先分别计算两个组中所有帖子的每个主题的后验概率。然后比较所有主题在每组用户所有帖子上的概率分布。对结果进行成对T检验,发现所有主题在两组用户的分布存在明显差异(p=0.006)。

3.3 抑郁用户的检测效果分析

分类实验结果表明,在应用的几种分类算法中,随机森林的分类效果最好,如表6所示。

图4 抑郁用户组和正常用户组语言结果分析

为了分析不同类别的特征对分类效果的影响,本文将每类特征分别用随机森林进行分类实验。从图6看,Empath分类效果最好,对整体的分类效果贡献最大。

随机森林算法的信息熵可以测量不同类别特征的重要性,熵值的平均降幅越大,则信息增益越大,即特征对分类结果的重要性越大。图7为每类特征信息熵的平均下降幅度进行归一化后的结果。

Empath特征对分类效果起着最关键作用。Empath特征共提取198维词语类别特征,因此需要足够多的语言信息。当用户在社交网络上分享的语言信息较少时,会增加被错分的可能性。通过观察随机森林分类模型中被错分的371个用户的社交数据,发现这些用户在社交网络上分享内容明显少于正确分类用户,其中正确分类用户平均发帖量为73条,每条帖子词汇数平均为86,而错分用户为38条,每条帖子词汇数为34。可以通过增大时间窗口获取更多用户信息的方法进行改进,但时间窗口的选择需要进行实验研究,如果时间窗口太大,会增加计算成本,也可能会降低特征的表征能力。另外,本文提出的方法在其他社交网络上的应用效果也需要进一步的验证。

文章来源:《语言研究》 网址: http://www.yyyjzzs.cn/qikandaodu/2021/0214/656.html



上一篇:岩土工程论文写作问题探讨
下一篇:语言与社会互动的典型意义

语言研究投稿 | 语言研究编辑部| 语言研究版面费 | 语言研究论文发表 | 语言研究最新目录
Copyright © 2018 《语言研究》杂志社 版权所有
投稿电话: 投稿邮箱: