社交网络中的抑郁症用户语言和行为特征分析及(2) - 语言研究杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

社交网络中的抑郁症用户语言和行为特征分析及(2)

作者:

关键词:

摘要：

在众多方法中，LIWC统计方法具有较高的检测率。LIWC是由心理分析学家制作的一套心理语言学词汇包[27]，可以从用户语言中分析出70多个心理语言学特征，被广泛应用于基于社交网络的心理健康分析[17,28]。LIWC的成功激发了研究人员提出自定义领域词典的方法，比如来自WordNet的情感词汇，来自Vader的情感词汇[29-30]，以及采用词向量技术的抑郁症扩充词典[31-32]。在国内，中国科学院心理研究所计算网络心理实验室参照LIWC2007，研发了中文文本分析软件“文心”，胡泉使用该软件对新浪微博用户的文本数据提取语言成分特征和心理状态特征对抑郁症进行检测[33]。

基于LIWC的方法从心理学角度提取了抑郁症用户在社交网络上的语言特征，这些特征对于抑郁症患者具有一定的表征能力，预测效果可以达到85%以上。其关键在于LIWC字典的定义，LIWC字典主要包含情感和认知等心理学相关的词语,不能很全面的涵盖抑郁用户的语言词汇，因此，LIWC的语言分析并不全面，缺少一些隐含的有价值的语言信息，这些隐含信息对于早期和轻度抑郁症的检测更有意义。

综上所述，社交网络语言和行为中蕴含着与心理学相关的重要信息，使用这些信息来衡量和预测用户心理健康水平，是较为科学的方法之一。提取具有较强表征能力的抑郁特征是提高检测效果的关键。本文在已有研究的基础上，采用新的特征计算方法，进一步扩大了基于社交网络的抑郁测量的范围，从不同维度描述了推特用户分享内容的语言和行为特征，并分析比较了几种常用的机器学习模型预测抑郁症的有效性，最高预测准确率达到90%以上。

2 基于社交网络的抑郁症用户分析及检测模型

本文建立的基于社交网络的抑郁症特征分析及检测模型主要包括以下几个部分，如图1所示：

图1 基于社交网络的抑郁症用户检测模型

2.1 数据采集

参照心理疾病在线识别研究中的数据采集方法[28,34]，本文使用表1中的关键短语作为正则表达式构造搜索关键词。通过推特API从公开的推特数据中检索自我诊断为抑郁症的个人用户，最后收集到2015-2017年期间，共5 899名疑似抑郁症用户组，同时爬取这些用户发表的时间轴(Timeline)信息。为了与抑郁症用户组进行对照分析，从推特流中过滤出不包含上述关键短语的5 366个正常用户作为参照组，同时爬取这些用户在同样时间间隔内的时间轴(Timeline)数据。每个被过滤用户的时间轴数据包括帖子文本、用户名、发布时间、标签、提及次数、收藏、地理位置和帖子编号等信息。在表2中列出了所获得数据的基本描述性信息。

2.2 数据预处理

上述数据作为我们实验数据的候选集，为了提高模型的效果，需要进行数据预处理。首先去除非英语用户，以及被关注数超过1 000的用户，因为该类账户有可能是一些组织、名人或社团账户。然后删除停用词、@、网址、频率较高的单词和出现次数少于3次的单词，最后采用Autocorrect进行拼写检查，进行词干提取，以进一步减少单词个数。

表1 句式匹配关键短语及例句关键短语匹配结果Diagnosed Me with DepressionDiagnosed Depression“Doc Have Diagnosed Me with Depression.&& I Have Pills to Take for it.But I Dont Take that Ish”I Am Diagnosed with DepressionI Am Depressed“My Job is Completely Soul Diagnosed with Depression Every Time that I Clock Ill Be Here for the Rest of Life.”I Have Been Diagnosed with DepressionI Have Depression“Saying‘I AM MORE!’is Saying:I Have Been Diagnosed with Depression,But I Have Not Been Condemned to be… Think I Have DepressionThey Told Me I Have Depression“@*** I At Never Go Told Me I Have Now Went to the Doc.Can Come Out?”I Was Diagnosed with DepressionTold Me I Have Depression@***I Was Diagnosed with Depression 4 Years I Got a Bp Therapist Who Recognized it Right Away.

表2 推特数据集抑郁用户组控制组(正常用户)用户数量5 8995 366帖子数量420 9422 275 646用户平均帖子数量

尽管关键短语包含自我表述的抑郁症的经历和诊断，但仍有很多被过滤出的帖子中存在虚假陈述和引用等形式的噪声数据。另外，对随机爬取的正常用户中有可能存在没有使用匹配句式的抑郁用户，为了获得真实准确的样本，本文使用人工标注方法对数据进行了评分，对候选集数据进行更精确的筛选，对每一个候选用户，将其通过正则表达式匹配的帖子作为中心，提取中心帖子发布之前和之后各连续10条帖子，形成一组上下文帖子。我们将其称为推特用户的上下文。这些来自5 899名疑似用户和5 366名正常用户的公开上下文随后被传递给3位评分员，对数据真实性进行注释，(0-抑郁，1-非抑郁，2-不确定)，每个评分员分别对所有用户进行单独分类，只有被所有评分者都标记为0的用户被选入抑郁用户数据集。其中疑似用户组最终得到2 143个抑郁用户，2 933个正常用户，823个不确定用户；正常用户组得到4 037个正常用户，78个抑郁用户，1 251个不确定用户，评分者之间的3类注释任务的科恩κ测量值是0.62。分歧主要出现在“2-不确定”类上，在“0-抑郁”类和“1-非抑郁”类之间的一致性为0.86。最终，选择疑似用户组中的2 143个抑郁用户作为抑郁用户数据集，正常用户中的4 037个正常用户作为正常用户数据集。

文章来源：《语言研究》网址: http://www.yyyjzzs.cn/qikandaodu/2021/0214/656.html