- · 《语言研究》栏目设置[09/30]
- · 《语言研究》数据库收录[09/30]
- · 《语言研究》投稿方式[09/30]
- · 《语言研究》征稿要求[09/30]
- · 《语言研究》刊物宗旨[09/30]
社交网络中的抑郁症用户语言和行为特征分析及(2)
作者:网站采编关键词:
摘要:在众多方法中,LIWC统计方法具有较高的检测率。LIWC是由心理分析学家制作的一套心理语言学词汇包[27],可以从用户语言中分析出70多个心理语言学特征,
在众多方法中,LIWC统计方法具有较高的检测率。LIWC是由心理分析学家制作的一套心理语言学词汇包[27],可以从用户语言中分析出70多个心理语言学特征,被广泛应用于基于社交网络的心理健康分析[17,28]。LIWC的成功激发了研究人员提出自定义领域词典的方法,比如来自WordNet的情感词汇,来自Vader的情感词汇[29-30],以及采用词向量技术的抑郁症扩充词典[31-32]。在国内,中国科学院心理研究所计算网络心理实验室参照LIWC2007,研发了中文文本分析软件“文心”,胡泉使用该软件对新浪微博用户的文本数据提取语言成分特征和心理状态特征对抑郁症进行检测[33]。
基于LIWC的方法从心理学角度提取了抑郁症用户在社交网络上的语言特征,这些特征对于抑郁症患者具有一定的表征能力,预测效果可以达到85%以上。其关键在于LIWC字典的定义,LIWC字典主要包含情感和认知等心理学相关的词语,不能很全面的涵盖抑郁用户的语言词汇,因此,LIWC的语言分析并不全面,缺少一些隐含的有价值的语言信息,这些隐含信息对于早期和轻度抑郁症的检测更有意义。
综上所述,社交网络语言和行为中蕴含着与心理学相关的重要信息,使用这些信息来衡量和预测用户心理健康水平,是较为科学的方法之一。提取具有较强表征能力的抑郁特征是提高检测效果的关键。本文在已有研究的基础上,采用新的特征计算方法,进一步扩大了基于社交网络的抑郁测量的范围,从不同维度描述了推特用户分享内容的语言和行为特征,并分析比较了几种常用的机器学习模型预测抑郁症的有效性,最高预测准确率达到90%以上。
2 基于社交网络的抑郁症用户分析及检测模型
本文建立的基于社交网络的抑郁症特征分析及检测模型主要包括以下几个部分,如图1所示:
图1 基于社交网络的抑郁症用户检测模型
2.1 数据采集
参照心理疾病在线识别研究中的数据采集方法[28,34],本文使用表1中的关键短语作为正则表达式构造搜索关键词。通过推特API从公开的推特数据中检索自我诊断为抑郁症的个人用户,最后收集到2015-2017年期间,共5 899名疑似抑郁症用户组,同时爬取这些用户发表的时间轴(Timeline)信息。为了与抑郁症用户组进行对照分析,从推特流中过滤出不包含上述关键短语的5 366个正常用户作为参照组,同时爬取这些用户在同样时间间隔内的时间轴(Timeline)数据。每个被过滤用户的时间轴数据包括帖子文本、用户名、发布时间、标签、提及次数、收藏、地理位置和帖子编号等信息。在表2中列出了所获得数据的基本描述性信息。
2.2 数据预处理
上述数据作为我们实验数据的候选集,为了提高模型的效果,需要进行数据预处理。首先去除非英语用户,以及被关注数超过1 000的用户,因为该类账户有可能是一些组织、名人或社团账户。然后删除停用词、@、网址、频率较高的单词和出现次数少于3次的单词,最后采用Autocorrect进行拼写检查,进行词干提取,以进一步减少单词个数。
表1 句式匹配关键短语及例句关键短语匹 配 结 果Diagnosed Me with DepressionDiagnosed Depression“Doc Have Diagnosed Me with Depression.&& I Have Pills to Take for it.But I Dont Take that Ish”I Am Diagnosed with DepressionI Am Depressed“My Job is Completely Soul Diagnosed with Depression Every Time that I Clock Ill Be Here for the Rest of Life.”I Have Been Diagnosed with DepressionI Have Depression“Saying‘I AM MORE!’is Saying:I Have Been Diagnosed with Depression,But I Have Not Been Condemned to be… Think I Have DepressionThey Told Me I Have Depression“@*** I At Never Go Told Me I Have Now Went to the Doc.Can Come Out?”I Was Diagnosed with DepressionTold Me I Have Depression@***I Was Diagnosed with Depression 4 Years I Got a Bp Therapist Who Recognized it Right Away.
表2 推特数据集抑郁用户组控制组(正常用户)用户数量5 8995 366帖子数量420 9422 275 646用户平均帖子数量
尽管关键短语包含自我表述的抑郁症的经历和诊断,但仍有很多被过滤出的帖子中存在虚假陈述和引用等形式的噪声数据。另外,对随机爬取的正常用户中有可能存在没有使用匹配句式的抑郁用户,为了获得真实准确的样本,本文使用人工标注方法对数据进行了评分,对候选集数据进行更精确的筛选,对每一个候选用户,将其通过正则表达式匹配的帖子作为中心,提取中心帖子发布之前和之后各连续10条帖子,形成一组上下文帖子。我们将其称为推特用户的上下文。这些来自5 899名疑似用户和5 366名正常用户的公开上下文随后被传递给3位评分员,对数据真实性进行注释,(0-抑郁,1-非抑郁,2-不确定),每个评分员分别对所有用户进行单独分类,只有被所有评分者都标记为0的用户被选入抑郁用户数据集。其中疑似用户组最终得到2 143个抑郁用户,2 933个正常用户,823个不确定用户;正常用户组得到4 037个正常用户,78个抑郁用户,1 251个不确定用户,评分者之间的3类注释任务的科恩κ测量值是0.62。分歧主要出现在“2-不确定”类上,在“0-抑郁”类和“1-非抑郁”类之间的一致性为0.86。最终,选择疑似用户组中的2 143个抑郁用户作为抑郁用户数据集,正常用户中的4 037个正常用户作为正常用户数据集。
文章来源:《语言研究》 网址: http://www.yyyjzzs.cn/qikandaodu/2021/0214/656.html
上一篇:岩土工程论文写作问题探讨
下一篇:语言与社会互动的典型意义