- · 《语言研究》栏目设置[09/30]
- · 《语言研究》数据库收录[09/30]
- · 《语言研究》投稿方式[09/30]
- · 《语言研究》征稿要求[09/30]
- · 《语言研究》刊物宗旨[09/30]
社交网络中的抑郁症用户语言和行为特征分析及(3)
作者:网站采编关键词:
摘要:这3类用户分别分享了120 183条、224 092条和76 667条帖子,平均每个用户分享了56条、76条和93条帖子。表3给出了每个类别的上下文帖子的示例。 表3 评分者数
这3类用户分别分享了120 183条、224 092条和76 667条帖子,平均每个用户分享了56条、76条和93条帖子。表3给出了每个类别的上下文帖子的示例。
表3 评分者数据标注示例类 别帖 子0-抑郁Im Not Afraid to Admit that Ive Been Diagnosed with Shouldnt Be Here Because I Tried Ended My Life a Few Times.I Have Been Diagnosed with Depression and Have to Multiple Therapist and Take About Four Different Kind of Treatments. I Hate When People Tell Me to Stop Being Depressed,Do You Think I Can Help That.I Was Diagnose with Depression,I Can Not Just Stop It.
表3(续)类 别帖 子1-非抑郁I Was Diagnosed with Major Depression More than 20 Years Healthier Has Made a Huge Difference in the Past Year.I Ran Three Miles in 93 Degrees Fahrenheit and 47 Degrees Do Not Sleep Good 2 Year Ago I Was Diagnosed with Leukemia and My Daughter Died from Depression Shortly After.I Guess I Should Say Content of Value.I Support Twitter any Day Over Neither Have Much Humane 不确定I Find Out that I Have Be Diagnose with Anxiety and Be Look Great So Far.Who Do it Better.I Guess it Was Safe to Say I Have Been Diagnosed with I Was Not Fake It.I Was in a Terribly Unstable Emotional State this Morning.
2.3 特征提取与选择
2.3.1 行为特征提取
用户在社交网络的行为特征主要是指可以代表用户交互行为内容的特征。研究表明,心理健康与网络行为之间存在关联性。根据抑郁症的临床经验,患者意志活动呈显著持久的抑制。表现为行为缓慢,生活被动,回避社交,这些特征也体现在社交网络行为上。通过推特API接口获取用户的注册时间,发帖数量等社交网络行为数据,选取了发帖总数,朋友数量,日均发帖量、日均收藏数,日均被关注数量,回复率,被转发帖子数量等信息进行统计分析和比对。
研究发现,抑郁症用户在推特等社交网络上的活跃时间具有明显的规律性。因此,对抑郁用户组和正常用户组的不同时间的发帖行为进行了统计,将1天按照每2小时为间隔划分成12个时间段,分别统计用户在这些时间段内的发帖数量,并绘制用户发帖时间与发帖数量曲线图,对用户社交行为的周期性特征进行分析。
2.3.2 语言特征提取
思维与语法组织形式之间的关系被广泛地应用于心理疾病的症状分析[35]。本文提取推特用户的不同词性类别的使用频率、语法形式、可读性指标CLI[30]、单词复杂性指标等用于对比抑郁用户和正常用户在词汇选择、语法灵活性等语言运用能力上的差异。
研究人员经常使用LIWC从心理学角度来分析社交媒体上的帖子[36]。但LIWC只有40个主题和情感类别,缺少许多潜在的词语类别[37]。本文使用Empath[37]进行词语分析,Empath是一种数据驱动的语言分析工具,利用对现代小说中18亿个单词的深度学习,将用户给定的一组种子词语,扩展生成新的词汇类别。例如,使用种子词语“推特”和“脸书”,Empath可以生成“社交媒体”词语类别。Empath的部分词语类别已被证实与LIWC中的类似词语类别高度相关(r=0.906)。
为了研究抑郁用户患病的原因,对抑郁用户的帖子进行LDA主题模型[38]分析。本文使用Gensim实现的LDA模型获得推特用户的主题分布。LDA主题模型分析方法是一种非监督聚类方法,需要设定主题个数,为了获得最佳主题个数,需计算不同主题数量下的困惑度,选取具有最小困惑度的主题模型。
2.3.3 特征选择
通过对抑郁用户在社交网络上的行为、语言的分析,得到了很多属性特征,这些属性将有助于识别社交网络中抑郁用户。为了提高模型预测的准确度,需要对这些属性进行选择。
首先进行归一化处理,消除特征值衡量方式差异对识别效果的影响。如将所有频次统计特征映射到[0,1]范围内,对于具有不同量纲的特征进行Min-Max归一化处理。其次消除噪声特征,选择最显著的特征变量。筛选方法是根据特征在各种统计测试中的得分与结果变量的相关性。具体通过采用ANOVA F测试方法去除噪声和冗余特征,将特征空间从254个特征减少到132个最佳特征。
2.4 分类训练及预测
通过特征选择获得的属性将用于识别社交网络中抑郁用户,从正常用户中检测出具有抑郁症的用户。采用机器学习模型基于这些属性特征进行分类训练及预测,将数据集分成训练集和测试集,将训练集输入逻辑回归、支持向量机、高斯朴素贝叶斯、决策树和随机森林等机器学习模型进行分类训练,选择拟合效果最佳的学习模型,对测试集进行预测。
为了选择最佳学习模型,计算每种学习模型在测试集上的查准率、查全率、f1和AUC等指标对预测效果进行性能度量。为避免过拟合,采用十折交叉验证方法,将数据集分成10等份,轮流将其中9份作为训练数据,1份作为测试数据。取10次十折交叉验证结果的平均值作为对机器学习算法效率的估计。为了分析不同特征对分类效果的影响,将每类特征分别进行分类实验,以检测每类特征的表征能力,并通过随机森林算法计算每类特征对预测结果的重要性。
文章来源:《语言研究》 网址: http://www.yyyjzzs.cn/qikandaodu/2021/0214/656.html
上一篇:岩土工程论文写作问题探讨
下一篇:语言与社会互动的典型意义