投稿指南
一、稿件要求: 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立,论述详实,能够对读者的购买起到指导作用。文章体裁不限,字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件,请注明插图位置。插图应清晰可辨,可保存为*.jpg、*.gif格式。如使用word等编辑的文本,建议不要将图片直接嵌在word文件中,而将插图另存,并注明插图位置。 3、如果用电子邮件投稿,最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等,以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者,将保留追究由此引起的法律、经济责任的权利。 二、投稿方式: 1、 请使用电子邮件方式投递稿件。 2、 编译的稿件,请注明出处并附带原文。 3、 请按稿件内容投递到相关编辑信箱 三、稿件著作权: 1、 投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我方所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我方所投之作品不得同时向第三方投送,即不允许一稿多投。若投稿人有违反该款约定的行为,则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、 投稿人授予我方享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 投稿人委托我方声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

社交网络中的抑郁症用户语言和行为特征分析及(3)

来源:语言研究 【在线投稿】 栏目:期刊导读 时间:2021-02-14
作者:网站采编
关键词:
摘要:这3类用户分别分享了120 183条、224 092条和76 667条帖子,平均每个用户分享了56条、76条和93条帖子。表3给出了每个类别的上下文帖子的示例。 表3 评分者数

这3类用户分别分享了120 183条、224 092条和76 667条帖子,平均每个用户分享了56条、76条和93条帖子。表3给出了每个类别的上下文帖子的示例。

表3 评分者数据标注示例类 别帖 子0-抑郁Im Not Afraid to Admit that Ive Been Diagnosed with Shouldnt Be Here Because I Tried Ended My Life a Few Times.I Have Been Diagnosed with Depression and Have to Multiple Therapist and Take About Four Different Kind of Treatments. I Hate When People Tell Me to Stop Being Depressed,Do You Think I Can Help That.I Was Diagnose with Depression,I Can Not Just Stop It.

表3(续)类 别帖 子1-非抑郁I Was Diagnosed with Major Depression More than 20 Years Healthier Has Made a Huge Difference in the Past Year.I Ran Three Miles in 93 Degrees Fahrenheit and 47 Degrees Do Not Sleep Good 2 Year Ago I Was Diagnosed with Leukemia and My Daughter Died from Depression Shortly After.I Guess I Should Say Content of Value.I Support Twitter any Day Over Neither Have Much Humane 不确定I Find Out that I Have Be Diagnose with Anxiety and Be Look Great So Far.Who Do it Better.I Guess it Was Safe to Say I Have Been Diagnosed with I Was Not Fake It.I Was in a Terribly Unstable Emotional State this Morning.

2.3 特征提取与选择

2.3.1 行为特征提取

用户在社交网络的行为特征主要是指可以代表用户交互行为内容的特征。研究表明,心理健康与网络行为之间存在关联性。根据抑郁症的临床经验,患者意志活动呈显著持久的抑制。表现为行为缓慢,生活被动,回避社交,这些特征也体现在社交网络行为上。通过推特API接口获取用户的注册时间,发帖数量等社交网络行为数据,选取了发帖总数,朋友数量,日均发帖量、日均收藏数,日均被关注数量,回复率,被转发帖子数量等信息进行统计分析和比对。

研究发现,抑郁症用户在推特等社交网络上的活跃时间具有明显的规律性。因此,对抑郁用户组和正常用户组的不同时间的发帖行为进行了统计,将1天按照每2小时为间隔划分成12个时间段,分别统计用户在这些时间段内的发帖数量,并绘制用户发帖时间与发帖数量曲线图,对用户社交行为的周期性特征进行分析。

2.3.2 语言特征提取

思维与语法组织形式之间的关系被广泛地应用于心理疾病的症状分析[35]。本文提取推特用户的不同词性类别的使用频率、语法形式、可读性指标CLI[30]、单词复杂性指标等用于对比抑郁用户和正常用户在词汇选择、语法灵活性等语言运用能力上的差异。

研究人员经常使用LIWC从心理学角度来分析社交媒体上的帖子[36]。但LIWC只有40个主题和情感类别,缺少许多潜在的词语类别[37]。本文使用Empath[37]进行词语分析,Empath是一种数据驱动的语言分析工具,利用对现代小说中18亿个单词的深度学习,将用户给定的一组种子词语,扩展生成新的词汇类别。例如,使用种子词语“推特”和“脸书”,Empath可以生成“社交媒体”词语类别。Empath的部分词语类别已被证实与LIWC中的类似词语类别高度相关(r=0.906)。

为了研究抑郁用户患病的原因,对抑郁用户的帖子进行LDA主题模型[38]分析。本文使用Gensim实现的LDA模型获得推特用户的主题分布。LDA主题模型分析方法是一种非监督聚类方法,需要设定主题个数,为了获得最佳主题个数,需计算不同主题数量下的困惑度,选取具有最小困惑度的主题模型。

2.3.3 特征选择

通过对抑郁用户在社交网络上的行为、语言的分析,得到了很多属性特征,这些属性将有助于识别社交网络中抑郁用户。为了提高模型预测的准确度,需要对这些属性进行选择。

首先进行归一化处理,消除特征值衡量方式差异对识别效果的影响。如将所有频次统计特征映射到[0,1]范围内,对于具有不同量纲的特征进行Min-Max归一化处理。其次消除噪声特征,选择最显著的特征变量。筛选方法是根据特征在各种统计测试中的得分与结果变量的相关性。具体通过采用ANOVA F测试方法去除噪声和冗余特征,将特征空间从254个特征减少到132个最佳特征。

2.4 分类训练及预测

通过特征选择获得的属性将用于识别社交网络中抑郁用户,从正常用户中检测出具有抑郁症的用户。采用机器学习模型基于这些属性特征进行分类训练及预测,将数据集分成训练集和测试集,将训练集输入逻辑回归、支持向量机、高斯朴素贝叶斯、决策树和随机森林等机器学习模型进行分类训练,选择拟合效果最佳的学习模型,对测试集进行预测。

为了选择最佳学习模型,计算每种学习模型在测试集上的查准率、查全率、f1和AUC等指标对预测效果进行性能度量。为避免过拟合,采用十折交叉验证方法,将数据集分成10等份,轮流将其中9份作为训练数据,1份作为测试数据。取10次十折交叉验证结果的平均值作为对机器学习算法效率的估计。为了分析不同特征对分类效果的影响,将每类特征分别进行分类实验,以检测每类特征的表征能力,并通过随机森林算法计算每类特征对预测结果的重要性。

文章来源:《语言研究》 网址: http://www.yyyjzzs.cn/qikandaodu/2021/0214/656.html



上一篇:岩土工程论文写作问题探讨
下一篇:语言与社会互动的典型意义

语言研究投稿 | 语言研究编辑部| 语言研究版面费 | 语言研究论文发表 | 语言研究最新目录
Copyright © 2018 《语言研究》杂志社 版权所有
投稿电话: 投稿邮箱: