投稿指南
一、稿件要求: 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立,论述详实,能够对读者的购买起到指导作用。文章体裁不限,字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件,请注明插图位置。插图应清晰可辨,可保存为*.jpg、*.gif格式。如使用word等编辑的文本,建议不要将图片直接嵌在word文件中,而将插图另存,并注明插图位置。 3、如果用电子邮件投稿,最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等,以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者,将保留追究由此引起的法律、经济责任的权利。 二、投稿方式: 1、 请使用电子邮件方式投递稿件。 2、 编译的稿件,请注明出处并附带原文。 3、 请按稿件内容投递到相关编辑信箱 三、稿件著作权: 1、 投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我方所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我方所投之作品不得同时向第三方投送,即不允许一稿多投。若投稿人有违反该款约定的行为,则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、 投稿人授予我方享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 投稿人委托我方声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

面向语言分析的语料库技术平台建设

来源:语言研究 【在线投稿】 栏目:期刊导读 时间:2020-12-22
作者:网站采编
关键词:
摘要:0 引 言 在当今大数据时代,人们可以利用的数据量每年都以指数倍增长,所以在语言学研究中,原始语料的获取已经不再是难题,而如何利用先进的智能技术高效地采集语料、加工语料

0 引 言

在当今大数据时代,人们可以利用的数据量每年都以指数倍增长,所以在语言学研究中,原始语料的获取已经不再是难题,而如何利用先进的智能技术高效地采集语料、加工语料和分析语料,已成为当今语料库语言学界亟需解决的重要问题。

语料库建设和应用技术能够减轻研究者的工作负担,提高语言研究的效率。因此,构建一个语料库技术平台,对于语言教学和研究有着较大的实际意义[1]。语料库技术平台建设是一项多学科交叉的复杂工作,研究者不仅要掌握先进的计算机技术和知识组织方法,还要具备深厚的语言学功底。

1 语料库处理软件概述

1.1 当前常用的语料库软件

许家金和贾云龙[2]参照McEnery & Hardie[3]对语料库软件的分类方式,提出按照语料库软件的运行环境可以把语料库工具分为3类,一是运行在DOS环境下的工具,如:CLOC、XANADU、TACT、MiniConcordancer、MicroConcord等;二是运行在Windows或其它图形操作系统中的工具,如:Wordsmith Tools、AntConc、MonoConc Pro等;三是基于互联网的语料库网络应用工具,如:CQPweb、BYU corpora、SketchEngine等。

李亮[4]按照语料库软件开发者的国籍来划分,当前常用的语料库软件和其来源国分别是:美国有Conc、Paraconc、Monoconc;英国有MicroConcord、Wordsmith Tools、Longman MiniConcordancer、Free TextBrowser、Concordance;德国有LEXA、TextSTAT;加拿大有Concorder;日本有CorpusWizard;中国香港有Concapp。从语料库软件的数量和品质两方面来看,英国在该领域占据领先地位,其次是美国和德国。

1.2 普遍存在的问题

分析众多语料库处理软件,笔者发现国内开发的语料库软件数量少、使用率低[5]。此外,这些语料库软件还普遍存在以下几方面的问题:

(1)用于分析和处理汉语语料的软件较少。汉语具有与英文不同的特点,比如在计算机字符集中,一个汉字与一个英文字母所占用的存储单元是不同的。再如汉语还存在分词连写的问题,不像英文每个单词之间都有间隔。

(2)有些语言处理软件的功能单一,并且只能完成浅层任务。仅能用于某一项具体的语言处理工作,在实际的语料处理中,需要使用多个软件才能完成一项任务。

(3)有些语言处理软件易用性较差。主要表现在设计不合理、界面不友好、操作复杂、没有做到简单易用、难以在语言学领域推广使用。

为了能够切实解决语言研究中的困难,提高工作效率,针对当前语料处理软件所存在的问题,笔者提出设计语料处理软件的4条原则[6]:

(1)通用性原则。全世界现有语言大约在5 000~7 000种之间,使用人口超过100万的语言约有140多种,有文字的语言在930种左右。开发的软件应该具备广泛的通用性,能够处理汉语、英语、法语、俄语等使用人口较多的语言文字。

(2)全面性原则。应该开发功能集成化的“分析型深层工具”,所设计的语言处理软件不仅能够发现表层语言现象,而且能够挖掘出深层语言规律。

(3)一体化原则。软件的各项功能要按照语料处理时的先后顺序进行组合,而不是简单叠加在一起。语料采集、加工、统计、检索、分析等各项功能及其子功能之间要具有一定的逻辑关系,形成统一的功能整体。

(4)易用原则。软件设计应遵循用户至上原则,采用访谈法和问卷调查法充分了解语言研究者的需求状况。在人机接口的设计方面,做到简易直观,让用户通过很少的学习和训练,就能够使用软件[7]。

2 系统模块与功能设计

本系统使用的编程语言是C++,编程工具是Microsoft Visual Studio Community 2015,使用了MFC类库[8]。其主要功能模块如图1所示,分为6个子模块:公用模块、分析、检索、统计、加工和采集模块。公用模块的功能是选取、显示和输出语料文件的,其它5个子模块都要用到公用模块来选择和浏览待处理语料文件、以及显示与输出处理后的结果文件。

图1 Inspire1的主要功能模块Fig. 1 The main functional modules of Inspire1

语料库技术平台Inspire1主要包括5大功能,对此可做阐释分述如下。

(1) 语料采集功能。包括2项子功能:

①WEB爬虫。用以获取指定网页中的所有链接并且保存所有链接网页到本地文件夹中。

②文本清洗。由于网络上采集下来的WEB资源中掺杂着大量的杂质信息,如字体信息、格式信息、广告、超链接等,需要对网页内容进行数据清洗,以去除其中的杂质。

文章来源:《语言研究》 网址: http://www.yyyjzzs.cn/qikandaodu/2020/1222/592.html



上一篇:推普如何扶贫
下一篇:Java编程语言研究

语言研究投稿 | 语言研究编辑部| 语言研究版面费 | 语言研究论文发表 | 语言研究最新目录
Copyright © 2018 《语言研究》杂志社 版权所有
投稿电话: 投稿邮箱: