二、语料库的加工、管理和规范
(一)语料库的加工
汉语语料库的加工包含文本格式处理、词语切分、词性标注等环节,平行语料库还需要对齐处理。2021年度语料库加工方面的进展主要有:
彭秋茹、王东波、黄水清的《面向新时代的人民日报语料中文分词歧义分析》(《情报科学》第11期)对新时代人民日报分词语料库的分词结果进行了统计分析,结果发现新时代的人民日报语料中的切分变异大部分为假歧义,相同语法结构的二字词要比三字词、四字词的切分变异从合度更高,该研究有助于更新对汉语分词歧义的整体认识。
李灿、杨雅婷、马玉鹏等的《基于语种相似性挖掘的神经机器翻译语料库扩充方法》(《计算机应用》第11期)针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。该方法实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。
左世亮和刘稳良的《融合多源信息的平行语料库相似句段去重算法》(《计算机仿真》第8期)为降低多源信息背景下平行语料库重复句段的干扰,提升去重效率,设计一种基于词频-逆向文件频率技术的平行语料库相似句段去重算法。该方法去重效果好、适用范围广,有助于平行语料库加工效率的提升。
刘文斌、何彦青、吴振峰等的《基于BERT和多相似度融合的句子对齐方法研究》(《数据分析与知识发现》第7期)提出了一种基于BERT和多相似度融合的句子对齐方法,能够为构建双语平行语料库、跨语言信息检索等自然语言处理任务提供技术支持。
(二)语料库的管理
语料库管理系统按照应用场景可以分为面向语料提供者和加工者的后台管理系统和面向用户的分析系统。2021年度,语料库管理的新进展主要体现在面向用户的语料库分析系统。以下将主要介绍语料库分析系统的情况。
语料库分析系统的核心是语料检索,在检索系统研究方面:
张宝林的《汉语中介语语料库检索系统透视》[《天津师范大学学报》(社会科学版)第6期 ] 梳理了汉语教学与研究领域对汉语中介语语料库检索系统的具体业务需求,探讨了现有语料库检索系统的得失及原因,提出检索系统的改进策略。该研究分类列举了汉语教学与研究对语料库检索的十种特殊需求,如半固定结构的检索、自由组合结构的检索、特殊句式的检索、复句检索、离合词检索、重叠结构检索等。这些需求及相关检索方式涉及词、短语、单句、复句等语言层面,是词语、语法教学与相关研究的重要内容,对于语料库检索系统建设与功能设计有一定指导意义。
李晓倩和胡开宝的《〈习近平谈治国理政〉多语平行语料库的建设与应用》(《外语电化教学》第3期)在建库过程中,研制了适用于《习近平谈治国理政》多语平行语料的检索应用平台,并将在此基础上开发可兼容更多非通用语言的多语平行检索工具。
梁茂成的《大数据时代的语料库语言学研究探索》(《中国外语》第1期)利用近年来发展起来的深度学习技术,尝试对语料库工具软件析出的若干索引行(Keyword in Context, KWIC)进行向量化(vectorization)处理,进而计算所有索引行之间的两两相似度,初步实现了对索引行的自动分析。
张永伟、顾曰国、胡钦谙等的《面向语料库机助辞书编纂系统的设计与实现》(《辞书研究》第4期)对“面向语料库机助辞书编纂系统”进行了全面介绍。该系统支持文本语料库的导入、管理与检索,既支持文本语料库的单独检索也支持在编纂辞书条目时条目例句的自动检索,为辞书编纂时语料库的利用带来便利。
除检索外,语料库分析系统还包含搭配、频次统计等语言分析功能,与此相关的技术也有长足的发展。
清华大学围绕大规模中文词汇语义分析关键技术及其开源应用开展研究,全方位、系统性地探索了大规模中文词法语义分析所涉及的一系列核心问题,提出了“互联网自然标注资源与大规模人工标注语料库并举的中文词法分析”。
胡韧奋的《基于搭配的句法复杂度指标及其与汉语二语写作质量关系研究》(《语言文字应用》第1期)提出了基于搭配多样性与复杂性的汉语短语层面句法复杂度指标,并实现了相关特征的自动抽取。该研究使用大规模二语作文语料库对句法复杂度与汉语二语写作质量之间的关系进行了系统验证,证明了基于搭配的短语层面句法复杂度指标能够有效地预测写作成绩。
左世亮和刘稳良的《融合多源信息的平行语料库相似句段去重算法》(《计算机仿真》第8期)设计了一种基于词频-逆向文件频率技术(TF-IDF)的平行语料库相似句段去重算法,可以应用于平行语料库分析工具建设。
另外,秦洪武的《双语语料库研制与应用新论》[《外国语(上海外国语大学学报)》第4期 ] 论述了双语语料库的标注、加工与检索问题。该文可以为双语语料库分析工具的建设提供有益的借鉴。
(三)语料库相关规范
《信息处理用现代汉语词类标记规范》(标准号GB /T 20532—2006)自2007年3月发布,至今已历十余年,其基本词类划分及标记代码得到广泛应用,为汉语语料库建设、语言信息处理提供了重要依据。为进一步适应语言信息处理和语言资源建设的需要,反映词类研究的新成果新认识。为此,国家语委2017年以重点项目立项方式对《信息处理用现代汉语词类标记规范》进行修订。至2020年,课题组按照计划完成了研究任务。杨丽姣、肖航、刘智颖的《〈信息处理用现代汉语词类标记规范〉修订研究》(《语言文字应用》第3期)介绍了修订的核心内容及相关研究情况。该次修订的核心内容有两项:一是以完善规范和满足应用需要为导向,对基本词类、其他切分单位及其小类进行了修订,提升了规范的严谨性和适用性;二是提出了词类标记的组合应用原则,规定非词切分单位可以在类属标记之外,组合附加词类标记代码,以更全面准确地标注其语法功能。规范修订审慎处理了词类体系、词类划分、标记代码三者关系,为词与非词切分单位的语法功能标注提供了更科学合理的方案,提升了规范的科学性、实用性和可操作性。
化振红的《建立中古汉语语料库分词规范的若干问题》(《语言研究集刊》第2期)研究了建立中古汉语语料库分词规范的若干问题。其课题组在国家社科基金重大招标项目“深加工中古汉语语料库建设研究”的分词实践中归纳了若干面向中古汉语的分词规则,完成了“中古汉语语料库词语切分及标注操作规范”初稿的主体部分,其中包括了中古汉语分词标准的总体框架、部分原则性规定及操作层面的具体规则。未来还计划结合上古、中古、近代汉语语料库的建设经验,逐步建立起适用于各阶段汉语史语料库的词语切分及标注操作规范。
此外,在文本处理方面,化振红的《对汉语史语料库文本处理问题的若干思考》[《烟台大学学报(哲学社会科学版)》第5期 ] 讨论了古文正文注释材料和附属材料的的删存问题,以及不同异形字的选用标准。
未完待续
相关链接:
- 中国语言学年鉴2022:语料库研究与应用综述(一)
购书二维码
长按识别二维码