王克非：构建新型的历时复合语料库

王克非：构建新型的历时复合语料库

2024-11-07 22:21

作者为国家社科基金重大项目“大规模英汉平行语料库的建立与加工”首席专家、北京外国语大学教授

王克非：构建新型的历时复合语料库

20世纪语言学研究，从索绪尔开始，获得极大的进展。其中在方法和工具层面的进步，以语料库的研制与应用最具标志性意义。随着现代计算机技术的发展，单语语料库研制从20世纪中叶起步，至今已助力语言学研究取得不少新成果。双语语料库虽然迟至20世纪90年代上路，但势头很强，带动了双语对比、翻译及双语词典研编等一系列研究。

语料库研制存在的问题

目前国际上双语语料库研制的主要问题：第一，语料库大多文本来源单一、标注比较简单，且多为欧洲语言，其他双语语料库甚少，主要用于语言识别、文档级对齐、术语提取等自然语言处理研究，而非从语言学和翻译学角度研究语言与翻译问题。第二，少数双语语料库开展了相应的语言与翻译研究，但双语语料库在质和量上都有待提升。第三，语言是发展变化的，在外语和翻译的作用下，语言之间的各种接触可能导致语言发生另样的变化，原生语言和翻译语言也存在种种的相似和相异。国际上现有的双语语料库或是缺乏历时语料，或是语料库库容有限，上述研究课题也就悬而未探。第四，现有的无论单语还是双语语料库，很少做合成架构，即要么是单语或双语的，要么是平行或类比的，少见组合，不利于语言和翻译发展变化的考察和比较。

针对上述问题，尤其是第四个问题，有必要思考如何突破语料库研制的局限性。构建新型的历时复合语料库，就是我们最新的尝试。

历时语料库可提供各时期语言的相互比较，发现语言运用的变化及其过程，为语言变化考察、翻译研究以及翻译语言与目标语之间的互动，提供客观的描写和可分析的数据。在中外历史上都有不少翻译与目标语演化关系密切的案例。已往研究的语料来源不够丰富，考察范围有限，研究的深度和广度大受制约，对原生汉语同翻译汉语间的互动关系也缺乏了解，而这些都有望通过历时语料数据的获得和分析取得新的突破。

由此可见，研究语言及其变化不仅需要设计合理、规模较大的语料库，还需要平衡的历时语言素材。国际上，应对这一需求的历时语料库近些年开始构建。第一个历时语料库AVIATOR在1990年由伯明翰大学研制成功，另一个历时语料库ACRONYM于1994年建成。这两个语料库都使用连续出版的报刊为语料。代表性更强、跨度长达300多年的平行英语语料库（ARCHER）、4亿字词的美国英语历史语料库（COHA）也陆续建成。但是，单语的历时语料库还不能解决双语的和翻译的问题。例如，现代汉语（包括翻译的汉语）的发展变化，单从历时语料库还不能很好地考察，应加入更多的比较成分，如英语源语的因素、汉语译文的变化和汉语原文的变化，三者之间形成全方位的比较研究，才有可能更充分地描写和分析。因此，不仅要构建历时的语料库，还应设计复合的历时语料库。

历时—复合：语料库研制的一大突破

新型历时复合语料库的构建是语料库研制的一项重要突破，国际上在这方面刚刚起步。德国学者尤莉安娜·豪斯项目组近年构建了一个小型历时复合型语料库，共550篇文本、80万词。但因语料库容量小，语料不够平衡，时间节点不清，目前仅开展了初步的德英/英德翻译研究和语言接触研究。大规模英汉平行语料库——英汉双语的历时复合语料库，可以有效地解决上述语料库简单、语料库质量以及语料库的历时考察和复合对比研究等问题，为翻译与目标语之间的互动建立比较完整的描写和分析框架，使多层面、系统性的翻译和语言变化历时研究成为可能。

历时语料不是随意将各时期语料收集即可，需要平衡和分期。就汉语来说，语料的历时平衡要通盘考虑现代汉语发展的实际情况，分期采样，以便所建语料库能反映出现代汉语的发展轨迹，并在英汉平行语料库的基础上探究英汉语言接触及英语通过翻译对汉语发展产生的影响。在语料、库容、架构、历时、复合等方面必须突出自己的建库特点，突破国际上一般双语语料库的语料选取和语库架构等方面的局限，还要避免英国国家语料库（BNC）由于历时连续采样而造成的各阶段差异模糊的缺陷。

我们的设计思路是，在库容上达到1亿字词，含百万字词的口译语料，并进行深度加工标注。除了语料平衡和库容巨大这两点外，历时复合是创新亮点，复合即平行语料、类比语料、参照语料三结合，而非单一的平行语料。我们从汉语和翻译发展的动态研究出发架构历时和复合的语料库：将20世纪100年间的汉语语料分成三个阶段，约30年为一个阶段，重点采集各阶段某10年的语料，各阶段收集：（1）英汉平行文学语料400万字词。（2）汉语原生文学语料200万字词。（3）再辅以19世纪未受现代翻译影响的原生态汉语文学语料200万字词，以及不谙外语的单语作家语料100万字词，合计近2000多万字词。

历时复合语料库的构建除了注重时间段的划分,还需在语料取样上考虑双语文本和翻译研究的特定，即不同于一般的单、双语语料库，并需要考虑汉语早期白话文语料（包括翻译文本）有限，本研究在语料取样时做了适当变通，扩大了采样数量。英汉历时翻译语料库样本结构参照Brown语料库，样本大小参照挪威语/英语平行语料库（The English-Norwegian Parallel Corpus，ENPC），大多数样本为15000英语词和对应的25000汉字，汉语译文取样最多不超过30000字，一般从正文起始部分开始连续选取。

构建新型语料库时，还需要相应的语料库技术支撑，需要综合型的便捷检索平台。例如充分调用篇头（Header）标注中的文本属性信息，让这些元信息作为检索条件出现在检索平台界面上，提升复合检索水平；像类别、风格、体裁、作者、时间、出版社、时代等都可以用作检索条件，保证语料检索定向准确、针对性强。目前，以xml格式存储的语料可以在专门设计的平台上使用。

历时复合语料库的应用