WITTA翻译技术教育研究会
Translation Technology Education Society
翻译技术的知识体系化演进 — 以双语术语知识库建设与应用为例

作者:苗菊 宁海霖

要:翻译技术是信息技术应用于社会翻译实践的产物,而信息化的翻译工具在彳切底改变翻译方式和迅速提高翻译效率的同时,也存在着一些与生俱来的遗憾,至此翻译肢术的更新升级、其知识体系化演进的趋势愈发突显。作为知识体系化翻译工具的范例,双语术语知识库展现了术语学、知识工程和知识本体理论对翻译技术识体系化发展趋势的推动力,与此也将在翻译数字化教学环境、语言服务业技术传播、人文学科科研基础设施建设等方面体现其应用价值

引言

信息技术飞速发展和创新应用是当今时代文化、贸易传播的突显特征。从机器翻译、计算机辅助翻译已发展到大数据时代的互联网云计算、语联网智慧云翻译平台,体现了语言技术资源的创新建设,推动了科研、教育、语言服务业运行模式的革新。新型的知识服务休系将整合资源、技术、流程和服务实力。翻译技术的发展,需要持续更新升级,提高其知识化、可视化效果,以迎合人类知识再现、信息传递和认知思维模式变化发展的需要。

当今的翻译技术是在信息检索与匹配技术的基础上实现的,具现化为工具,一般可以分为机器翻译工具和计算机辅助翻译工具两大类,统称为信息化翻译工具。应用信息化翻译工具提高翻译效率和质量,产生的推动效应不言而喻,语言服务业也突显其应用技术条件之特征。然而,行业的兴盛依然不能忽视信息化翻译工具在标准化、知识化、可视化方面的缺憾,.而随着市场对产品要求不断提高,存在的问题和矛盾会愈发明显。至此翻译技术需要实现进一 步完善发展以满足实际翻译活动的需求。

一、应用翻译研究的多学科发展

荷兰阿姆斯特丹大学翻译理论家詹姆斯·霍姆斯(James Holmes)在《翻译研究的名与实》一文中将翻译研究划分为纯翻译研究与应用翻译研究,其中应用翻译研究包括译者培训、翻译辅助、翻译政策和翻译批评四个分支,使应用翻译研究的框架初具雏形。霍斯指出,应用翻译研究区别于纯理论 研究的本质特征在于其“应用性"(Holmes,1975: 77),即“应用翻译研究就是将纯翻译研究的理论成果应用于译者培训、翻译工具使用和翻译作品评价"Ulrych, 2002:200)。正因应用翻译研究包括了与翻译实践活动相关联的多学科领域,其多学科的融合发展是与生俱来的本质属性。

随着科技的飞速进步和多学科交叉研究的不断深入,当今应用翻译研究的内容已远超出霍姆斯的框架范畴,最初提出的四个分支的内涵,发生了很大变化,涵盖了翻译教育、翻译技术、语言服务业、翻译生态环境、翻译质量评估与标准、翻译资源建设等丰富的研究内容,涉及教育学、术语学、计算科学、语料库语言学、计算语言学、管理学、生态学、社会学、信息科学、知识工程学等多学科理论。

美国翻译技术专家、职业译者科华(Chiew Kin Quah)将翻译技术分为自动翻译系统和计算机辅助翻译工具两部分,并将语言工具和本地化工具纳入计算机辅助翻译工具的范畴,突出了翻译技术的多学科发展特性(Quall, 2006:42)。双语术语知识库是翻译技术知识体系化演进的新成果,体现了语料库语言学、术语学、本体论、知识组织理论与翻译技术研发相互交融渗透形成的联合优势,证明多学科研究成果是建设知识文化资源的基础,更多相关学科与理论成果的交汇融合必将推动翻译技术的进一步发展。

二、信息化翻译工具的潜在问题

科华将机器翻译的关键技术按发展的时间脉络划分为五大类:直接翻译技术、中介语技术、转换技术、数据化技术、实例化技术(同上:69· 84)。机器翻译是信息技术在翻译活动中应用的典范,其实质 是以语料为数据源进行多语种文本的匹配从而完成翻译,也是信息化翻译工具的本质特征。它虽然未完成全自动生成自然语言译本的目标,但相关研究为日后的语料对齐、翻译记忆、自动匹配等重要辅助翻译技术奠定了基础。

随着语言服务市场的迅速扩大和翻译活动依赖工具的日益加深,信息化翻译工具的缺憾之处愈发 明显,需要在以下三方面进行改善:专业领域化、知识体系化和信息可视化。

(一)专业领域化

信息膨胀的负面效应之一是数据的无序化,即各领域各种来源的数据混杂,导致用户无法有效地定位专业信息。而在实际翻译过程中,译者未必能够从跷译公司或客户手中获得专业词典、翻译规范或术语库等辅助材料,至此译者需在多领域的混杂的海量数据中进行信息的检索定位,这种不准确的 信息源增加了出现误译的几率。

(二)知识体系化

知识体系是指专业领域中的概念相互关联而形成的知识网络,它不仅包括概念本身的内涵定义,还展示了概念之间的逻辑关系和知识框架的构建方式。 翻译的重要功能是通过文字的转换而传达语义,因此译者不仅需要平面化、单一化的匹配信息,更需要获得检索信息所包含的知识,即特定领域中重要概念之间的联系。由于社会分工的专业领域化,市场对专业领域知识的需求量增大,译者更希望获取知识体系化的信息,以满足翻译活动的质量要求。

(三)信息可视化

信息的日益膨胀带来认知模式的转变。相比单纯依靠文字的方式,人们越来越倾向于以更加直观、简易、高效的可视化手段获取信息和知识,而对于翻译工具而言,信息可视化主要体现为两点:一、术语条目信息立休化,采取高粒度信息分类法,引入图像、视频等直观展示概念内涵的非文字手段;二、建立专业领域信息知识网络,规避杂乱而孤立的数据,引入能够形象展示概念外延与概念系统的知识导航系统,形成利于知识掌握与推理的认知机制。

三、知识化翻译工具的产生

知识化翻译工具是在知识工程、知识本体、主题图等知识技术基础上构建的翻译工具,能够立体化、形象化、专业化地描述和定位资源,弥补信息化翻译工具的不足。作为术语学和知识工程学相结合的成果,双语术语知识库正是当今最具代表性的知识化翻译工具,是知识化的术语库。这一概念最早由加拿大渥太华大学人工智能实验室的英格丽·迈尔(Ingrid Meyer)提出,认为术语知识库是术语库与知识库的结合体,模拟领域专家对概念与相应术语的认知模式(Meyer, 1992:159)。实验室还开发了名为COGNITERM的测试性英法双语术语管理系统来验证这一理念。

当今国际著名的术语知识库有加拿大的 TERMIUM和西班牙的EcoLexicon等。TERMIUM 是世界上最大的术语库,它由加拿大政府出资、加拿大翻译局主持建设,开始为英法双语术语库,随后又加入了西班牙语和葡萄牙语两个语种的内容。 TERMIUM的术语词条包括术语所属的领域、子领域、翻译、来源、词性、定义、语境等信息。其Plus 版本于2009年10月对公众免费开放,其官网设有很多英法写作工具链接,用户可借此了解法语动词的词形变化、信件写作贴士、英文写作风格指南等。 EcoLexicon是由西班牙格拉纳达大学(University of Granada)的Lexicon科研团队研发的环境工程领域的术语资源,目前支持六种语言。它将该领域的某个概念与相关概念之间的关联网络以可视化的方式清晰、动态地展示给用户,并对每条概念链接的属性加以说明。它不仅可以提供概念的定义、词性、多语种翻译等信息,还能直观地展示该概念在整个知识网络中的位置。同时,用户还可以借助概念网络对相关知识进行连锁式扩展检索和学习。由此可见,双语术语知识库必须具备两个特性: 、提供特定领域的标准化术语信息,包括标准化的术语和对应译文、术语定义、适用语境、相关领域、语种、词性、 接受度等信息;二、展示该领域的知识网络,即概念之间的相互关联。

四、双语术语知识库的理论基础

以知识组织视角设计总体研究框架,将整个研究分为知识采集、知识表示、知识运用三部分,每一部分都为下一阶段的研究奠定基础;以术语学视角进行基础数据的组织整理,完成术语的标准化工作; 以本体视角进行专业领域知识的概念网络构建,建立知识化语言资源和科研基础设施。基于以上三个研究视角,双语术语知识库理论基础主要包括:

(一)知识组织理

  如前文所述,知识组织理论是一个宏观的方法论概念,为双语术语知识库的建设与应用提供整体性的研究框架。整个建库过程分为知识获取、知识表示、知识运用三个阶段,每个阶段步骤缜密、任务明确又彼此呼应:(1)知识获取,主要指运用信息技术手段构建大规模数据并从中进行自动化术语信息的抽取和预处理;(2)知识表示,指对专业领域知识的描述,构建知识网络,实现计算机对于领域知识的语义识别;(3)知识运用,包括两方面的内容:知识导航系统、知识检索系统和人机交互界面的建立;开发双语术语知识库在生产、科研、教育等领域的应用途径,根据实际应用效果和用户要求验证开发流程的合理

二)术语学理

术语学理论研究旨在提供标准化的多语术语和详细的术语信息,主要包括:(1)术语标准化研究,全面分析术语标准化的内涵、原则、级别,并以此作为双语术语组织工作的标尺;(2)术语管理流程研究,主要包括术语提取、编辑、存储和使用方式、术语定义的编写、术语属性粒度设置、术语语境的抽取和术语库建库工具的使用;(3)术语翻译研究,研究术语翻译的本质、特点、研究视角、技术应用,综合分析影响术语翻译的语言、文化、社会要素,以确定术语翻译的原则和手段。

(三)本体

本体论是知识化翻译技术研究中重要的基础理论,是当今国际前沿研究热点。最理想的知识本体是特定领域概念相互关联交织而成的球状实体,呈现出三维形态,展示特定领域知识网络的全貌。知识本体由两个最基本的要素构成主体部分:(1)领域主题图。主题图即框架化的概念链接,它在本质上是用于描述知识结构的一组元数据,具有知识表示、概念关联和信息定位的功能。对专业领域主题的名称、主题所在的资源出处、主题包含的所有概念之间以及概念与主题间的关联进行构建,是建立知识本体的重要基础;(2)计算机语义识别。主要内容是在主题图的基础上,利用基于XML语法的扩展性资源描述语言编写主题图中概念链接的计算机识别程序,建立人机交互界面。

五、双语术语知识库建设流程概述

以汉英双语术语知识库的建设过程为例,根据知识组织理论,建库过程由双语平行语料库的建立、双语术语管理和领域知识本体的建立三部分组成。

(一)双语平行语料库的建立

这是知识获取环节,作用是建立基础信息资源库。主要包括:(1)语料库设计。首先根据研究目的(胡开宝,2011:41)确定建库类型为平行语料库,而作为术语提取的信息基础,该语料库应该具备相当的规模,这样提取的术语及其翻译才具有可信度;(2)双语语料采集。建库者需要根据学科重要性、成果应用价值和语料可靠性来确定语料采集的范围,以多种渠道收集双语文本,确保资料质量;(3)语料整理,包括语料的清洁、分词、标注与对齐。在进行文本清洁、修正其内容与格式上的错误之后,可以利用人工和软件相互辅助的方法进行中英文本对齐。

(二)双语术语管理

在双语平行语料库的基础上开展术语的提取和组织研究:(1)双语术语提取。当前的术语提取工具最多支持两种语言的同步提取工作;(2)双语术语的组织。首先对术语进行语法和拼写的审查和纠正,进一步结合简明性、准确性、普遍性、一致性、文化适应性等术语翻译原则进行双语术语筛选,完成术语原文与译文的标准化工作;(3)术语的粒度设置。术语的粒度是指术语信息划分的精细度,术语的粒度设置包括双语术语的定义、领域、语种、适用语境、词性、接受度、相关术语等信息设置。

(三)领域知识本体的建立

知识本体是双语术语知识库的核心,建立知识 本体是建库关键环节,其内容主要包括以下三点:(1)建立专业领域主题图。主题图是专业领域概念 框架及概念之间关系的形象化表示,建立主题图的目的是利用双语术语,清晰地描述专业领域内部概念之间的一般关系和特殊关系,构建知识网络,建立知识本体的形式化描述(Faber, 2009:8);(2)建立专业领域知识本体。这一步骤主要是要完成主题图的计算机语义识别,使计算机能够识别和展示主题图中体现的立休化概念框架;(3)建立人机交互机制。该部分的核心任务是建立用户使用界面和高效的信息检索机制,引入推理机制进行检索模块的构建,根据用户需求对知识推理机制进行优化。

通过以上三个步骤建立的双语术语知识库组织体系构架可以用下页图1表示。

如图1所示,双语术语知识库的组织体系分为三个层次:知识获取层、知识表示层、知识应用层。知识获取层也称为知识资源层,是整个组织体系的基础。

知识表示层是体系关键的部分,其任务是实 现双语术语数据的知识化。该层由知识仓库和知识库两部分构成。知识仓库负责决策分析(苏新宁, 2014:),知识库包括本体语言、术语粒度(即概念的属性信息,如性、数、格、语种、精度、适用语境等)和用户行为记录。知识应用层也称为人机交互系统,主要功能是通过检索技术和推理技术对知识库进行访问和运算,将计算机识别的本体语义进行可视化呈现,建立用户使用界面,将用户行为记录反馈给知识表示层。翻译技术的知识化体系演进.jpg

六、双语术语知识库的应用范围

双语术语知识库是翻译技术知识化的成果,体现了新型翻译工具发展的趋势和市场的需求,在翻译教育的数字化教学环境建设、语言服务业技术文档翻译工具升级、人文学科科研基础设施建设等方 面均具备应用价值。

(一)双语术语知识库塵用于翻数孛化歉学环境建设

翻译数字化教学环境的主要特征是知识化与可视化。双语术语知识库是特定领域相关概念相互联结而成的大型双语专业知识库,为翻译教育提供丰富的知识资源,有利于学生在掌握专业领域特定双语词汇的同时,系统化掌握该领域的概念框架,成为既掌握番羽译专业技能又通晓特定领域专业知识的应用人才。其应用主要包括:

一、双语术语知识库是翻译数字化教学环境知识体系的核心部分。译数字化教学环境是集成化、知识化、共享化的教学平台,整合语料资源、技术工具、互动社区,建设完整的翻译知识技能习得体系。作为其核心模块之一,双语术语知识库以可视化手段直观展示概念信息和概念关系,体现专业领域知识体系,升级翻译数字化教学环境的功能和效率。

二、翻译数字化教学环塤建设下的知识再创造研究。学生利用双语术语知识库对术语进行检索识别和习得,通过针对不同术语的查询所呈现的知识图谱的了解和掌握,包括概念以及概念之间的关系,再依据自己积累的不同知识经验,构建出对特定领域知识的理解,形成自身的知识体系,在此过程中实现知识再创造

(二)双语术语识库用于文档翻译工具升级

技术传播是向使用者传达特定领域的信息知识,是语言服务业的重要服务内容,应用涉及社会生产的各个领域,而技术传播工作最大的业务量来源于技术文档翻译。技术文档翻译具有很强的专业性,通常由专门人员完成,但由于国家尚未建立完整的技术传播专业培养机制,技术文档翻译从业者无法兼备专业知识和语言翻译的职业技能。双语术语知识库是依靠领域知识本体技术建成的系统化专业化数字资源,提供清晰简洁的概念框架、术语背景知识、专业领域知识体系,旨在使从业者总体把握运用相关领域的专业知识,迅速、便捷地获得标准的专业术语信息,不仅为技术传播的各个关键环节提供高效支持,更能将整个领域的知识框架、概念联系清晰地展示出来,让使用者在了解行业背景和专业知识的基础上进行资料的撰写,从而提高信息知识的准确性和实用性。

(三)双语术语识库用于学科科研基础设施建设

人文学科科研基础设施是知识导向型与多语种导向型的科研服务体系,是翻译研究者不可或缺的科研资源,为其提供多语种专业领域知识和人文学科计算科研方法。人文学科科研基础设施建设的理 念始于欧洲大型语言资源项目CLARIN(Common Language Resources and Technology Infrastructure)。 CLARIN成员由来自22个国家的32个机构组成,旨在开发整合数字化语言技术资源,建立统一的欧洲语言科研与教学门户。项目于2 7年开始实施,目前已进入实质性建设阶段,项目周期预计20年,覆 盖语言工程、认知语言学、计算语言学、语料库语占学、计算术语学、本体论、翻译技术、语言数据库等方面的研究。双语术语知识库的建库模式和知识表示模式是人文学科科研基础设施建设研究的重要组成部分,表现为三个方面:

1)语言工程基础设施建设,即双语术语知识库应用于语言资源建设、数字化双语资料整理和数据分析、互操作机制建亚和资源分门别类,建立数字化语言知识服务体系;

2)基于文本可视化的文本数字化知识建构。通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现,显示出文木中的隐含内容和隐含关系;

3)基于可视化技术的知识提取。通过可视化技术动态展示概念链接,丰富知识的表示方式,并使知识评价活动易于开展,进而完成知识的提取过程,改善知识提取的效率与效果、增加知识存储量以及提高知识库的质量

结语

双语术语知识库以术语承载信息,以概念关系承载知识,是知识化翻译工具的范例,解决了信息化翻译工具存在的两个主要问题。它提供标准化的特定领域术语,规避杂乱无序信息,提高翻译效率;它通过知识本体提供概念框架式知识网络,帮助译者构建自身知识体系,加深对领域知识的理解,实现从被动接受信息到主动开拓知识的转变,强化了翻译学习者和语言服务从业者在翻译生产实践活动中的主体性。

以翻译为核心的语言服务业是数字化时代多语言跨文化传播的新兴行业,专业化、智能化、共享化的语言技术资源建设是其发展的动力之源,亦是前瞻性、战略性文化资源建设发展规划的重要内容。要有针对性开拓数字化语言资源建设的内涵、类型与方式,以推动知识文化创新。

双语术语知识库是各领域各类型知识资源整合 利用的基本要素,适用于数字化时代知识再现、信息传播、认知思维发展的需要,是知识资源深度管理的工县,将知识素材转化为知识资源,应用于基础设施建设,贡献于国家知识服务体系。


来源:《中国翻译》