計算機輔助翻譯概述
計算機輔助翻譯(Computer-Aided/Assisted Translation, CAT)在廣義上涵蓋了所有能夠協(xié)助譯員完成翻譯工作的計算機工具,包括但不限于文字處理、格式轉換以及電子詞典等。在狹義上,計算機輔助翻譯特指那些專為提升翻譯效率、優(yōu)化翻譯流程而設計的專業(yè)計算機輔助翻譯軟件/系統(tǒng)。
計算機輔助翻譯的核心之一是翻譯記憶技術。與機器翻譯不同,計算機輔助翻譯并非直接將源語言轉換為目標語言,而是輔助譯員開展翻譯工作。譯員可借助計算機輔助翻譯軟件/系統(tǒng)積累術語、建立和完善記憶庫等,從而在后續(xù)翻譯工作中提高翻譯質量和效率。
(一)核心概念
計算機輔助翻譯技術涉及多個核心功能,這些功能模塊共同協(xié)作達到計算機輔助翻譯的效果。
翻譯記憶(Translation Memory):翻譯記憶是計算機輔助翻譯軟件/系統(tǒng)的關鍵組成部分,通過建立數(shù)據(jù)庫來存儲和檢索已翻譯過的句子或片段。當譯員遇到相同或相似文本時,翻譯記憶系統(tǒng)會自動檢索并提供翻譯建議,從而避免重復工作,提高翻譯效率。
語料對齊(Alignment):語料對齊是將雙語或多語材料以詞句或段落為單位自動切分為翻譯單位、并依序匹配源語和目標語的人機交互半自動過程,其本質是建立源語與目標語詞、短語、句、段等相同語言單位間的對應關系。語料對齊是依據(jù)現(xiàn)有翻譯資源建立翻譯記憶庫的過程。
術語管理(Terminology Management):術語管理是計算機輔助翻譯的重要環(huán)節(jié),它允許譯員集中管理和維護專業(yè)術語。通過術語管理,譯員可確保整個翻譯項目中術語的一致性和準確性,避免術語混淆或誤用。
機器翻譯(Machine Translation):機器翻譯是計算機輔助翻譯的一項重要功能,它可以利用先進的自然語言處理算法和大量語料數(shù)據(jù)自動將源語言文本翻譯成目標語言。雖然機器翻譯無法完全替代人工翻譯,但它可以作為一個快速、初步的翻譯工具,為譯員提供參考和輔助。
譯后編輯(Post-editing):譯后編輯是機器翻譯后的重要步驟,包含審查和修改機器翻譯結果等步驟。譯員需要仔細檢查機器翻譯的輸出內容,修正其中的錯誤、不準確或不符合目標語言習慣的表達,以確保最終譯文的準確性和流暢性。
質量保證(Quality Assurance):質量保證是計算機輔助翻譯的一項重要功能,它能夠對譯文進行自動檢查,識別并指出可能存在的錯誤或疏漏之處。檢查內容包括數(shù)字、空格、標記、術語一致性、漏譯句段等。通過檢查,譯員可以及時發(fā)現(xiàn)并糾正錯誤,確保譯文質量。
流程管理(Process Management):流程管理可以提升翻譯流程的自動化和標準化水平。典型的計算機輔助翻譯流程包括文檔預處理、切分與分析、翻譯與編輯、質量保證、審校、后處理與導出等。
項目管理(Project Management):項目管理是確保翻譯流程高效、有序進行的關鍵環(huán)節(jié)。它涵蓋了從項目啟動到交付的所有階段,包括需求分析、任務分配、進度規(guī)劃、資源管理(如翻譯團隊、翻譯記憶庫、術語庫等)、質量控制和最終交付。計算機輔助翻譯軟件/系統(tǒng)通常會提供內置或集成的項目管理模塊,幫助項目經理跟蹤各個翻譯任務的狀態(tài)、監(jiān)控任務進度,以及協(xié)調多語言、多譯員之間的工作。
(二)發(fā)展歷程
計算機輔助翻譯發(fā)展主要經歷了萌芽期、穩(wěn)定發(fā)展期、迅猛發(fā)展期和蓬勃發(fā)展期四個階段。
1. 萌芽期(1967-1983)
1966 年,美國科學院自動語言處理咨詢委員會(Automatic Language Processing Advisory Committee, ALPAC)發(fā)布的報告全面否定了機器翻譯的可行性,并建議停止對機器翻譯項目的資金支持,使得機器翻譯研究遭到重創(chuàng),人們轉而開始尋求以其他方式提升翻譯效率,研究可應用于機器翻譯的語言和計算解決方案,這在一定程度上促進了基于語料庫和統(tǒng)計學的翻譯技術研究,為計算機輔助翻譯奠定了基礎。翻譯記憶的概念最早出現(xiàn)于 1979 年,當時被稱為文本檢索翻譯(Translation by Text Retrieval)。多層次的計算機輔助翻譯系統(tǒng)的設想出現(xiàn)于 1983 年,在這一設想下,計算機輔助翻譯系統(tǒng)具有三層意義,分別為基本文字處理與術語管理、術語檢索和參考譯文以及更加成熟的翻譯工具,其中包括全自動機器翻譯。借助成熟的翻譯工具,譯員可以修訂機器翻譯譯文并反饋結果給系統(tǒng)。
2. 穩(wěn)定發(fā)展期(1984-1992)
20 世紀 80 年代中期出現(xiàn)的翻譯支持系統(tǒng)(TSS)通常被認為是第一代計算機輔助翻譯系統(tǒng)。但當時的市場尚未準備好使用這類工具,國外的大多數(shù)譯者仍在使用打字機。1984 年,世界上最早的兩家計算機輔助翻譯公司——塔多思(TRADOS GmbH)和 STAR 集團(STAR Group)成立。1990 年,塔多思發(fā)布了首版 MultiTerm,最初是用作 DOS 下的術語管理工具,也是塔多思的主要應用程序之一。1991 年,STAR 集團推出了供內部使用的計算機輔助翻譯系統(tǒng) Star Transit。
3. 迅猛發(fā)展期(1993-2002)
經歷了初步穩(wěn)定發(fā)展后,翻譯行業(yè)涉及的業(yè)務領域逐漸增多,翻譯技術和工具的應用更加多樣化。1993 年,法國 Atril 公司發(fā)布了首款基于 Microsoft Windows 的計算機輔助翻譯系統(tǒng) Déjà Vu。1994 年,塔多思開發(fā)了可在 Microsoft Windows 中運行的 Translator’s Workbench。此后,市場上計算機輔助翻譯軟件/系統(tǒng)數(shù)量越來越多,語料對齊、機器翻譯及項目管理等功能逐步完善,減少了譯員在非核心翻譯工作上的投入。
4. 蓬勃發(fā)展期(2003 年至今)
計算機輔助翻譯技術進一步發(fā)展,各種新版工具相繼出現(xiàn),功能逐步完善,翻譯記憶系統(tǒng)也不斷升級并被廣泛接受。進入 21 世紀后,計算機輔助翻譯軟件/系統(tǒng)的界面和功能進一步完善。眾多軟件/系統(tǒng)開始采用獨立操作界面(不再作為文字處理軟件的插件),支持在 Microsoft Windows、macOS、Linux 等多種計算機操作系統(tǒng)中使用,可以兼容幾十種文件格式,并能在翻譯完成后保持文件版式不變
2006 年,計算機輔助翻譯取得巨大進步,具備了自動質量檢查、譯文匹配、用戶界面本地化等新功能。此外,各種項目整合與翻譯管理解決方案相繼出現(xiàn)。2009 年國產計算機輔助翻譯軟件雪人 1.0 版本發(fā)布,同年 Lingotek 推出了軟件即服務協(xié)作翻譯技術。2010 年起,各種翻譯任務通過眾包、協(xié)作的形式進行。期間出現(xiàn)了一些具有項目管理、項目實時分享等功能的新版計算機輔助翻譯軟件/系統(tǒng),如 Across Language Server Service Pack 5.1、memoQ 4.0、Atril TEAMserver 2.0、Wordfast Classic 6.0 等。
2012 年以后,大數(shù)據(jù)、云計算時代的到來催生了許多云翻譯平臺,傳統(tǒng) C/S 架構的計算機輔助翻譯軟件/系統(tǒng)移植到云端(B/S 架構),在云端進行協(xié)作翻譯并同步保存翻譯記憶庫和術語庫。隨著人工智能的迅猛發(fā)展,計算機輔助翻譯的智能提示、上下文信息搜索、實時錯誤檢測與修正等功能不斷完善,術語管理和知識庫建設也更加便捷。
(三)系統(tǒng)架構
系統(tǒng)通常包含以下關鍵層次(圖 1),以優(yōu)化翻譯流程、減少重復勞動、提高翻譯質量,并適應不斷變化的技術需求和發(fā)展趨勢。

圖 1 系統(tǒng)架構圖
1. 用戶交互層
用戶界面:提供直觀、易用的圖形化界面,使譯員能夠高效地進行翻譯操作。界面通常包括文本編輯器、翻譯結果匹配/搜索窗口、術語匹配/查找窗口等。
導入/導出支持:兼容多種文件格式,如 docx、xlsx、pptx、pdf、html、xml 等。既可以導入單個文件,也可以導入多個文件。每種文件都可以自定義篩選條件,僅導入需要翻譯的內容。支持譯中、譯后導出文件,也支持單個文件、多個文件、篩選內容的導出等。
2. 功能服務層
項目管理:設置翻譯、審校、簽發(fā)等不同階段的工作流程和任務分配,跟蹤項目進度。
翻譯記憶庫管理:創(chuàng)建和維護翻譯記憶庫,存儲已確認譯文的句段,在新項目中自動檢索相同或相似內容以提高翻譯效率和一致性。
術語庫管理:創(chuàng)建和維護術語庫,確保術語翻譯的便捷性、準確性和統(tǒng)一性。
機器翻譯: 為用戶提供初步翻譯建議或完成部分自動化翻譯任務。
質量保證:通過數(shù)字檢查、標記檢查、術語檢查、 一致性檢查以及拼寫和語法檢查等,提升翻譯質量。
資產管理:對翻譯記憶庫、語言處理規(guī)則和項目模板等關鍵資源的集中維護和管理,確保翻譯一致性、 提高工作效率,提升項目管理的便捷化和標準化水平。
用戶管理:對譯員、審校人員和其他參與者進行角色賦權、身份認證、工作量統(tǒng)計、績效評估及個性化設置等方面的集中控制和管理,以實現(xiàn)對項目成員的有效組織和激勵,提升協(xié)作效率,確保翻譯過程順暢、可控。
3. 數(shù)據(jù)管理層
數(shù)據(jù)庫系統(tǒng):用于存儲和管理翻譯記憶庫、術語庫、用戶設置、項目信息等數(shù)據(jù),實現(xiàn)版本控制和權限管理。
資源索引與檢索引擎:快速精準地從大量翻譯記憶數(shù)據(jù)中提取匹配項,降低譯員工作負擔。
實時更新與增量索引:隨著翻譯內容的更新和增加,動態(tài)更新索引系統(tǒng),確保最新翻譯結果及時納入檢索體系。
4. 底層技術支撐層
預處理與后處理:對原始文檔進行格式識別、結構分析、拆分、標記、通過翻譯記憶庫預翻譯等預處 理,對翻譯結果進行內容重組、合并、格式還原等后處理。
API 接口與集成:提供標準化應用程序接口,便于與其他業(yè)務系統(tǒng)如翻譯管理系統(tǒng)(TMS)、內容管 理系統(tǒng)(CMS)、客戶關系管理系統(tǒng)(CRM)等進行數(shù)據(jù)交換和功能整合。
5. 基礎設施層
硬件環(huán)境:服務器、網絡設備及終端設備等硬件設施,確保計算機輔助翻譯軟件/系統(tǒng)穩(wěn)定運行。
云服務:部署在云端的計算機輔助翻譯軟件/系統(tǒng)還需有云平臺計算能力、存儲容量、安全策略以及高 可用性保障等方面支持。
(四)產品形式
計算機輔助翻譯軟件/系統(tǒng)的產品形式主要包含桌面應用、在線/云端解決方案、插件或集成式工具以及 定制化企業(yè)級系統(tǒng)四類:
1. 桌面應用
為用戶提供獨立安裝在本地計算機上的計算機輔助翻譯軟件/系統(tǒng),支持離線工作。
2. 在線/云端解決方案
提供基于 Web 瀏覽器的在線翻譯環(huán)境,方便團隊協(xié)作,實現(xiàn)遠程同步翻譯和實時更新等。
3. 插件或集成式工具
針對特定軟件或需求開發(fā)的插件,集成于內容生成、存儲和接收系統(tǒng)或運營、管理和治理平臺。
4. 定制化企業(yè)級系統(tǒng)
根據(jù)企業(yè)個性化需求定制的大型翻譯管理系統(tǒng),不僅包含計算機輔助翻譯軟件/系統(tǒng),還可整合流程自動化、多語言資源管理、組織/用戶管理、客戶和供應商管理等功能。
說明: 以上內容主要介紹計算機輔助翻譯的基本架構和常見產品形式,實際產品和服務正隨著市場需求和技術的進步不斷演進。
本文來源:《2024 計算機輔助翻譯技術發(fā)展與應用藍皮書》