產(chǎn)業(yè)級機器翻譯系統(tǒng)架構(gòu)
一個成熟的產(chǎn)業(yè)級機器翻譯系統(tǒng)除了對翻譯結(jié)果(譯文質(zhì)量)有所要求,還應在翻譯過程中充分考慮到系統(tǒng)性能、硬件要求、系統(tǒng)部署、數(shù)據(jù)安全等諸多因素。圖4展示了一個面向產(chǎn)業(yè)的機器 翻譯系統(tǒng)的流程圖,主要包含以下四部分:
1.模型訓練
收集大規(guī)模訓練數(shù)據(jù)(包括雙語平行語料、單語語料、詞典等),并根據(jù)應用需求基于深度學習平臺訓練機器翻譯模型,如多語言翻譯模型、領(lǐng)域自適應模型、多模態(tài)翻譯模型等。
2. 部署發(fā)布
部署發(fā)布包含兩個子模塊,質(zhì)量評價與系統(tǒng)部署。在機器翻譯模型訓練完成后,需要進行翻譯質(zhì)量評價,評估新版本模型的翻譯質(zhì)量是否優(yōu)于上一版本、是否滿足用戶需求、是否能解決某一類問題等。如達到要求,則進行系統(tǒng)部署,否則還需進一步迭代優(yōu)化模型,直至滿足各項要求。在系統(tǒng)部署階段,需考慮多種因素。 一個成熟的機器翻譯系統(tǒng)除了能夠高效完成翻譯任務(wù)外,還應具備動態(tài)調(diào)度能力,即根據(jù)流量變化實時調(diào)整各個機器的負載,最大程度提升機器利用率、響應海量翻譯需求;如出現(xiàn)流量異常、重要內(nèi)容翻譯錯誤等突發(fā)情況,應能夠及時檢測并預警。同時,系統(tǒng)還應具備實時干預能力,即在不影響系統(tǒng)服務(wù)的前提下,及時采取系統(tǒng)動態(tài)擴容、錯誤譯文實時修正等措施 。
3. 產(chǎn)品及應用
機器翻譯最終通過豐富的產(chǎn)品形態(tài)為用戶提供服務(wù),常見的機器翻譯產(chǎn)品有面向用戶的網(wǎng)頁端翻譯服務(wù)、桌面客戶端翻譯應用、移動端翻譯應用、翻譯插件(包括但不限于瀏覽器翻譯插件、計 算機輔助翻譯軟件插件、辦公軟件翻譯插件等)、智能翻譯硬件,以及面向開發(fā)者二次開發(fā)集成的 應用程序接口(API)、軟件開發(fā)工具包(SDK) 等。這些產(chǎn)品集成了文本翻譯、文檔翻譯以及融合了語音、圖像處理的多模態(tài)翻譯等豐富功能,極大地滿足了人們生產(chǎn)生活中的翻譯需求。
4. 數(shù)據(jù)及系統(tǒng)安全
安全策略是人工智能系統(tǒng)的一個重要組成部分,機器翻譯也不例外。 一個實用的機器翻譯系統(tǒng)應該構(gòu)建全生命周期的安全策略,包括認證和授權(quán)機制、數(shù)據(jù)隔離、數(shù)據(jù)加密、監(jiān)控審計等方面,保障在存儲和傳輸過程中語料、模型和用戶相關(guān)信息的數(shù)據(jù)安全。此外,在具體應用場景中,可根據(jù)需求靈活設(shè)計和開發(fā)安全策略,例如針對不同硬件和系統(tǒng)環(huán)境進行模型適配調(diào)整,針對高時空開銷的場景進行模型壓縮等。
圖4:產(chǎn)業(yè)級機器翻譯系統(tǒng)流程圖
本文來源:《2023 機器翻譯技術(shù)及產(chǎn)業(yè)應用藍皮書》