亚洲国产午夜影院|AV中文AV无码|九九亚洲无码视频|久草91一本在线|精品一区亚洲视频|免费国产传媒视频|色欲日韩一区999视频无码|伊人天堂五月天|亚洲国产香蕉视频|少妇流水无码不卡

手機號
驗證碼
立即登錄    忘記密碼? 注冊
手機號
郵箱
立即登錄    免費注冊 找回密碼

9/17/2018 9:46:00 AM

機器翻譯研究人員熱衷于什么樣的內(nèi)容?

康奈爾大學的研究論文自動化在線發(fā)布系統(tǒng)Arxiv.org是任何有興趣了解神經(jīng)機器翻譯(NMT)最新進展的人士的豐富資源。從我們第一次寫到關于提交給Arxiv的論文數(shù)量反映出來的學術NMT研究的急劇加速已經(jīng)差不多一年了,而且這種上升趨勢還在繼續(xù)

 

因此,在過去的105天中,直到上周中旬,有46篇關于NMT的研究論文被提交給Arxiv。難怪我們幾乎每隔一天就碰到一起 - 實際上每隔2.3天就會有一篇關于NMT的新文章。

 

經(jīng)過仔細檢查,基于這些NMT論文的主題,出現(xiàn)了關于研究方向的模式。根據(jù)對其內(nèi)容的粗略閱讀對研究論文進行分類后,Slator決定根據(jù)意圖對其進行分組,而不是結果。畢竟,幾乎每個研究方向都會產(chǎn)生相同的最終結果:NMT模型和總體產(chǎn)出的改進。

 

免責聲明:Slator并不是學術研究和分類的最終權威,而這些類別旨在顯示研究人員正在采取的一般方向。

 

改進NMT輸出

 

NMT最明顯的下一步也是研究最多的話題。最近在Arxiv上發(fā)表的46篇研究論文中有8篇涉及以某種方式改進NMT產(chǎn)出。

 

有一些研究將前人基于短語的MT方法的方面應用到當前的NMT模型中,通過基于語法的權重改變解碼器的注意機制在本地的注意力的實驗,甚至應用方法來幫助NMT模型處理更有創(chuàng)意的方面翻譯如處理成語。

 

事實上,已發(fā)表的46篇關于習語翻譯的論文有兩篇。一個人使用了慣用表達式的直接翻譯黑名單來識別測試集中的文字翻譯錯誤。另一種方法在模型的訓練數(shù)據(jù)中添加了慣用表達式,并對它們進行了標注以供識別。

解決培訓數(shù)據(jù)限制

 

NMT模型被描述為數(shù)據(jù)饑餓,數(shù)據(jù)質量越高,域內(nèi)語料越多,系統(tǒng)就會越好。

 

最近發(fā)表的46篇研究論文中有7篇研究了訓練數(shù)據(jù)約束,試圖找出為什么NMT模型需要特定數(shù)據(jù)或如何解決現(xiàn)有的已知限制,如低資源語言。

 

已經(jīng)對僅使用部分對齊的語料庫訓練NMT模型進行了研究,了解訓練數(shù)據(jù)中合成噪聲和自然噪聲如何打破NMT輸出流暢性,當然也是最具挑戰(zhàn)性和迫切性的問題:解決低資源語言的NMT問題。其中一個例子是討論森林到序列模型的論文,該模型通過向訓練數(shù)據(jù)添加語法信息來提高低資源語言的翻譯準確性。另一個側重于使用外部詞匯的外部詞典來增強訓練數(shù)據(jù)。

新的或改進的NMT模型

 

遞歸神經(jīng)網(wǎng)絡,卷積神經(jīng)網(wǎng)絡和自我注意變換器是當今NMT系統(tǒng)使用的深度學習模型的主要類型。這并不意味著研究人員會停止尋找新的或改進的模型。

 

實際上,有七篇研究論文只關注這一點。Salesforce加權的自我注意變壓器模型,他們聲稱將處理速度提高10倍就是這樣一種模型。另一個是亞馬遜的Sockeye,亞馬遜研究團隊在去年年底與其他模式對抗。

 

其他研究主要集中在變分遞歸神經(jīng)機器翻譯和異步雙向解碼。

文檔級上下文

 

NMT注入文檔級上下文的研究也是一個熱門的方向,有6篇論文集中在這個任務上。

 

由于NMT的流暢度是逐句限制的,因此它不能使用源語句之外的語境來翻譯其文本。簡而言之,它無法翻譯具有相同流利程度和充足性的整個文檔,因此不能翻譯其中的單個句子。

 

研究人員關注的一些方法包括:

 

    流解碼,來自先前翻譯的句子的預先存在的上下文的恒定流

 

    外部記憶與NMT模型結合使用

 

    使用緩存來充當翻譯歷史或作為其他參考點

 

    基于解碼歷史,對NMT模型的關注機制應用自適應控制

 

后期編輯和模型學習

 

另外6篇研究論文涉及編輯后,在線和離線模型學習以及人的評估。

 

其中一篇論文是FacebookNMT通過非常簡單的交互進行后期編輯。還有關于離線記錄數(shù)據(jù)到在線NMT模型和在線機器學習的討論。

 

此外,還有兩篇論文著重于人類評價,尤其是關于“ NMT在線適應用戶后編輯的第一次用戶研究的論文以及一篇論文一種定量細粒度人工評估方法來比較不同性能MT系統(tǒng)

研究的其他方向

 

除此之外,有五篇論文致力于改進各個方面的NMT解碼編碼過程。這些通常圍繞提高速度或效率,或降低功耗或要求。

 

四篇研究論文涉及了解NMT模型內(nèi)部工作的各個方面。其他三篇論文涉及各種主題,例如關于隱私的文章,該文章提出了一種方法來保留翻譯或分析的句子的含義,而不會泄露有關該主題的任何敏感信息。

 

當然,大多數(shù)語言行業(yè)從業(yè)者不需要在審查個別研究論文的過程中陷入漏洞。他們只是在他們的生產(chǎn)力工具中使用任何公開可用的NMT門戶網(wǎng)站或NMT插件,并快速了解該技術的進展情況。但是,仍然值得關注學術界正在發(fā)生的事情。畢竟,目前正在重塑行業(yè)的技術也開始成為無害的研究論文。

 

為了理解當前研究的方向,我們回顧了2018年前六周以及去年的最后幾個月研究庫中的NMT相關論文。從2017111日至2018214日,共有58篇相關論文。這些論文中有12篇并非直接關于NMT,而是專注于通過神經(jīng)網(wǎng)絡進行機器學習,或者關注自然語言處理等相鄰技術。

 

——選自:樂文翻譯

 

樂文翻譯目前是國內(nèi)專業(yè)的翻譯機構之一,公司秉承“誠信 專業(yè)的服務理念,為國內(nèi)外客戶提供一流服務。了解更多信息:請發(fā)郵箱:abc@lewene.com或直接致電:400-895-6679咨詢。

閱讀文章:積分+1