2024年7月30日,阿爾托大學的OtsoHaavisto和RobinWelsch發(fā)布的一篇研究論文中,介紹了一款旨在簡化針對不同語言和文化調(diào)整問卷過程的網(wǎng)絡應用程序。
Haavisto和Welsch強調(diào),翻譯調(diào)查問卷通常成本高昂且“資源密集”,需要多名獨立翻譯人員和大量驗證流程。據(jù)作者稱,這種復雜性導致了研究中的不平等,特別是在非英語和低收入地區(qū),因為這些地區(qū)獲取優(yōu)質(zhì)問卷的機會有限。
在問卷翻譯中,保持語義相似性,確保翻譯版本與原文相同的含義至關重要。正如作者所指出的,“語義相似性比逐字匹配更重要。”據(jù)作者稱,文化細微差別和口語表達會使這一過程進一步復雜化,從而難以實現(xiàn)準確的翻譯。
為了應對這些挑戰(zhàn),他們開發(fā)了一個網(wǎng)絡應用程序,允許用戶翻譯問卷、編輯翻譯、回譯為源語言以與原文進行比較,并接收大語言模型(LLM)生成的翻譯質(zhì)量評估。
該工具整合了DeepL(用于初始翻譯)和GPT-4(用于評估和建議)。使用翻譯工具是基于其在翻譯科學文本方面的“可靠輸出和良好結果”,作者表示這對于研究問卷的準確性至關重要。
他們說:“我們著手開發(fā)一個問卷翻譯工具的原型,該工具將充分利用法學碩士在自然語言處理任務中的多功能性,給跨文化的研究人員帶來幫助。
Haavisto和Welsch通過兩項在線研究測試了該工具的有效性:一項研究涉及10名參與者測試英語-德語語言對,另一項研究涉及20名參與者測試英語-葡萄牙語語言對。作者表示,這兩項研究都表明“在問卷翻譯過程中采用LLM取得了令人鼓舞的結果”。
研究結果表明,機器翻譯加上AI生成的質(zhì)量評分,其翻譯質(zhì)量和語義相似度可與傳統(tǒng)翻譯相媲美。參與者還發(fā)現(xiàn)AI生成的建議“有一定幫助”,并且能夠準確反映翻譯質(zhì)量。
Haavisto和Welsch還指出,法學碩士生成的翻譯質(zhì)量評估可以幫助研究人員識別和解決翻譯中特定于上下文的問題,并強調(diào)“這是邁向由人工智能驅(qū)動的更公平的基于問卷的研究的第一步。”
該工具目前支持英語、德語、葡萄牙語和芬蘭語的翻譯,不過芬蘭語尚未測試。原型代碼已在GitHub上公開,歡迎進一步探索和貢獻。