2024年7月30日,阿爾托大學的OtsoHaavisto和RobinWelsch發布的一篇研究論文中,介紹了一款旨在簡化針對不同語言和文化調整問卷過程的網絡應用程序。
Haavisto和Welsch強調,翻譯調查問卷通常成本高昂且“資源密集”,需要多名獨立翻譯人員和大量驗證流程。據作者稱,這種復雜性導致了研究中的不平等,特別是在非英語和低收入地區,因為這些地區獲取優質問卷的機會有限。
在問卷翻譯中,保持語義相似性,確保翻譯版本與原文相同的含義至關重要。正如作者所指出的,“語義相似性比逐字匹配更重要。”據作者稱,文化細微差別和口語表達會使這一過程進一步復雜化,從而難以實現準確的翻譯。
為了應對這些挑戰,他們開發了一個網絡應用程序,允許用戶翻譯問卷、編輯翻譯、回譯為源語言以與原文進行比較,并接收大語言模型(LLM)生成的翻譯質量評估。
該工具整合了DeepL(用于初始翻譯)和GPT-4(用于評估和建議)。使用翻譯工具是基于其在翻譯科學文本方面的“可靠輸出和良好結果”,作者表示這對于研究問卷的準確性至關重要。
他們說:“我們著手開發一個問卷翻譯工具的原型,該工具將充分利用法學碩士在自然語言處理任務中的多功能性,給跨文化的研究人員帶來幫助。
Haavisto和Welsch通過兩項在線研究測試了該工具的有效性:一項研究涉及10名參與者測試英語-德語語言對,另一項研究涉及20名參與者測試英語-葡萄牙語語言對。作者表示,這兩項研究都表明“在問卷翻譯過程中采用LLM取得了令人鼓舞的結果”。
研究結果表明,機器翻譯加上AI生成的質量評分,其翻譯質量和語義相似度可與傳統翻譯相媲美。參與者還發現AI生成的建議“有一定幫助”,并且能夠準確反映翻譯質量。
Haavisto和Welsch還指出,法學碩士生成的翻譯質量評估可以幫助研究人員識別和解決翻譯中特定于上下文的問題,并強調“這是邁向由人工智能驅動的更公平的基于問卷的研究的第一步。”
該工具目前支持英語、德語、葡萄牙語和芬蘭語的翻譯,不過芬蘭語尚未測試。原型代碼已在GitHub上公開,歡迎進一步探索和貢獻。