미디어 소비 행태의 근본적인 변화 와 인공지능(AI) 기술의 비약적인 발전이 맞물려 AI 번역 자막은 모든 규모의 라이브 이벤트에서 인기 있고 강력한 선택지가 되었습니다. 인터프리파이(Interprefy)는 2022년에 이 기능을 도입했으며, 마이크로소프트 팀즈(Microsoft Teams)와 줌(Zoom)에서도 라이브 회의를 위한 자동 생성 다국어 자막을 이용할 수 있습니다. 이 기술 덕분에 발언이 진행되는 언어를 몰라도 내용을 이해할 수 있게
하지만 번역의 정확도는 어느 정도일까요? 간단한 답은 없습니다. 결과는 선택한 접근 방식과 사용된 번역 엔진, 특정 언어 조합, 그리고 오디오 특성(화자의 억양, 음질 등)에 따라 크게 달라집니다. 그리고 솔직히 말해서 번역 정확도를 측정하는 확실한 방법은 없습니다.
번역 업계 종사자들은 번역 품질을 다양한 방식으로 정의합니다. 객관적인 측정 기준을 마련하려는 과정에서, 한 연구진은 "번역 품질"을 어떻게 정의해야 할지에 대해 스스로도 합의에 이르지 못했다고 인정했습니다.
번역 품질을 측정하기 어려운 이유와 기계 번역 자막 품질을 측정하는 데 더 가까워지는 방법에 대해 자세히 살펴보겠습니다.
"자동 번역", "기계 번역", "AI 번역" 자막 또는 "다국어 자막"은 사용자가 다른 언어의 음성과 함께 실시간으로 자막을 볼 수 있도록 하는 폐쇄 자막입니다. 이러한 자막은 자동 음성 인식 및 기계 번역 기술을 결합하여 번역된 텍스트를 생성하거나, AI 기반 솔루션을 사용하여 원어 음성을 대상 언어의 텍스트(또는 음성)로 직접 변환하는 방식으로 생성됩니다.
언어는 매우 복잡하기 때문에 번역의 질은 종종 해석의 여지가 있습니다. 번역 품질 문제는 번역가나 기계의 오류로 인해 발생한다고 생각하기 쉽지만, 실제로 번역 품질 문제로 여겨지는 것들은 대부분 주관적인 평가에 기인합니다.
유럽 위원회가 주도하는 프로젝트인 다차원 품질 측정(MQM) 프레임워크는
그렇기 때문에 기업들은 번역가들에게 스타일 가이드, 용어집을 제공하고, 이상적으로는 번역 메모리까지 구축하여 번역 작업 전반에 걸쳐 일관성을 유지하고 요구 사항을 충족시키려고 합니다.
번역의 질을 측정한다는 것은 번역이 얼마나 유용한지, 그리고 목적에 얼마나 잘 부합하는지를 평가하는 것입니다.
기계 번역은 60년 이상 존재해 왔으며, 오늘날 기계와 인간은 공존하고 있습니다. 하지만 최근 20년 동안 언어 서비스 제공업체(LSP), 번역 에이전시 및 프리랜서들은 기계 번역 품질의 급속한 발전 덕분에 생산성 향상과 비용 절감을 위해 기계 번역을 도입해 왔습니다.
오늘날에는 구글 번역, 딥러닝 번역, 마이크로소프트 번역과 같은 다양한 텍스트 대 텍스트 번역 엔진과 규칙 기반, 통계 기반, 적응형, 신경망 번역 등 여러 유형의 기계 번역이 존재합니다. 대부분의 서비스는 신경망 기계 번역으로 전환하는 추세인데, 이는 신경망 기계 번역이 특정 유형의 텍스트에서 매우 만족스러운 결과를 도출하고 인간과 기계 간의 격차를 빠르게 줄이는 데 효과적임이 입증되었기 때문입니다.
번역 엔진과 기계 번역 유형에 따라 결과가 다르게 나타납니다. 어떤 엔진은 특정 언어 조합에서는 탁월한 결과를 내지만, 다른 조합에서는 전혀 쓸모없는 결과를 내놓기도 합니다.
대부분의 문서 번역은 즉시 완료할 필요가 없기 때문에 웹사이트나 문서의 기계 번역 결과물은 게시 전에 전문 번역가가 검토하고 후편집합니다. 따라서 최고의 번역 엔진을 사용하는 것은 시간을 크게 절약해 주지만 필수적인 것은 아닙니다.
하지만 실시간 다국어 자막은 사용자가 읽기 전에 사람의 개입 없이 실시간으로 제공되어야 합니다.
따라서 최고의 성능을 자랑하는 엔진과 엔진 조합을 사용하고 오디오 입력 품질을 최적화하는 것이 매우 중요합니다. 예를 들어, 화자가 강한 억양을 사용하고 음질이 좋지 않은 마이크를 사용하는 경우, 아무리 최상의 솔루션을 사용하더라도 다국어 자막 품질이 떨어질 수 있습니다.
Interprefy의 AI 개발팀은 단일 기계 번역 엔진에 의존하는 대신, 주요 번역 솔루션은 물론 특정 언어 조합에 대한 음성 인식 및 기계 번역 솔루션의 조합을 지속적으로 벤치마킹합니다.
저희는 세계 유수의 연구 기관들과 협력하여 실시간 다국어 자막을 위한 독자적인 자동 벤치마킹 프로세스를 개발하고 지속적으로 개선하고 있습니다. (알렉산더 다비도프, 인터프리피 AI 부문 총괄)
"저희는 방대한 양의 다양한 오디오 데이터를 사용하고, 여러 번역 시스템과 시스템 조합의 결과물을 전문 번역가가 번역한 결과와 비교하여 검증하고 정확도에 따라 순위를 매깁니다."라고 알렉산더는 설명합니다.
아래 차트는 동일한 원어에서 네 가지 언어로 번역한 결과에 대한 벤치마킹 결과를 보여줍니다. 보시다시피, 어떤 단일 솔루션도 네 가지 언어 쌍 모두에서 일관된 품질을 제공하지 못합니다.
하지만 아무리 정교한 솔루션을 사용하더라도 입력 품질이 낮으면 품질이 저하될 수 있습니다.
음질은 AI 출력 품질뿐만 아니라 통역사의 건강과 수행 능력, 그리고 청중의 이해도와 참여도에 영향을 미치는 핵심 요소입니다. 그렇기 때문에 Interprefy는 행사 주최자와 발표자에게 유용한 가이드라인을 , 발표자가 음질을 테스트할 수 있는 도구를 , 나아가 음질 향상 도구인 Interprefy Clarifier를 개발하는 등 오디오 .
또한, 당사의 전문 인력은 고객과 협력하여 브랜드 이름, 약어 등을 정확하게 입력할 수 있도록 시스템을 최적화합니다.