5분 읽기

AI 번역 캡션은 얼마나 정확한가요?

작성자 Patricia Magaz 2023년 5월 3일

주제: 실시간 캡션

A 미디어 소비 행동의 근본적인 변화 AI 기술의 급격한 발전과 결합되어 AI 번역 캡션이 모든 형태와 규모의 라이브 이벤트에 인기 있고 강력한 선택이 되었습니다. Interprefy는 2022년에 이를 도입했으며, Microsoft Teams 및 Zoom에서도 사용할 수 있습니다: 실시간 회의를 위한 자동 생성 다국어 자막. 이 기술은 사용자가 이해할 수 있도록 합니다, 사용자가 언어를 모른다 하더라도.

하지만 그것들은 얼마나 정확할까요? 간단한 답은 없습니다. 결과는 선택한 접근 방식과 사용된 엔진, 특정 언어 조합, 그리고 오디오의 특성(화자 억양, 오디오 품질 등)에 크게 좌우됩니다. 그리고 단순한 사실은 번역 정확성을 측정하는 확정적인 방법이 없다는 것입니다.

번역 업계 사람들은 품질을 다양한 방식으로 설명합니다. 객관적인 측정을 시도할 때, 연구자 그룹이 인정했습니다 그들은 자신들 사이에서도 "번역 품질"에 대해 어떻게 정의되어야 하는지조차 동의하지 못했습니다.

번역 품질이 왜 이렇게 측정하기 어려운지, 그리고 기계 번역된 캡션 품질을 측정에 더 가깝게 접근할 수 있는 방법을 자세히 살펴보겠습니다.

다중 언어 자동 자막 작동 방식

"Auto-translated", "machine translated", and "AI-translated" 캡션 또는 "multilingual subtitles"는 다른 언어의 음성과 함께 실시간 자막을 사용자에게 제공하는 폐쇄 캡션입니다. 이들은 원본 오디오에서 자동 음성 인식과 기계 번역 기술의 조합을 사용하거나, 원본 언어의 오디오를 직접 텍스트(또는 구어)로 변환하는 AI 기반 솔루션을 사용하여 생성됩니다.

번역 품질 측정

언어는 매우 복잡하기 때문에 번역 품질은 종종 해석에 따라 달라집니다. 번역가나 기계가 실수를 했을 때 품질 문제가 발생한다고 생각할 수 있지만, 실제로는 번역 품질 문제가 주관적인 평가인 경우가 훨씬 더 흔합니다.

다차원 품질 메트릭스(MQM) 프레임워크, 유럽연합 집행위원회가 주도하는 프로젝트로, "기능주의" 접근 방식을 제공하여 품질 문제를 분류합니다:

정확도
스타일
유창성
지역 관습
용어 등.

그것'은 조직이 종종 번역가에게 스타일 가이드, 용어집을 제공하고 이상적으로는 번역 메모리를 구축하여, 필요에 맞는 번역 작업 전반에 걸친 일관성을 확보하는 이유입니다.

번역 품질을 측정하는 것은 번역이 얼마나 유용한지, 그리고 목적에 얼마나 잘 맞는지를 평가하는 문제입니다.

실시간 자막을 위한 기계 번역 품질

기계 번역은 60년 이상 존재해 왔으며, 오늘날 기계와 인간이 공존합니다. 그러나 최근 20년 동안 언어 서비스 제공업체(LSP), 번역 에이전시 및 프리랜서는 기계 번역을 도입하여 생산성을 향상하고 비용을 절감했으며, 이는 기계 번역 품질의 급속한 발전 덕분입니다.

모든 기계 번역 엔진이 동일한 것은 아닙니다

오늘은 Google 번역, DeepL 번역, Microsoft Translator와 같은 텍스트 간 번역 엔진이 많이 제공되고 있으며, 규칙 기반, 통계 기반, 적응형, 신경망 등 여러 종류의 기계 번역도 있습니다. 대부분의 서비스는 마지막인 신경망 기계 번역으로 이동하기 시작했으며, 신경망 기계 번역은 매우 만족스러운 결과를 빠르게 생성하고 특정 유형의 텍스트에 대해 인간과 기계 사이의 격차를 신속히 메우는 데 강력함이 입증되었습니다.

다양한 번역 엔진과 다양한 유형의 기계 번역은 서로 다른 결과를 생성합니다. 하나의 엔진은 특정 언어 조합에 대해 뛰어난 성능을 보일 수 있지만 다른 경우에는 쓸모없는 결과를 낼 수 있습니다.

실시간 vs 사후 편집 요구사항

대부분의 서면 번역은 즉시 최종화될 필요가 없기 때문에, 웹사이트나 문서에 대한 기계 번역 결과는 게시 전에 전문 번역가가 검토하고 후편집합니다. 따라서 최고의 엔진을 갖는 것은 실제로 시간을 절약해 주지만 필수적이지는 않습니다.

실시간 다국어 자막은, 하지만, 사용자가 읽기 전에 인간 개입 없이 실시간으로 제공되어야 합니다.

따라서 그것은' 중요한 것이며 최고의 성능을 내는 엔진과 엔진 조합을 사용하고 오디오 입력 품질이 최적이어야 합니다. 예를 들어, 화자가 강한 억양을 가지고 나쁜 마이크를 사용할 경우, 최고의 솔루션이라도 다소 부족한 다국어 자막을 생성할 수 있습니다.

Interprefy 접근 방식: 솔루션 벤치마킹 및 입력 오디오 최적화

단일 기계 번역 엔진을 사용하는 대신, Interprefy'의 AI 전달 팀은 특정 언어 조합에 대해 음성 인식과 기계 번역 솔루션의 조합을 포함한 선도적인 번역 솔루션을 지속적으로 벤치마킹합니다.

우리는 세계 최고 수준의 연구 기관과 협력하여 실시간 다국어 자막을 위한 독자적이고 자동화된 벤치마킹 프로세스를 개발하고 지속적으로 개선합니다. 알렉산더 다비도프, Interprefy AI 딜리버리 책임자

"우리는 다양한 오디오 데이터의 대규모 세트를 사용하고, 다양한 번역 시스템 및 시스템 조합의 출력을 받아 전문 번역가가 만든 번역과 비교하여 정확성을 검증하고 순위를 매깁니다", 알렉산더가 설명합니다.

아래 차트는 동일한 원본 언어에서 번역된 네 개 언어에 대한 벤치마킹 결과를 보여줍니다. 보시다시피, 어떤 단일 솔루션도 네 개 언어 쌍 모두에 일관된 품질을 제공하지 않습니다.

하지만 가장 정교한 솔루션을 사용하더라도 입력 품질이 낮으면 품질이 여전히 저하될 수 있습니다.

음질은 AI 출력의 품질뿐만 아니라 통역사의 건강 및 수행 능력, 그리고 청중의 이해와 참여에도 영향을 미치는 핵심 요소입니다. 이러한 이유로 Interprefy는 행사 주최자와 발표자에게 유용한 가이드라인, 발표자를 위한 도구를 제공하여 그들의 음질을 테스트하고, 그리고 오디오 향상 도구까지 개발하여, Interprefy Clarifier.

또한, 당사의 전문 직원들은 고객과 협력하여 시스템을 최적화하고 브랜드명, 약어 및 기타 요소를 정확히 처리합니다.

자막 품질 비교

직접 품질 평가를 수행하고 싶으신가요?

데모 요청을 위해 연락 주세요.

Patricia Magaz

작성자 Patricia Magaz

Interprefy의 글로벌 콘텐츠 매니저 Patricia Magaz가 전하는 최신 개발 소식을 알아보세요.