AI 자막의 정확도 이해하기: 종합 가이드

마르쿠스 아레거 작성 | 2023년 4월 13일

자막은 프레젠테이션 및 라이브 이벤트에서 접근성, 참여도 및 정보 습득률을 향상시키는 효과적인 기술입니다. 이러한 장점과 더불어 비디오 스트리밍 환경에서 변화하는 영상 소비 습관은 최근 라이브 이벤트 및 비즈니스 회의에서 AI 기반 자막 기술의 도입을 가속화하고 있습니다.

하지만 회의나 행사를 위한 서비스 제공업체를 선택할 때 가장 자주 묻는 질문은 바로 "자동 실시간 자막의 정확도는 어느 정도인가?"입니다

간단히 말해서, 이상적인 조건에서 음성 언어 자동 자막은 단어 오류율(WER) 기준으로 최대 98%의 정확도를 달성할 수 있습니다.

네, 맞습니다. 좀 더 길고 복잡한 답변이 있습니다. 이 글에서는 정확도를 측정하는 방법, 정확도에 영향을 미치는 요소, 그리고 정확도를 한 단계 더 높이는 방법에 대한 개요를 제공하고자 합니다.

수치를 살펴보기 전에 잠시 뒤로 물러나 자동 자막 기능이 어떻게 작동하는지 알아보겠습니다.

자동 자막 생성 방식

자동 캡션

자동 자막은 음성을 실시간으로 화면에 음성과 동일한 언어로 텍스트로 변환하여 표시합니다. ASR(자동 음성 인식)은 음성 문장을 텍스트로 변환하는 데 사용되는 일종의 인공지능 기술입니다.

흔히 "음성-텍스트 변환"이라고 불리는 이 기술은 오디오에서 단어를 자동으로 인식하고 음성을 텍스트로 변환합니다.

AI 번역 캡션

인공지능 기반 번역 엔진은 다른 언어로 표시되는 자막을 자동으로 번역합니다. 이를 기계 번역 자막 또는 기계 번역 캡션이라고도 합니다.

다음 행사에서 실시간 자막을 추가해야 하는 이유

기사 읽기 →

이 글에서는 자동 자막에 대해 다룹니다. AI 번역 자막의 정확도에 대해 알고 싶으시면 이 글을 .

좋은 자막 품질이란 무엇일까요?

미국 연방통신위원회(FCC)는 2014년에 자막이 "우수"한지 여부를 판단하는 필수적인 특징들을 정립했습니다

정확성 - 자막은 가능한 한 음성 내용과 일치해야 합니다.
완전성 - 자막은 방송 시작부터 끝까지 가능한 한 완벽하게 제공됩니다.
배치 - 캡션은 중요한 시각적 콘텐츠를 가리지 않고 읽기 쉬워야 합니다.
동기화 - 자막이 오디오 트랙과 정렬되어 읽기 편한 속도로 표시됩니다.

이미지: 웹 세미나 중 AI 번역 실시간 자막

정확도에 영향을 미치는 요인은 무엇입니까?

선택된 AI 엔진

모든 음성-텍스트 변환 엔진이 동일한 결과를 내는 것은 아닙니다. 어떤 엔진은 전반적으로 더 나은 성능을 보이는 반면, 어떤 엔진은 특정 언어에서 더 뛰어난 성능을 보입니다. 또한 동일한 엔진을 사용하더라도 억양, 소음 수준, 주제 등에 따라 결과가 크게 달라질 수 있습니다.

그렇기 때문에 Interprefy는 항상 최고의 번역 엔진들을 벤치마킹하여 가장 정확한 결과를 도출하는 엔진을 찾아냅니다. 그 결과, Interprefy는 지연 시간 및 비용과 같은 요소를 고려하여 특정 언어에 가장 적합한 솔루션을 사용자에게 제공할 수 있습니다. 최적의 설정에서 여러 언어에 대해 최대 98%의 일관된 정확도를 확인했습니다.

오디오 입력 품질

자동 음성 인식 기술이 고품질의 결과물을 생성하려면 고품질의 입력이 필수적입니다. 간단히 말해, 오디오와 음성의 품질과 선명도가 높을수록 결과물도 더 좋아집니다.

음질 - 회의 통역과 마찬가지로 , 컴퓨터 내장 마이크와 같은 음질 입력 하드웨어가 좋지 않으면 부정적인 영향을 미칠 수 있습니다.
명확한 발음과 말하기 - 크고 적절한 속도로 명확하게 말하는 발표자는 일반적으로 자막 정확도가 더 높습니다 .
배경 소음 - 마이크에 포착되는 큰 굉음, 개 짖는 소리 또는 종이 바스락거리는 소리는 오디오 입력 품질을 크게 저하시킬 수 있습니다.
억양 - 특이하거나 강한 억양을 가진 화자뿐만 아니라 원어민이 아닌 화자는 많은 음성 인식 시스템에 문제를 일으킵니다.
겹치는 음성 - 두 사람이 동시에 말하는 경우, 시스템이 정확한 화자를 식별하는 데 어려움을 겪을 수 있습니다.

Zoom, Teams, Interprefy의 자막 정확도는 어느 정도인가요?

기사 읽기 →

자동 자막의 정확도를 측정하는 방법

음성 인식(ASR) 정확도를 측정하는 가장 일반적인 지표는 단어 오류율(WER)로, 이는 화자의 실제 음성 기록과 ASR 출력 결과를 비교한 것입니다.

예를 들어, 100개 단어 중 4개가 틀렸다면 정확도는 96%가 됩니다. 

단어 오류율(WER) 이해하기

WER은 음성 인식 시스템이 생성한 녹취록 텍스트와 사람이 생성한 참조 녹취록(정답) 사이의 최단 거리를 결정합니다.

WER(단어 오류율)은 올바르게 식별된 단어 시퀀스를 단어 수준에서 정렬한 후, 참조 텍스트와 전사 텍스트를 완전히 정렬하는 데 필요한 총 수정 횟수(치환, 삭제 및 삽입)를 계산합니다. WER은 필요한 수정 횟수를 참조 텍스트의 총 단어 수로 나눈 값입니다. 일반적으로 WER이 낮을수록 음성 인식 시스템의 정확도가 높습니다.

단어 오류율 예시: 정확도 91.7%

단어 오류율이 8.3%, 즉 정확도가 91.7%인 경우를 예로 들어, 원래 음성 녹취록과 ASR이 생성한 자막 간의 차이를 비교해 보겠습니다

원본 녹취록:	ASR 자막 출력:
예를 들어, 저는 필수적인 사항 들은 매우 제한적으로만 사용되는 것을 선호합니다. 만약 제가 특정 사항에 대해 더 자세히 말씀드리고자 한다면, 유럽 법원의 역할이 명확해진 후에야 각 국가 의회가 협약을 비준하도록 촉구 하는 것은 매우 부정적인 결과를 초래할 수 있다고 생각합니다.	예를 들어, 저 역시 예외 조항 의 활용이 매우 제한적이었으면 좋겠습니다. 한 가지 특정 사항에 대해 좀 더 자세히 말씀드리자면, 요구하는 것은 매우 부정적인 결과를 초래할 수 있다고 우려합니다.

이 예시에서는 자막에 단어 하나가 빠져 있고 네 단어로 대체되었습니다

측정 항목: {'일치': 55, '삭제': 1, '삽입': 0, '치환': 4}
대체어: [('too', 'do'), ('use', 'used'), ('exemptions', 'essentials'), ('the', 'i')]
삭제 항목: ['would']

따라서 단어 오류율 계산은 다음과 같습니다

WER = (삭제 + 치환 + 삽입) / (삭제 + 치환 + 일치) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083

WER은 오류의 본질을 간과합니다

위의 예시에서처럼 모든 오류가 똑같이 큰 영향을 미치는 것은 아닙니다.

WER 측정은 특정 오류가 얼마나 관련성이 있거나 중요한지를 알려주지 않기 때문에 오해의 소지가 있습니다. 예를 들어, 같은 단어의 다른 철자(movable/moveable)와 같은 단순한 오류는 독자가 오류로 인식하지 않는 경우가 많지만, 단어 대체(exemptions/essentials)는 더 큰 영향을 미칠 수 있습니다.

특히 정확도가 높은 음성 인식 시스템의 경우, 단어 오류율(WER)은 오해의 소지가 있으며 인간의 정확도 인식과 항상 일치하는 것은 아닙니다. 인간은 90%와 99% 사이의 정확도 차이를 구별하기 어려운 경우가 많습니다.

인지된 단어 오류율

Interprefy는 자체 개발한 언어별 음성 인식 오류 측정 지표인 '인지 오류율(Perceived WER)'을 사용합니다. 이 지표는 모든 오류가 아닌, 사람이 음성을 이해하는 데 영향을 미치는 오류만 집계합니다. 인지 오류율은 일반적으로 음성 인식 오류율(WER)보다 낮으며, 경우에 따라 최대 50%까지 차이가 날 수 있습니다. 5~8%의 인지 WER은 사용자가 거의 알아차리지 못할 정도입니다.

아래 차트는 정확도가 높은 자동 음성 인식 시스템에서 WER과 인지된 WER의 차이를 보여줍니다. 동일한 언어의 서로 다른 데이터 세트(S0-S4)에 대한 성능 차이에 주목하십시오.

그래프에서 볼 수 있듯이, 사람이 인지하는 단어 오류율(WER)은 통계적 WER보다 훨씬 더 나은 경우가 많습니다.

아래 차트는 인지된 단어 오류율(Perceived WER)을 사용하여 특정 언어의 동일한 음성 데이터 세트를 처리하는 다양한 ASR 시스템 간의 정확도 차이를 보여줍니다. 

라이브 이벤트에 매우 정확한 자막을 제공합니다

"저희만의 독창적인 기술 솔루션과 고객에 대한 세심한 배려 덕분에 자동 자막 생성 정확도가 97%에 달합니다." - 알렉산더 다비도프, 인터프리피 AI 개발 총괄

이벤트 중에 매우 정확한 자동 자막을 생성하려면 고려해야 할 세 가지 핵심 사항이 있습니다

최고 수준의 솔루션을 활용하세요

모든 언어를 지원하는 기성 엔진을 선택하는 대신, 이벤트에서 사용되는 각 언어에 가장 적합한 엔진을 활용하는 공급업체를 선택하십시오.

최고의 엔진이 제공할 수 있는 기능이 무엇인지 궁금하신가요? 저희 기사 " 실시간 자막의 미래: Interprefy AI가 접근성을 향상시키는 방법"을

엔진을 최적화하세요

브랜드 이름, 특이한 이름, 약어 등이 적절하게 포착되도록 AI에 맞춤형 사전을 추가할 수 있는 업체를 선택하십시오.

고품질 오디오 입력을 보장하십시오

입력 음질이 좋지 않으면 ASR 시스템이 고품질 출력을 낼 수 없습니다. 음성이 크고 또렷하게 녹음되는지 확인하십시오.

전체 게시글 보기