자막은 프레젠테이션 및 라이브 이벤트에서 접근성, 참여도 및 정보 습득률을 향상시키는 효과적인 기술입니다. 이러한 장점과 더불어 비디오 스트리밍 환경에서 변화하는 영상 소비 습관은 최근 라이브 이벤트 및 비즈니스 회의에서 AI 기반 자막 기술의 도입을 가속화하고 있습니다.
하지만 회의나 행사를 위한 서비스 제공업체를 선택할 때 가장 자주 묻는 질문은 바로 "자동 실시간 자막의 정확도는 어느 정도인가?"입니다
간단히 말해서, 이상적인 조건에서 음성 언어 자동 자막은 단어 오류율(WER) 기준으로 최대 98%의 정확도를 달성할 수 있습니다.
네, 맞습니다. 좀 더 길고 복잡한 답변이 있습니다. 이 글에서는 정확도를 측정하는 방법, 정확도에 영향을 미치는 요소, 그리고 정확도를 한 단계 더 높이는 방법에 대한 개요를 제공하고자 합니다.
수치를 살펴보기 전에 잠시 뒤로 물러나 자동 자막 기능이 어떻게 작동하는지 알아보겠습니다.
자동 자막은 음성을 실시간으로 화면에 음성과 동일한 언어로 텍스트로 변환하여 표시합니다. ASR(자동 음성 인식)은 음성 문장을 텍스트로 변환하는 데 사용되는 일종의 인공지능 기술입니다.
흔히 "음성-텍스트 변환"이라고 불리는 이 기술은 오디오에서 단어를 자동으로 인식하고 음성을 텍스트로 변환합니다.
인공지능 기반 번역 엔진은 다른 언어로 표시되는 자막을 자동으로 번역합니다. 이를 기계 번역 자막 또는 기계 번역 캡션이라고도 합니다.
이 글에서는 자동 자막에 대해 다룹니다. AI 번역 자막의 정확도에 대해 알고 싶으시면 이 글을 .
미국 연방통신위원회(FCC)는 2014년에 자막이 "우수"한지 여부를 판단하는 필수적인 특징들을 정립했습니다
모든 음성-텍스트 변환 엔진이 동일한 결과를 내는 것은 아닙니다. 어떤 엔진은 전반적으로 더 나은 성능을 보이는 반면, 어떤 엔진은 특정 언어에서 더 뛰어난 성능을 보입니다. 또한 동일한 엔진을 사용하더라도 억양, 소음 수준, 주제 등에 따라 결과가 크게 달라질 수 있습니다.
그렇기 때문에 Interprefy는 항상 최고의 번역 엔진들을 벤치마킹하여 가장 정확한 결과를 도출하는 엔진을 찾아냅니다. 그 결과, Interprefy는 지연 시간 및 비용과 같은 요소를 고려하여 특정 언어에 가장 적합한 솔루션을 사용자에게 제공할 수 있습니다. 최적의 설정에서 여러 언어에 대해 최대 98%의 일관된 정확도를 확인했습니다.
자동 음성 인식 기술이 고품질의 결과물을 생성하려면 고품질의 입력이 필수적입니다. 간단히 말해, 오디오와 음성의 품질과 선명도가 높을수록 결과물도 더 좋아집니다.
음성 인식(ASR) 정확도를 측정하는 가장 일반적인 지표는 단어 오류율(WER)로, 이는 화자의 실제 음성 기록과 ASR 출력 결과를 비교한 것입니다.
예를 들어, 100개 단어 중 4개가 틀렸다면 정확도는 96%가 됩니다.
WER은 음성 인식 시스템이 생성한 녹취록 텍스트와 사람이 생성한 참조 녹취록(정답) 사이의 최단 거리를 결정합니다.
WER(단어 오류율)은 올바르게 식별된 단어 시퀀스를 단어 수준에서 정렬한 후, 참조 텍스트와 전사 텍스트를 완전히 정렬하는 데 필요한 총 수정 횟수(치환, 삭제 및 삽입)를 계산합니다. WER은 필요한 수정 횟수를 참조 텍스트의 총 단어 수로 나눈 값입니다. 일반적으로 WER이 낮을수록 음성 인식 시스템의 정확도가 높습니다.
단어 오류율이 8.3%, 즉 정확도가 91.7%인 경우를 예로 들어, 원래 음성 녹취록과 ASR이 생성한 자막 간의 차이를 비교해 보겠습니다
| 원본 녹취록: | ASR 자막 출력: |
| 예를 들어, 저는 필수적인 사항 들은 매우 제한적으로만 사용되는 것을 선호합니다. 만약 제가 특정 사항에 대해 더 자세히 말씀드리고자 한다면, 유럽 법원의 역할이 명확해진 후에야 각 국가 의회가 협약을 비준하도록 촉구 하는 것은 매우 부정적인 결과를 초래할 수 있다고 생각합니다. | 예를 들어, 저 역시 예외 조항 의 활용이 매우 제한적이었으면 좋겠습니다. 한 가지 특정 사항에 대해 좀 더 자세히 말씀드리자면, 요구하는 것은 매우 부정적인 결과를 초래할 수 있다고 우려합니다. |
이 예시에서는 자막에 단어 하나가 빠져 있고 네 단어로 대체되었습니다
따라서 단어 오류율 계산은 다음과 같습니다
WER = (삭제 + 치환 + 삽입) / (삭제 + 치환 + 일치) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083
위의 예시에서처럼 모든 오류가 똑같이 큰 영향을 미치는 것은 아닙니다.
WER 측정은 특정 오류가 얼마나 관련성이 있거나 중요한지를 알려주지 않기 때문에 오해의 소지가 있습니다. 예를 들어, 같은 단어의 다른 철자(movable/moveable)와 같은 단순한 오류는 독자가 오류로 인식하지 않는 경우가 많지만, 단어 대체(exemptions/essentials)는 더 큰 영향을 미칠 수 있습니다.
특히 정확도가 높은 음성 인식 시스템의 경우, 단어 오류율(WER)은 오해의 소지가 있으며 인간의 정확도 인식과 항상 일치하는 것은 아닙니다. 인간은 90%와 99% 사이의 정확도 차이를 구별하기 어려운 경우가 많습니다.
Interprefy는 자체 개발한 언어별 음성 인식 오류 측정 지표인 '인지 오류율(Perceived WER)'을 사용합니다. 이 지표는 모든 오류가 아닌, 사람이 음성을 이해하는 데 영향을 미치는 오류만 집계합니다. 인지 오류율은 일반적으로 음성 인식 오류율(WER)보다 낮으며, 경우에 따라 최대 50%까지 차이가 날 수 있습니다. 5~8%의 인지 WER은 사용자가 거의 알아차리지 못할 정도입니다.
아래 차트는 정확도가 높은 자동 음성 인식 시스템에서 WER과 인지된 WER의 차이를 보여줍니다. 동일한 언어의 서로 다른 데이터 세트(S0-S4)에 대한 성능 차이에 주목하십시오.
그래프에서 볼 수 있듯이, 사람이 인지하는 단어 오류율(WER)은 통계적 WER보다 훨씬 더 나은 경우가 많습니다.
아래 차트는 인지된 단어 오류율(Perceived WER)을 사용하여 특정 언어의 동일한 음성 데이터 세트를 처리하는 다양한 ASR 시스템 간의 정확도 차이를 보여줍니다.
"저희만의 독창적인 기술 솔루션과 고객에 대한 세심한 배려 덕분에 자동 자막 생성 정확도가 97%에 달합니다." - 알렉산더 다비도프, 인터프리피 AI 개발 총괄
이벤트 중에 매우 정확한 자동 자막을 생성하려면 고려해야 할 세 가지 핵심 사항이 있습니다
최고 수준의 솔루션을 활용하세요
모든 언어를 지원하는 기성 엔진을 선택하는 대신, 이벤트에서 사용되는 각 언어에 가장 적합한 엔진을 활용하는 공급업체를 선택하십시오.
최고의 엔진이 제공할 수 있는 기능이 무엇인지 궁금하신가요? 저희 기사 " 실시간 자막의 미래: Interprefy AI가 접근성을 향상시키는 방법"을
엔진을 최적화하세요
브랜드 이름, 특이한 이름, 약어 등이 적절하게 포착되도록 AI에 맞춤형 사전을 추가할 수 있는 업체를 선택하십시오.
고품질 오디오 입력을 보장하십시오
입력 음질이 좋지 않으면 ASR 시스템이 고품질 출력을 낼 수 없습니다. 음성이 크고 또렷하게 녹음되는지 확인하십시오.