학습 영역 | Interprefy

AI 캡션 정확도 이해: 종합 가이드

작성자 Markus Aregger | 4월 13, 2023

폐쇄 자막은 프레젠테이션 및 라이브 이벤트 중 접근성, 참여도 및 정보 유지력을 향상시키는 효과적인 기술입니다. 이는 비디오 스트리밍 분야에서 영상 소비 습관이 변화함과 함께 최근 라이브 이벤트와 비즈니스 회의에서 AI 기반 자막 사용을 가속화했습니다.

하지만 자신의 회의나 이벤트를 위한 제공자를 선택할 때 가장 자주 묻는 질문은 자동 라이브 자막의 정확도는 얼마나 되는가 입니다

빠른 답변은, 이상적인 조건 하에서는 음성 언어의 자동 자막이 단어 오류율(Word Error Rate, WER) 기준으로 최대 98% 정확도를 달성할 수 있다는 것입니다.

그리고 예, there's 긴, 약간 더 복잡한 답변이 있습니다. 이 기사에서는 정확도가 어떻게 측정되는지, 어떤 요인이 정확도에 영향을 미치는지, 그리고 정확도를 새로운 수준으로 끌어올리는 방법에 대한 개요를 제공하고자 합니다.

이 문서에서

  1. 자동 캡션 작동 방식
  2. 좋은 캡션 품질은 무엇으로 간주됩니까?
  3. 정확도에 영향을 미치는 요인은 무엇입니까?
  4. 자동 캡션 정확도 측정
  5. 워드 오류율(WER) 이해
  6. 라이브 이벤트를 위한 매우 정밀한 폐쇄 캡션 제공

숫자를 살펴보기 전에, 한 걸음 물러서서 자동 캡션이 어떻게 작동하는지 살펴보겠습니다.

자동 캡션 작동 방식

자동 캡션

자동 자막은 연설과 동일한 언어로 실시간 화면에 텍스트를 표시하도록 음성을 변환합니다. ASR(자동 음성 인식)은 구어 문장의 전사본을 생성하는 데 사용되는 일종의 인공지능입니다.

이 기술은 흔히 "음성-텍스트 변환"이라고 불리며, 오디오의 단어를 자동으로 인식하고 음성을 텍스트로 전사하는 데 사용됩니다.

AI 번역 자막

AI 기반 번역 엔진은 다른 언어로 표시되는 캡션을 자동으로 번역합니다. 이는 기계 번역된 자막 또는 기계 번역된 캡션이라고도 합니다.

추천 기사

다음 이벤트에 실시간 캡션을 추가해야 하는 이유

기사 읽기 →

이 기사에서는 자동 캡션에 대해 다룹니다. AI 번역 캡션의 정확도에 대해 알고 싶다면 확인하십시오 이 기사.

좋은 캡션 품질은 무엇으로 간주됩니까?

연방통신위원회(FCC)는 2014년에 자막이 "우수"한지 여부를 판단하기 위한 필수 특성을 설정했습니다:

  • 정확도 -캡션은 가능한 한 말한 단어와 일치해야 합니다
  • 완전성 - 캡션은 방송 시작부터 끝까지 가능한 한 완전하게 진행됩니다.
  • 배치 - 캡션이 중요한 시각 콘텐츠를 가리지 않으며 읽기 쉽습니다.
  • 동기화 - 캡션이 오디오 트랙에 맞춰 정렬되며 읽기 쉬운 속도로 표시됩니다.

이미지: 웨비나 중 AI 번역 실시간 캡션

정확도에 영향을 미치는 요인은 무엇입니까?

선택된 AI 엔진

모든 음성-텍스트 엔진이 동일한 결과를 제공하는 것은 아닙니다. 일반적으로는 일부 엔진이 더 우수하지만, 특정 언어에서는 다른 엔진이 더 뛰어납니다. 또한 동일한 엔진을 사용하더라도 억양, 소음 수준, 주제 등에 따라 결과가 크게 달라질 수 있습니다.

이러한 이유로 Interprefy에서는 항상 최고의 엔진을 벤치마킹하여 가장 정확한 결과를 생성하는 엔진을 판단합니다. 그 결과 Interprefy는 지연 시간 및 비용과 같은 요소를 고려하여 특정 언어에 대한 최적의 솔루션을 사용자에게 제공할 수 있습니다. 이상적인 설정 하에서 여러 언어에 대해 최대 98%의 일관된 정확도를 확인했습니다.

오디오 입력 품질

자동 음성 인식 기술이 품질 높은 출력을 생성하려면 품질 좋은 입력이 필요합니다. It's simple: 오디오와 음성의 품질과 선명도가 높을수록 결과가 더 좋습니다.

  • 오디오 품질 - 마치 회의 통역, 내장 컴퓨터 마이크와 같은 불량 오디오 입력 하드웨어는 부정적인 영향을 미칠 수 있습니다.
  • 명확한 발화 및 발음 - 크게, 적절한 속도로, 그리고 명확하게 말하는 발표자들은, 보통 더 높은 정확도로 자막이 제공됩니다.
  • 배경 소음 - 마이크가 포착하는 심한 울림, 개 짖음, 혹은 종이 흔들림은 오디오 입력 품질을 크게 악화시킬 수 있습니다.
  • 억양 - 특이하거나 강한 억양을 가진 화자와 비원어민 화자는 많은 음성 인식 시스템에 문제를 일으킵니다.
  • 중첩된 발화 - 두 사람이 서로 말을 겹쳐 하면, 시스템이 올바른 화자를 정확히 인식하기가 매우 어려워집니다.
추천 기사

Zoom, Teams 및 Interprefy에서 제공되는 캡션의 정확도는 얼마나 뛰어납니까?

기사 읽기 →

자동 캡션 정확도를 측정하는 방법

ASR 정확도를 측정하는 가장 일반적인 지표는 단어 오류율(Word Error Rate, WER)이며, 이는 화자의 실제 전사와 ASR 출력 결과를 비교합니다.

예를 들어, 100단어 중 4단어가 틀렸다면 정확도는 96%가 됩니다.  

워드 오류율(WER) 이해

WER는 음성 인식 시스템이 생성한 전사 텍스트와 인간이 만든(실제 정답) 기준 전사 텍스트 사이의 최단 거리를 결정합니다.

WER는 단어 수준에서 올바르게 식별된 단어 시퀀스를 정렬한 후, 참조 텍스트와 전사 텍스트를 완전히 정렬하는 데 필요한 전체 수정(대체, 삭제 및 삽입) 수를 계산합니다. 이후 WER는 참조 텍스트의 전체 단어 수에 대한 필요한 조정 횟수의 비율로 산출됩니다. 낮은 WER는 일반적으로 보다 정확한 음성 인식 시스템을 의미합니다.

단어 오류율 예시: 정확도 91.7%

워드 오류율이 8.3%인 경우, 즉 정확도가 91.7%인 예를 들어 원본 연설 전사와 ASR이 만든 캡션 간의 차이를 비교해 보겠습니다:

원본 전사: ASR 캡션 출력:
예를 들어, 저는 정말로 매우 제한된 용도로만 핵심 요소를 활용하기를 원합니다. 저는 특정 사항을 더 자세히 설명하고 싶으며, 나는 개별 주 의회에 조약을 비준하도록 요청합니다. 이는 유럽 법원의 역할이 명확히 규정된 후에만 가능하며, 매우 부정적인 영향을 초래할 수 있습니다. 예를 들어, 저는 저도처럼 매우 제한된 사용만을 허용하는 예외 조항제공된 경우, 저는 특정 항목을 보다 상세히 설명하고 싶으며, 이는 우려됩니다 요청 개별 국가 의회가 유럽 법원의 역할이 명확해진 이후에만 협약을 비준하도록 하는 것은 심각한 부정적 영향을 초래할 수 있습니다.

 

이 예시에서는 캡션이 한 단어를 놓치고 네 단어를 대체했습니다:

  • 측정값: {'matches': 55, 'deletions': 1, 'insertions': 0, 'substitutions': 4}
  • 대체: [('too', 'do'), ('use', 'used'), ('exemptions', 'essentials'), ('the', 'i')]
  • 삭제: ['would']

따라서 단어 오류율의 계산은 다음과 같습니다:

WER = (deletions + substitutions + insertions) / (deletions + substitutions + matches) = (1 + 4 + 0) / (1 + 4 + 55) = 0.083

WER은 오류의 본질을 간과합니다

위 예시에서와 같이, 모든 오류가 동일하게 영향을 미치는 것은 아닙니다.

WER 측정은 특정 오류가 얼마나 관련성 있고 중요한지 알려주지 않기 때문에 오해를 일으킬 수 있습니다. 동일한 단어의 다른 철자(예: movable/moveable)와 같은 단순 오류는 독자에 의해 오류로 인식되지 않는 경우가 많지만, 대체(예: exemptions/essentials)는 더 큰 영향을 미칠 수 있습니다.

WER 수치는, 특히 고정밀 음성 인식 시스템의 경우, 오해를 일으킬 수 있으며 항상 인간의 정확성 인식과 일치하지 않을 수 있습니다. 인간에게는 정확도 수준이 90%와 99% 사이일 때 차이를 구별하기 어려운 경우가 많습니다.

인식된 단어 오류율

Interprefy는 Perceived WER이라고 하는 독점적이며 언어별 ASR 오류 측정 지표를 개발했습니다. 이 지표는 음성의 인간 이해에 영향을 미치는 오류만을 계산하며 모든 오류를 포함하지 않습니다. 인지된 오류는 일반적으로 WER보다 낮으며, 경우에 따라 최대 50%까지 차이가 날 수 있습니다. 인지된 WER이 5-8%인 경우, 사용자에게 거의 눈에 띄지 않습니다.

아래 차트는 고정밀 ASR 시스템의 WER와 인지된 WER 간의 차이를 보여줍니다. 동일 언어의 서로 다른 데이터 세트(S0‑S4)에서 성능 차이를 확인하십시오.

그래프에 표시된 바와 같이, 인간이 인식한 WER은 통계적 WER보다 훨씬 더 우수한 경우가 많습니다.

아래 차트는 특정 언어의 동일한 음성 데이터 세트에서 인지된 WER를 사용하여 작동하는 다양한 ASR 시스템 간의 정확도 차이를 보여줍니다.  

라이브 이벤트를 위한 매우 정밀한 폐쇄 캡션 제공

우리는 자동 캡션에서 고유한 기술 솔루션과 고객에 대한 세심한 배려 덕분에 97%의 정확도를 달성했습니다. Alexander Davydov, Interprefy AI 딜리버리 책임자

If you're 이벤트 중에 높은 정확도의 자동 캡션을 원하신다면, 고려해야 할 세 가지 핵심 사항이 있습니다: 

최고 수준의 솔루션을 활용하십시오

모든 언어를 포괄하는 기존 엔진을 선택하는 대신, 이벤트에서 각 언어에 가장 적합한 엔진을 활용하는 공급자를 선택하십시오.

최고 엔진이 제공할 수 있는 내용을 이해하고 싶으신가요? 기사 읽기: 실시간 캡션의 미래: Interprefy AI가 접근성을 강화하는 방법

엔진을 최적화하십시오

AI를 맞춤형 사전으로 보완하여 브랜드명, 특수명 및 약어를 적절히 포착할 수 있는 공급업체를 선택하십시오.

고품질 오디오 입력을 보장하십시오

오디오 입력이 부실한 경우, ASR 시스템은 출력 품질을 확보할 수 없습니다. 음성이 크게 명확하게 캡처될 수 있도록 확인하십시오.