자막 기능을 활성화할 수 있도록 하는 유용한 기능을 제공합니다 . 이 기능은 발언 내용을 실시간으로 텍스트로 자동 변환하여 회의 내용을 시각적으로 쉽게 이해할 수 있도록 도와줍니다.
Teams와 Zoom 모두 자동 음성 인식 알고리즘을 사용하여 실시간으로 음성을 텍스트로 변환합니다. 이러한 기능은 완전히 자동화되어 있어 회의 주최자는 별도의 준비 작업 없이 바로 사용할 수 있습니다.
Zoom은 회의 및 웨비나에 자막을 추가하는 두 가지 방법을 제공합니다. 회의 호스트는 통합된 타사 자막 제공업체를 사용하여 회의 참가자에게 수동으로 자막을 지정할 수 있습니다. 또한 Zoom은 회의 호스트의 추가 작업 없이 켜고 끌 수 있는 자동 자막 기능을 제공합니다.
줌의 자동 자막 기능은 약 80%의 정확도를 .
Microsoft Teams 중에 실시간 자막을 활성화할 수 있으며 , 자막은 비디오 피드 바로 아래에 표시됩니다. 연구에 따르면 이러한 자막의 정확도는 85~90%에 .
두 플랫폼 모두 발신 내용을 이해하는 데 도움이 되는 충분한 자막 품질을 제공할 수 있습니다. 그러나 대부분의 자동 음성 인식 시스템은 화자가 흔하지 않은 단어나 구문을 사용할 때 제대로 작동하지 못합니다. 예를 들어, 유명한 브랜드 이름이나 덜 알려진 이름의 다른 철자 등이 그렇습니다.
AI 기반 음성-텍스트 변환 엔진은 본질적으로 예측 기능을 가지고 있습니다. 표준 사전에 없는 단어이거나 비공식 대화에서 자주 사용되지 않거나 전혀 사용되지 않는 단어의 경우, 엔진은 해당 단어를 예측하여 입력하지 않습니다.
Interprefy Captions 와 같은 더욱 발전된 AI 기반 자막 시스템은 일반적인 엔진이 간과하는 중요하고 흔하지 않은 단어와 구문을 포함하도록 맞춤 설정할 수 있습니다.
이는 사용자의 세션에 중요한 키워드를 시스템에 포함하도록 맞춤 설정함으로써 가능합니다.
이러한 용어들을 시스템에 미리 입력해 두면, 시스템은 해당 용어들의 존재를 인식하고 세션 중에 해당 용어가 나타날 때 이를 감지하여 정확하게 기록할 수 있습니다.
다음은 음성-텍스트 변환 시스템이 자주 놓치는 용어의 예입니다
바로 엔진 성능을 테스트해 보겠습니다. Teams, Zoom, Interprefy에서 동일한 문장에 대한 자동 자막 기능을 사용하여 세 가지 방법을 나란히 비교해 보겠습니다.
"브라보카도"라는 회사가 있다고 상상해 보세요. 브라보카도는 신임 CEO인 알렉스 리치를 소개하고 최신 제품인 FRT 420을 출시하기 위해 전 직원 대상 타운홀 미팅을 개최할 예정입니다.
다음은 MS Teams, Zoom 및 Interprefy에서 진행된 개회사의 녹취록입니다.
|
원본 대본 안녕하세요, 브라보카도 타운홀에 오신 것을 환영합니다. 잠시 후, 저희의 새로운 CEO인 알렉스 리치를 만나 뵙고, 곧 출시될 FRT 420 제품에 대해서도 알려드리겠습니다. |
다음은 해당 이벤트와 관련이 있지만 일반적으로 AI 엔진이 식별하지 않는 중요한 용어들입니다
이제 동일한 음성 문장을 사용하여 회의 중에 각 플랫폼에 표시되는 자막을 살펴보겠습니다.
마이크로소프트 팀즈가 우리의 첫 번째 선택지가 될 것입니다. 위의 내용은 마이크로소프트 팀즈 회의에 참여하면서 자동 자막 기능을 켠 상태에서 크고 명확하게 말한 것입니다.
결과는 다음과 같습니다
보시다시피 마이크로소프트의 검색 엔진은 내용을 파악하기에는 충분한 품질을 제공했지만, 세 가지 중요한 키워드를 놓쳤습니다.
| 원래 용어 | 팀 출력 | |
| 브라보카도 | → | 허세 |
| 알렉스 리치 | → | 알렉스 리치 |
| FRT-420 | → | FT-420 |
이제 Zoom의 자막 기능을 살펴보겠습니다. 앞서 설명한 것과 같은 절차로 Zoom 회의에 참여하고, Zoom 자막 기능을 켜고, 또렷하고 큰 소리로 말했습니다.
결과는 다음과 같습니다
Zoom의 결과는 Teams와 약간 달랐습니다. 구두점과 문장 구조가 약간 부정확했고, Zoom은 몇 가지 핵심 용어를 잘못 식별하기도 했습니다.
| 원래 용어 | 확대/축소 출력 | |
| 브라보카도 | → | 브라보아도 |
| 알렉스 리치 | → | 알렉스. 리치 |
| FRT-420 | → | 프르트. 420 |
Zoom과 Teams는 일반적인 학습 데이터를 기반으로 자동으로 원시 출력물을 제공하지만, Interprefy는 음성-텍스트 변환 엔진을 최적화하여 한 단계 더 나아갑니다. 이는 사용자의 세션과 매우 관련성이 높은 고유 키워드를 시스템에 추가하여 개선함으로써 가능합니다.
그 결과는 다음과 같습니다
보시다시피, 엔진 최적화 후 Interprefy의 자막 생성 시스템은 세 가지 핵심 용어를 모두 정확하게 포착했습니다.
일반적인 AI 엔진은 발화 내용을 대략적으로 파악하는 데 유용한 자막을 제공할 수 있습니다. 하지만 저희 실험에서는 특정 용어에 특별히 주의를 기울이도록 설계되지 않은 시스템은 모두 저희가 찾고자 했던 세 가지 주요 단어를 놓쳤다는 것을 보여주었습니다.
"충분히 괜찮은" 수준이면 충분하다면, Zoom이나 Teams의 자막 기능은 사용자들이 기본적인 내용을 이해하는 데 도움을 주는 유용한 도구가 될 수 있습니다. 하지만 행사의 맥락과 중요도를 고려할 때, 핵심적인 문구가 오타로 표시될 가능성이 매우 높은 시스템을 도입하는 것은 위험한 선택일 수 있습니다.
Interprefy Captions와 같은 전문 자막 시스템은 표준 수준을 뛰어넘는 정확도를 제공합니다. 더욱 좋은 점은 Zoom 웨비나, Teams 회의 또는 기타 모든 회의 플랫폼에 추가할 수 있어 어디서든 자막 활용 경험을 한 단계 업그레이드할 수 있다는 것입니다.