Zoom과 Teams 모두 회의 참석자가 활성화할 수 있는 매력적인 기능을 가지고 있습니다 폐쇄 캡션. 이 도구는 사용자가 말해지는 내용을 실시간 전사로 자동 생성하여 세션을 따라가는 데 유용한 시각적 도움을 제공합니다.
Teams와 Zoom 모두 자동 음성 인식 알고리즘을 사용하여 실시간으로 음성을 전사합니다. 이는 완전히 자동화되어 있으며 회의 주최자의 준비가 거의 필요하지 않습니다.
Zoom Zoom 회의와 웨비나에 폐쇄 캡션을 추가하는 두 가지 방법을 제공합니다. 회의에서는 호스트가 통합된 제3자 폐쇄 캡션 제공자를 사용하여 회의 참가자에게 수동 캡션을 할당할 수 있습니다. Zoom은 또한 추가 작업 없이 켜고 끌 수 있는 자동 캡션 기능을 제공합니다.
Zoom'의 자동 폐쇄 캡션은 약 80% 정확도.
사용자는 Microsoft Teams 회의 중에 실시간 캡션을 활성화할 수 있으며, 이는 비디오 피드 바로 아래에 표시됩니다. 연구에 따르면 이러한 캡션은 정확도 85%-90%.
두 플랫폼 모두 충분한 캡션 품질을 제공하여 발언 내용을 이해하는 데 도움을 줍니다. 그러나 대부분의 자동 음성 인식 시스템은 화자가 흔하지 않은 단어나 구문을 사용할 때 실패합니다. 예를 들어, 독특한 브랜드명이나 대체 철자를 가진 덜 알려진 이름 등이 있습니다.
AI 기반 음성-텍스트 엔진은 본질적으로 예측형입니다. 용어가 표준 사전에 없고 비공식 대화에서 자주 사용되지 않거나 전혀 사용되지 않을 경우, 엔진은 세션에서 해당 용어를 예측하지 못합니다.
보다 고도화된 AI 기반 캡션 시스템은, 예를 들어 Interprefy Captions, 중요한 및 일반적이지 않은 단어와 구문을 포함하도록 맞춤 설정할 수 있어, 일반 엔진이 간과할 수 있습니다.
이것은 세션에 중요한 키워드를 포함하도록 시스템을 맞춤 설정함으로써 달성됩니다.
이러한 용어를 사전에 시스템에 입력하면 시스템이 해당 용어의 존재를 인식하고 감지할 수 있으며, 세션 중에 해당 용어가 나타날 때 정확히 전사합니다.
다음은 음성-텍스트 변환 시스템이 자주 놓치는 용어의 예시입니다:
바로 엔진을 테스트해 보겠습니다. Teams, Zoom 및 Interprefy에서 동일한 문장에 대한 자동 캡션을 사용하여 세 가지 방법을 나란히 비교합니다.
브라보카도라는 회사를 상상해 보십시오. "Bravocado." 브라보카도는 전사 타운홀 회의를 개최하여 새로운 CEO Aleks Ritchie를 소개하고 최신 제품인 FRT 420을 출시할 예정입니다.
다음은 MS Teams, Zoom, Interprefy의 개회사 전사본입니다.
|
원본 스크립트 안녕하세요, 브라보카도 타운 홀에 오신 것을 환영합니다. 잠시 후, 저희는 새로운 CEO Aleks Richie를 만나게 될 것이며, 또한 FRT 420에 대한 향후 제품 출시 소식을 알려드릴 예정입니다. |
다음은 이벤트와 관련이 있지만 일반적으로 AI 엔진이 식별하지 못하는 중요한 용어입니다:
이제 정확히 동일한 발화 문장을 가진 회의 중에 각 플랫폼에 표시되는 캡션을 살펴보겠습니다.
Microsoft Teams가 우리의 첫 번째 목적지가 될 것입니다. 위의 동일한 문장은 Microsoft Teams 회의에 참여하면서 크게 그리고 명확하게 말했으며 자동 캡션 옵션이 켜진 상태였습니다.
결과는 다음과 같습니다:
보시다시피, Microsoft'의 엔진은 이해를 얻기에 충분한 품질을 제공했지만 세 가지 중요한 키워드를 놓쳤습니다.
| 원본 용어 | Teams 출력 | |
| 브라보카도 | → | 브라바도 |
| Aleks Richie | → | Alex Ritchie |
| FRT-420 | → | FT-420 |
이제' Zoom'의 캡션 기능을 살펴보겠습니다. 우리는 동일한 절차를 따라 Zoom 회의에 참여하고, Zoom 캡션을 켜며, 말을 명확하고 크게 했습니다.
결과는 다음과 같습니다:
Zoom'의 결과는 Teams'와 약간 다르게 나타났습니다. 구두점과 문장 구조가 약간 부정확하며, Zoom은 또한 일부 핵심 용어를 잘못 인식했습니다.
| 원본 용어 | Zoom 출력 | |
| 브라보카도 | → | bravoado |
| Aleks Richie | → | Alex. Ritchie |
| FRT-420 | → | Frt. 420 |
Zoom과 Teams가 일반적인 학습 데이터를 기반으로 자동으로 원시 출력을 제공하는 반면, Interprefy는 음성-텍스트 엔진을 최적화하여 한 단계 더 나아갑니다. 이는 세션에 고유하고 매우 관련성 높은 핵심 용어를 시스템에 적용함으로써 달성됩니다.
결과는 다음과 같습니다:
보시다시피, 엔진이 최적화된 후 Interprefy'의 캡션 시스템이 세 가지 핵심 용어를 모두 정확하게 포착했습니다.
표준 AI 엔진은 말해지는 내용의 전반적인 이해에 도움이 되는 자막을 제공할 수 있습니다. 우리의 실험에서, 시스템이 특정 용어에 특별히 주의를 기울이도록 설계되지 않았다면, 모두 우리가 찾고 있던 세 가지 핵심 단어를 놓쳤음을 확인했습니다.
“충분히 좋음”이 만족한다면, Zoom 및 Teams 자막은 사용자가 기본적인 이해를 돕는 도구를 제공하는 실용적인 옵션이 될 수 있습니다. 그러나 이벤트의 맥락과 관련성에 따라, 핵심 구문을 거의 확실히 오탈자하게 만들 시스템을 도입하는 것은 위험한 선택이 될 수 있습니다.
Interprefy Captions와 같은 특화된 자막 시스템은 표준을 넘어 정확성을 향상시키는 데 도움을 줄 수 있습니다. 또한 가장 큰 장점은 이를 Zoom 웨비나, Teams 회의 또는 사용 중인 다른 모든 회의 플랫폼에 추가할 수 있어, 어디서든 자막 경험을 한 단계 끌어올릴 수 있다는 점입니다.