학습 영역 | 해석

오디오 엔지니어 리처드 쉴러가 RSI의 오디오 압축에 대한 모든 것을 설명합니다

글: 도라 무르구 | 2022년 8월 16일

이 글을 저희 Interprefied 팟캐스트에 업로드했으며, 이제 여러분이 선호하는 팟캐스트 플랫폼에서 청취하실 수 있습니다.

아래에서 팟캐스트를 듣고 다운로드하세요:

 

 

다음에서 다운로드 가능합니다:

 

음질은 우리 삶과 하루 종일 함께하는 중요한 요소입니다. 아침에 라디오를 듣는 것부터 밤늦게 새 드라마를 몰아보는 것까지, 좋은 음질은 우리가 흔히 당연하게 여기는 것입니다. 나쁜 음질은 비교적 쉽게 알아챌 수 있지만, 좋은 음질은 사실 상당히 복잡한 문제입니다. 10년 넘게 이어져 온 LP 애호가들과 오디오 마니아들 사이의 논쟁, 즉 CD와 LP 중 어느 포맷이 더 뛰어난 음질을 제공하는지에 대한 논쟁이 좋은 예입니다.

원격 통역에서는 고품질 오디오를 주고받는 것이 매우 중요합니다. 이는 정보의 정확한 전달과 쾌적한 청취 경험을 보장하고, 동시에 청력을 보호하기 위함입니다.

오디오를 최우선으로 생각하는 플랫폼으로서, 우리는 화자의 행동에 영향을 미치는 있으며, 뛰어난 음질을 보장하는 혁신적인 오디오 솔루션을 구현하고 있습니다. 자주 논의되는 주제인 사운드 압축은 올바르게 적용될 경우 사운드 경험에 긍정적인 영향을 미칠 수 있습니다.

Interprefy의 오디오 엔지니어이자 수석 제품 관리자인 Richard Schiller를 만나 사운드 압축이란 무엇인지, RSI에서 어떻게 사용되는지, 그리고 음질에 ​​영향을 미치는 요소는 무엇인지 알아보았습니다.

안녕하세요, 리처드 씨. 당신의 경력과 현재 하시는 일에 대해 간략하게 소개해 주시겠어요?.

안녕하세요, 도라님. 다시 만나 뵙게 되어 반갑습니다. 저는 인터프리파이에서 선임 제품 관리자로 일하고 있습니다. 제품의 방향 설정과 세부적인 사항들을 담당하고 있죠. 저는 음향 엔지니어 자격증도 가지고 있습니다. 원래는 세계 최대 규모의 방송 기관인 BBC 월드 서비스에서 근무했었어요. 그런 경험 덕분에 음질의 명확성과 일관성에 늘 신경 쓰게 되었죠.

대규모 라디오 방송을 성공시키는 데 있어 핵심은 일관성이었고, 명확성은 우리가 전달하는 콘텐츠의 본질이었습니다. 저는 음악 녹음과 텔레비전 분야에서도 일해왔습니다. 프로듀서, 감독, 진행자, 시나리오 작가 등 해당 분야의 거의 모든 직책을 경험했습니다.

그렇다면 당신은 바로 그 중요한 질문, 즉 "압축이란 무엇인가?"에 답할 적임자입니다

음향에서 '압축'이라고 불리는 것은 크게 두 가지 다른 개념이 있습니다. 첫 번째는 동적 압축으로, 소리의 크기를 자동으로 조절하는 회로 또는 요즘에는 알고리즘을 사용하는 방식입니다. 이는 주로 다이내믹 레인지, 즉 가장 작은 소리와 가장 큰 소리 사이의 범위를 줄이는 데 사용됩니다. 두 번째는 비트 전송률 감소로, 저장하거나 전송해야 하는 오디오 데이터의 양을 줄이는 시스템입니다.

동적 압축 및 비트 전송률 감소는 잘 사용될 수도 있고, 잘못 사용될 수도 있습니다.

그렇다면 그들은 좋은 사람들일까요, 나쁜 사람들일까요?

둘 다 아닙니다. 거의 모든 것과 마찬가지로 이 두 기술도 잘 사용될 수도 있고 잘못 사용될 수도 있습니다. 잘못 사용한다면 좋지 않겠지만, 두 압축 방식 모두 본질적으로 나쁘다고 할 만한 이유는 없습니다.

다이내믹 컴프레션은 본질적으로 소리의 크기를 감지하여 소리가 너무 커지면 볼륨을 낮추고, 소리가 작아지면 다시 높이는 장치와 같습니다. 이를 통해 사람들은 크고 작은 소리를 균등하게 들을 수 있습니다. 마치 사람이 볼륨 조절 장치를 이용해 소리를 줄이는 것과 같은 원리입니다. 다이내믹 컴프레션은 말 그대로 소리를 줄이는 기술이며, 이름에서도 알 수 있듯이 소리를 줄이는 기술입니다.

그렇다면 압축에 대한 우려는 어디에서 비롯된 것일까요?

다이내믹 컴프레션은 소리를 작게 만드는데, 이는 종종 바람직하지 않을 수 있으므로 컴프레션 후 볼륨 조절 기능을 통해 다시 크게 만듭니다. 컴프레션은 신호 레벨을 균일하게 만들기 때문에 두 가지 방향으로 설정할 수 있습니다. 소리를 작게 만들어 듣기 편하게 할 수도 있고, 크게 만들어 주의를 끌 수도 있습니다. 여기서 잠시 본론에서 벗어나 중요한 점을 말씀드리자면, 소리가 너무 크다고 생각되면 줄이세요. 항상 청취 레벨을 스스로 조절해야 합니다.

단순히 레벨만 잘못된 것이 아니라, 컴프레서의 시간 상수도 중요합니다. 마지막으로 비율도 있는데, 이 비율이 너무 강하게 설정되는 경우가 많으며, 이것이 음성 압축으로 인해 알아듣기 어려워지는 가장 흔한 원인입니다.

가장 성가신 문제 중 하나는 구형 소비자용 장비와 일부 PC에서 사용되는 알고리즘에 내장된, 제대로 설계되지 않은 자동 게인 제어(AGC) 회로입니다. AGC와 노이즈 게이트는 노트북이나 다른 기기에서 기본적으로 켜져 있는 경우가 많습니다. 따라서 음량 변화는 우리 삶 곳곳에 존재합니다. 압축 설정이 잘못되면 파열음과 마찰음이 잘려나가 말소리를 알아듣기 어려워집니다. 특히 문장의 첫 단어에서 단어 시작 부분의 강한 자음이 둔탁하게 들리는 것이 그 예입니다. AGC 설정이 잘못되었다는 또 다른 징후는 누군가가 큰 소리로 말한 후 작은 소리로 말할 때, 작은 소리의 끝부분은 들리지만 시작 부분은 잘 들리지 않는 경우입니다.

이제 RSI에 대해 이야기해 보겠습니다. 음악 음질은 음성 음질과 어떻게 다를까요?

공통점이 많지만, 각각의 경우에 있어 무엇이 좋은 것인지 신중하게 이해해야 합니다. 사람들은 음향 처리가 잘 된 스튜디오에서 녹음한 클래식 음악의 음향 특성을 가져와 음성 녹음에 적용하기도 합니다. 어떤 면에서는 음성 녹음이 오케스트라 녹음보다 쉽고, 어떤 면에서는 더 어렵습니다.

예를 들어, 음성 녹음에서는 대역폭의 상위 영역이 악기 녹음만큼 중요하지 않습니다. 타악기 녹음에서는 대역폭이 가장 중요하지만, 음성 녹음에서는 부드러움이 가장 중요하다는 주장이 있습니다. 녹음 엔지니어가 사람의 목소리 녹음에 사용하는 마이크와 스네어 드럼이나 심벌즈 녹음에 사용하는 마이크가 다른 이유도 바로 이 때문입니다.

18kHz에서 20kHz 사이의 주파수 대역이 음성에 필수적이라고 반박하는 사람들이 있을 거라는 걸 알고 있지만, 사실은 그렇지 않습니다. 일반적으로 녹음 엔지니어들이 음성 녹음에 사용하는 최고급 마이크조차도 해당 주파수 대역에서는 성능이 좋지 않습니다. 그럴 필요가 없기 때문입니다.

이것은 단순히 우연이 아닙니다. 예를 들어, 숲속에서 몇 미터 떨어진 사람이 입을 당신 귀에 대고 말하는 것을 듣고 있다고 가정해 봅시다. (그리고 당신이 20kHz 대역의 소리를 들을 수 있을 만큼 어리다고 가정해 보세요.) 이때 당신이 얼굴을 돌려 말하는 사람을 보고, 그 사람이 옆으로 돌아선다면 20kHz 대역은 더 이상 들리지 않거나, 적어도 크게 약해질 것입니다. 이러한 초고주파수는 자연계에서 잘 보존되지 않기 때문에 우리에게 중요하지 않습니다. 만약 이 주파수 대역이 중요하다면 생명 유지가 불가능할 것이기 때문입니다.

명확성을 얻는다는 것은 사람들이 생각하는 것보다 훨씬 더 미묘한 문제입니다.

그렇다면 동시통역을 위해서는 최대 15,000Hz의 주파수에 접근할 수 있어야 하는 것 아닌가요?

여기서 어려운 점은 제가 마치 차선책도 괜찮다고 말하는 것처럼 들릴 수 있다는 것입니다. 하지만 사실 명확성을 확보하는 것은 사람들이 생각하는 것보다 훨씬 더 미묘한 문제입니다. 동일한 조건에서 비교했을 때, 음성 전달에는 15kHz 대역폭이 10kHz보다 좋고, 10kHz는 6kHz보다 좋으며, 이런 식으로 계속됩니다.

하지만 10kHz까지 평탄한(매끄러운) 응답이 15kHz까지 울퉁불퉁한 응답보다 이해에 더 유리할 수 있습니다. 마찬가지로, 다이내믹 레인지가 심하게 압축되지 않은 6kHz 대역폭의 음성이 심하게 압축된 15kHz 대역폭의 음성보다 이해하기 쉬울 수 있습니다.

이 모든 것은 주파수 응답을 유지하는 것이 물론 중요하지만 다른 요소들도 중요하며, 어느 하나만으로는 완벽을 만들 수 없다는 것을 의미합니다. 특히 주파수 응답과 관련된 문제는 음역대가 높아질수록 그 효과가 크게 감소한다는 점입니다. 따라서 우리가 고음역에 집착하는 경향은 고음역이 가치 사슬에서 차지하는 실제 위치를 반영하는 것이라기보다는, 우리가 쉽게 이해하고 설명할 수 있는 부분이기 때문입니다.

15kHz 이상의 대역폭은 우수한 성능을 발휘하는 전체 프로그램의 일부로 필요하지만, 문자 그대로 좋은 이해에 필수적인 요소는 아니며, 그것을 보장하는 것도 아닙니다.

RSI 플랫폼이 다이내믹 레인지 압축을 적용하여 음질이 저하된다는 주장이 있습니다. Interprefy도 마찬가지인가요?

아니요. 일반적인 운영 환경에서는 동적 범위 압축이 필요하지 않습니다. 그렇다고 해서 전혀 사용하지 않는다는 것은 아닙니다. 현재 연구실에서 압축 기능을 적용한 매우 흥미로운 기술을 개발 중입니다. 이 기술은 청중, 참가자, 통역사 등 청취자를 위해 설계되었으며, 각자 원하면 켜고 끌 수 있습니다. 

탁월함은 기술을 적절한 곳에 적절한 방식으로 적용하는 데서 비롯됩니다. 이는 미세 조정, 각 단계에서 완벽을 추구하는 것, 그리고 전체 시스템에 걸쳐 작지만 점진적인 변화를 적용하는 것을 의미합니다.

잠시 참석자들에 대해 이야기해 볼까요? 연설자가 정말 형편없이 말하는 경험을 누구나 한 번쯤은 해봤을 테니까요.

네, 맞아요. 도라, 전적으로 동감합니다. 저도 그런 문제를 없애는 데 정말 열정적이에요. 가장 큰 문제는 많은 연사들이 사용하는 장비가 너무 형편없고, 음질을 보장하기 위해 무엇을 해야 하는지 제대로 이해하지 못한다는 점이에요.

그 문제를 어떻게 해결할까요?

거의 모든 문제와 마찬가지로 해결책은 다양한 요소를 복합적으로 고려하는 데 있습니다. 발표자들이 더 나은 마이크를 사용하고, 마이크 사용법에 대한 지식을 높이며, 배경 소음과 에코에 더 주의를 기울이도록 해야 합니다. 이 부분에 대한 교육이 많이 필요하며, 저희는 발표자 안내 영상 캠페인을 .

우리는 여기서도 기술을 활용할 수 있습니다. 앞으로 이 주제에 대해 다시 이야기 나누면서 기술이 사람들이 자신의 능력을 향상시키고, 스스로 해결할 수 없는 문제를 보완하는 데 어떻게 도움이 될 수 있는지 논의해 볼 수 있을 것입니다.

가장 큰 차이점은 제대로 구성된 우수한 장비와 잘못 구성된 불량 장비 사이에 있습니다.

그렇다면 하드웨어(예: 하드웨어 콘솔)를 통해 수신되는 소리와 Interprefy를 통해 수신되는 소리를 비교했을 때, 발표자가 적절한 장비를 사용한다면 큰 차이가 없을까요?

네, 도라 씨 말씀이 맞습니다. 여기서 가장 큰 차이점은 로컬 근무와 원격 근무의 차이가 아니라, 제대로 구성된 우수한 장비와 제대로 구성되지 않은 저품질 장비의 차이입니다. 하드웨어 기반의 로컬 시스템 자체의 음질에는 본질적인 차이가 없습니다. RSI 시스템을 사용하는 많은 회의 및 이벤트 참가자들은 현장에서 사용하는 마이크보다 더 좋은 마이크를 가지고 있습니다. 물론 일부 참가자는 더 낮은 사양의 장비를 사용하면서도 참여하기를 원합니다. 다른 모든 비즈니스와 마찬가지로, 적절한 관리가 중요합니다.

그렇다면 RSI와 하드웨어 기반 솔루션의 차이점은 무엇일까요?

RSI가 제공하는 것은 선택입니다. 유연성을 통한 선택이죠. 제 아내가 처음 임신했을 때, 그녀의 고용주(남성)는 그녀에게 더 이상 일자리가 없다고 일방적으로 통보했습니다. 다행히 지금은 그런 행위가 불법입니다. 저는 RSI 덕분에 여행을 원하지 않거나 할 수 없는 통역사들이 더 유연하게 일할 수 있게 되었다고 생각합니다. 제 아내가 겪었던 부당한 대우가 마음에 들지 않았고, 고용주가 모든 사람의 건강 상태나 생활 방식에 관계없이 일할 수 있도록 최선을 다해야 한다고 생각하는 것처럼, 시스템 공급자인 우리 또한 그러한 유연성을 제공해야 할 책임이 있다고 생각합니다.

RSI 솔루션은 조직에도 유연하게 적용할 수 있습니다. 어디에서든 회의나 미팅을 개최할 수 있고, 설정을 즉시 변경하거나 수정할 수 있습니다. 최근에는 국제 우주 정거장에 있는 우주 비행사가 전 세계와 소통할 수 있도록 지원했습니다. 우주 비행사가 직접 참석해야 한다고 주장하는 것은 물론 터무니없는 일이었겠죠.

다시 압축 문제로 돌아가서, 압축을 완전히 없애라고 요구하는 사람들에게 뭐라고 말씀하시겠습니까?

압축, 즉 어떤 형태의 압축이든 완전히 없애는 것이 만능 해결책은 아닙니다. 다시 한번 강조하지만, 만능 해결책은 없습니다. 전체적인 해결책의 일부는 잘못된 압축 사용, 즉 잘못된 동적 압축과 낮은 비트 전송률 압축을 없애는 것입니다. 이를 위해서는 업계에 해당 기술을 제대로 이해하고 세부적으로 파악하는 엔지니어들이 필요합니다.

압축 함수를 연속해서 여러 개 사용하는 것은 어떤가요? 무조건 안 좋은 건가요?

이것은 계단식 압축이라고 합니다. 아니요, 동적 압축이나 비트율 압축 모두에 자동으로 나쁜 것은 아닙니다.

계단식 압축에는 특정한 문제점이 있으며, 해결책을 마련하려면 상당한 노력이 필요합니다. 계단식 압축은 구현하는 데 많은 노력이 요구되기 때문에 우려하는 것은 당연하지만, 숙련된 개발자라면 충분히 해낼 수 있습니다. 그것도 아주 훌륭하게 말이죠. 예를 들어 다이내믹 압축의 경우, 역사상 가장 위대한 오디오 혁신 두 가지가 계단식 다이내믹 압축을 활용하여 탄생했습니다.

어떤 사람들은 압박감과 같은 요소를 평가하는 데 특히 뛰어난 능력을 보이는 것 같은데, 그런 사람들의 도움을 받는 것이 좋을까요?

오디오를 평가하는 유일한 방법은 블라인드 테스트입니다. 이상적으로는 이중 블라인드 테스트가 좋습니다. 오디오 문제를 잘 듣는다고 말하는 사람에게는 블라인드 테스트를 받았는지 물어보세요. 블라인드 테스트란 어떤 것이 신호이고 어떤 것이 음성인지 모르는 상태에서, 평가와 무관한 사람이 진행하는 테스트를 말합니다. 모든 테스트에는 다양한 청취자가 참여해야 합니다.

많은 사람들, 아마도 대부분의 사람들은 자신이 뛰어난 청력을 가지고 있다고 생각하지만, 실제로 그런 사람은 20명 중 1명 정도에 불과합니다. 마치 우리 모두가 자신이 운전을 아주 잘한다고 생각하는 것과 같습니다.

좋은 소리는 많은 주의를 기울이고 전체적인 관점에서 작업할 때 얻을 수 있는 것입니다.

음질과 음질을 얻는 방법에 대해 매우 확고한 의견을 가진 사람들이 있는 것 같습니다. 당신은 그들에게 어떻게 답하시겠습니까?

'반드시 해야 하는 것'과 '절대 해서는 안 되는 것'으로 이분법적으로 말하는 사람들은, 제 경험상, 틀렸습니다. 저는 압축이나 다른 오디오 도구들이 부당하게 나쁜 평판을 얻는 것을 좋아하지 않습니다. 제가 특별히 압축을 좋아하거나 옹호하는 것은 아니지만, 좋은 소리는 많은 주의를 기울이고 전체적인 관점에서 작업할 때 얻을 수 있는 것이기 때문입니다. 진정한 완벽주의자는 이분법적이지 않고, 모든 도구를 활용하며, 단순화된 결과에 연연하지 않습니다.

모든 사운드 프로세싱은 잘못될 수도 있고 잘될 수도 있습니다. 잘된다는 것은 적절한 설정을 사용하고 필요한 곳에 적용하는 것을 의미합니다. 다이내믹 컴프레션은 잘못 적용하면 끔찍한 결과를 초래할 수 있지만, 그렇다고 해서 무조건 잘못된 것은 아닙니다. 올바르게 적용하면 엄청난 효과를 발휘합니다.