« Back

[Tech] 다중화자인식 또다른 접근법 - 칵테일 파티 효과

April 18, 2018 | 642

 

안녕하세요!

오늘은 다중화자인식 구별에 대한 해결책을 소개하려고 합니다.

 

다들 음성인식에 대해서 들어보신 적 있으신가요? 4차산업 혁명이 도래된 이후로, 보안 분야에서 본인 인증 수단으로 공인인증서를 대체할 수 있는 '음성인식' 기술이 떠오르게 되었죠.

음성인식란?

음성인식이란 말하는 내용(단어)를 인식하는 것으로 정의할 수 있습니다. TTS (Text to Speech), STT(Sppech To Text) 기술을 이용하여 구현할 수 있는데요.

음성인식 시스템 구성도를 살펴보면, 크게 음성인식과 화자인식으로 나뉩니다.

그럼 둘의 차이점은 무엇일까요?

음성인식 VS 화자인식

음성인식은 위에서 설명한 것과 같이 말하는 내용(단어)를 인식하는 것 이며, 화자인식은 말하는 사람을 인식(인증)하는 것입니다.

음성인식을 구현하기 위해선 화자인식이 필요한 것으로 포괄적인 의미를 담고 있지요.

 

국내외 많은 기업들이 음성인식 및 화자인식을 구현하는데 성공하였습니다. 하지만, 여러 사람이 말하는 상황에서 각 화자별 음성을 인식하는 것 즉, 다중화자인식을 성공시키는 데에는 많은 어려움이 있었습니다. 

그러나 .... 이 어려움을 해결한 기업이 있었으니... 바로 '구글' 입니다.

 

구글은 '칵테일 파티 효과'를 분석하여 새로운 접근 방식으로 해결책을 제시하였습니다. 지금부터 차근차근 한번 살펴보겠습니다.

칵테일 파티 효과란?

칵테일 파티 효과란 파티의 참석자들이 시끄러운 주변 소음이 있는 방에 있음에도 불구하고 대화자와의 이야기를 선택적으로 집중하여 잘 받아들이는 현상에서 유래한 말이라고 합니다.

이와 같이 주변 환경에 개의치 않고 자신에게 의미 있는 정보만을 선택적으로 받아들이는 것을 '선택적 지각' 또는 '선택적 주의'라고 하는데, 이런 선택적 지각이나 주의가 나타나는 심리적 현상을 일컫는 말이죠.

 

구글이 말하는 사람의 얼굴을 인식하고 특정 목소리를 추출하는 심층 학습 인공지능 기술을 12일 공개했다네요! 구글에서 공개한 참고 영상을 링크로 첨부합니다.

 

영상에는 계속 이야기하는 코미디언 두 명이 나오는데, 이 두명의 목소리를 거의 완벽하게 분리해 냅니다.

구현 방법은?

그럼 과연 구글은 어떻게 구현했을까요?

구글은 10만여개의 고품질 유튜브 영상을 인공지능으로 훈련시켰습니다. 영상에서의 등장인물 얼굴, 입모양, 목소리를 인식하게 훈련시킨 후, 다른 배경음을 추가해 인위적으로 칵테일 파티를 만들어 이를 구분하는 훈련을 거듭했습니다. 그 결과 입모양 등의 시각 신호와 목소리 등의 청각 신호를 분리하고 목소리와 음성이 일치하는 2천시간의 비디오 클립을 만들었다네요. 대단합니다!

 

 

[출처: Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation.pdf]

 

사람의 입모양은 목소리와 밀접한 관련이 있고, 어느 부분에서 말하는지 판단하는데 중요한 기준이 됩니다. 소리만 사용하는 것보다 훨씬 정확하게 특정 음성을 분리해 낼 수 있습니다. 

이 기술이 상용화되면 영상 통화, 보청기 등에 활용될 수 있고 여러 사람이 말하는 다양한 상황에서 유용하게 사용할 수 있을 것 같습니다. 

IT 기술은 어디까지 발전하고, 어디까지 생활을 편리하게 해줄 수 있을까요 ? 점점 기대가 됩니다!



Comments