비주얼 더빙(Visual Dubbing) – AI가 배우의 입술을 바꾸는 기술

촬영카메라를 다루는 로보트

비주얼 더빙이란?

영화를 다른 언어로 더빙할 때, 가장 어색하게 느껴지는 부분은 대사보다 입 모양이다. 대사가 완벽히 번역되어도, 배우의 입술이 전혀 다른 소리를 내고 있다면 몰입은 쉽지 않다.

이 문제를 해결하기 위해 등장한 기술이 바로 ‘비주얼 더빙(Visual Dubbing)’이다. 단순히 목소리를 바꾸는 것이 아니라, 배우의 얼굴 움직임까지 인공지능으로 재구성해 새로운 언어에 맞춰 영상 전체를 동기화하는 방식이다.

음성과 영상의 ‘디지털 재조합’

기존 더빙은 오디오 트랙만 교체하는 방식이었다. 하지만 비주얼 더빙에서는 AI가 음성과 영상 데이터를 동시에 분석한다. 먼저 번역된 대사의 발음과 타이밍, 억양을 학습한 뒤, 딥러닝 기반의 딥페이크(Deepfake) 영상 합성 기술을 이용해 배우의 입술, 턱, 볼, 심지어 눈의 미세한 근육 움직임까지 새로 생성한다.

이 과정에서 핵심이 되는 것은 립싱크 알고리즘(Lip-sync AI)이다. 음성 신호의 주파수와 길이를 분석해 각 음절에 대응하는 입 모양을 자동으로 매칭하고, 기존 영상의 얼굴 표정 데이터를 이용해 자연스러운 표정 흐름을 유지한다. 결과적으로 관객은 언어가 바뀌었음에도 불구하고 원래 촬영된 것처럼 보이는 장면을 보게 된다.

첫 번째 시도: 영화 《Watch the Skies》

비주얼 더빙은 2022년 제작된 스웨덴 SF 영화 《Watch the Skies》의 2025년판에서 처음으로 상용 수준의 테스트가 이루어졌다. 이 프로젝트는 런던의 스타트업 Flawless AI가 개발한 TrueSync 플랫폼을 이용했다. TrueSync는 배우의 얼굴을 프레임 단위로 분석해 다른 언어의 대사에 맞춰 디지털 입 모양을 실시간으로 재구성한다.

이 기술 덕분에 영화는 일부 국가에서 자막 없이 영어로 재배급될 수 있었다. 관객은 영어 대사를 들으면서, 스웨덴 배우들의 입 모양이 정확히 영어 발음과 일치하는 듯한 영상을 보았다. 이는 단순한 번역이 아니라, 언어적 경계를 넘어선 시각적 변환이었다.

가능성과 논란

비주얼 더빙의 장점은 분명하다. 하나의 영화를 여러 언어로 더빙하더라도 배우의 표정 연기와 감정이 그대로 유지되므로 자막이나 어색한 입 모양에 방해받지 않고 작품에 몰입할 수 있다. 이는 글로벌 배급이 늘어나는 OTT 시대에 매우 큰 이점이다. 관객은 원어 연기를 유지한 채 모국어로 감상할 수 있고, 제작사는 여러 언어 버전을 동시에 출시할 수 있다.

하지만 문제도 적지 않다. AI가 배우의 입술과 표정을 재현하면서, ‘누가 진짜 연기자인가’, ‘감정 표현의 소유권은 누구에게 있는가’라는 윤리적 문제가 등장했다. 또한 더빙 전문 성우들의 일자리가 줄어들 수 있다는 우려도 크다. 현재 헐리우드 배우 조합(SAG-AFTRA)과 유럽 더빙 연합체들은 AI 기반 영상합성의 사용 범위를 제한하는 가이드라인을 논의 중이다.

앞으로의 전망

비주얼 더빙은 아직 완전한 상용 단계에 이르지 않았지만, AI 비디오 편집, 립싱크 합성, 다중 언어 음성 합성 등 여러 기술의 교차점에 있다. 플로리스(Flawless) 외에도 넷플릭스, 딥브레인AI, 마이크로소프트 등 여러 기업이 관련 연구를 진행 중이다. 특히 실시간 영상 통역이나 국제 화상회의 등에서도 입 모양과 음성이 일치하는 자연스러운 커뮤니케이션 도구로 활용될 가능성이 크다.

 

 

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

위로 스크롤