핀테크 로드

NC AI, INTERSPEECH 2025서 ‘몬스터 사운드 생성·변환 AI’ 공개

방대한 게임 오디오 DB와 ‘Sound Palette’ 기반으로 게임·미디어 오디오 제작 혁신

이제는 말소리만으로 오크의 울부짖음을 구현한다.


국내 멀티모달AI의 선도기업 NC AI가 세계 최대 음성·언어 기술 학회인 INTERSPEECH 2025에서 혁신적인 몬스터 사운드 생성·변환 AI 기술을 전 세계에 공개한다. 인터스피치는 국제 음성커뮤니케이션협회(ISCA)가 주최하는 세계 최대 규모의 음성 및 언어 기술 학회로, 매년 전 세계 음성 연구자와 산업 관계자가 모여 최신 연구 결과와 혁신 기술을 공유하는 자리다. 

2025년 8월 17일부터 21일까지 네덜란드 로테르담에서 개최되는 이번 26회 학회는 “공정하고 포용적인 음성 과학과 기술(Fair and Inclusive Speech Science and Technology)”을 주제로, 개인과 언어 간의 다양한 음성 특성을 존중하고 이를 기반으로 한 맞춤형 음성 기술 발전에 초점을 맞춘다.

NC AI는 이번 학회에서 몬스터 사운드에 특화된 고품질 음색 변환 모델의 구조와 학습 기법을 상세히 다룬 논문과, 이를 웹 기반 실시간 변환 시스템으로 구현한 데모 구축 사례 논문 등 총 2편을 발표한다. 현장에서는 방문자가 마이크를 통해 말을 하거나 사운드를 업로드하면 즉각 특정 몬스터의 울음이나 포효 같은 음색으로 변환되는 체험형 데모가 제공되며 온라인 데모 페이지도 공개해 현장에 오지 못한 이들도 이 첨단 기술을 체험할 수 있다.

NC AI가 이번에 선보이는 기술은 대규모 MMORPG 게임에서 몬스터 사운드 제작 방식을 혁신적으로 바꾸는 도약이라는 평이다. CD 수준(44.1kHz)으로 음성을 분석, 캐릭터 고유의 거친 숨소리나 날카로운 포효까지 놓치지 않고 담아낸 뒤, 원래 음성의 내용은 유지하면서도 원하는 스타일만 정확하게 덧입힌다. 

또 목소리의 ‘무슨 말을 하는지’와 ‘어떤 느낌으로 말하는지’를 동시에 인식해 대사뿐 아니라 웃음, 포효, 숨소리 같은 비언어적 요소까지 자연스럽게 변환한다. 금속성 울림이나 두꺼운 숨소리 같은 질감을 주파수별로 정밀 복원하고 0.005초마다 강약 변화를 반영, 기계적인 소리가 아닌 실제 생물이 내는 것 같은 살아 있는 울림을 구현해 결과물은 마치 게임 속에서 실제 몬스터가 플레이어 눈앞에서 울부짖는 듯한 생생함을 전달한다.

즉 NC AI의 첨단 모델을 통해 기존에는 사운드 디자이너들이 각 몬스터와 상황별 변주음을 일일이 수작업으로 제작하는 데 막대한 시간과 비용이 들던 작업을 상대적으로 가볍게 인간 음성의 폭넓은 주파수 스펙트럼을 그대로 확장, 몬스터 특유의 다이내믹하고 복잡한 음색과 질감 변화를 정교하게 재현할 수 있게 됐다. 

이와 함께 공격성, 위압감, 유쾌함 등 캐릭터 성격을 반영하는 스타일 속성까지 세밀하게 조절할 수 있어, 동일 몬스터라도 전투나 감정 상태에 따라 완전히 새로운 음향을 자동 생성할 수 있다.

기술의 기반은 방대한 고품질 데이터다. NC AI Audio AI팀은 엔씨소프트 사운드센터와 협업해 다년간 누적해온 대규모 게임 오디오 데이터베이스를 정밀하게 분류·태깅하고, 음색, 공기감, 노이즈, 분위기 등 다양한 음향 특성에 따른 세분화를 진행했다. 

또한 ‘디휴머나이저’ 등 전문 음향 변형 툴을 활용, 현실 녹음으로는 잡아내기 어려운 가상의 몬스터 사운드를 대량 증강해 극단적이고 다양한 비인간 음색 환경에서도 안정적으로 모델을 학습시킬 수 있는 토대를 마련했다. 이 데이터 구축 및 증강 전략은 2025년 춘계 한국음향학회에서 소개되어 국내외 학계와 업계로부터 높은 평가를 받았다.

모델 테스트 결과, NC AI의 기술은 최근 공개된 최신 음색 변환 모델(DDDM-VC, Diff-HierVC, Free-VC 등)을 모두 앞질렀다. 음질과 자연스러움, 음색 유사도, 발화 내용 보존성 등 주관·객관 평가 전 부문에서 우수 성적을 기록했다. 이는 고해상도 오디오 처리, 스타일 정보 적용 최적화, 언어·비언어 동시 분석, 질감 복원 로직, 강약·리듬 재현 등 모델 전반의 개선이 시너지를 낸 결과다.

이 혁신적 음색 변환 기술은 NC AI가 개발한 생성형 SFX(사운드 이펙트) 저작 툴인 ‘Sound Palette’의 핵심 엔진으로도 활용된다. Sound Palette는 크리에이터가 원하는 분위기와 음색을 입력하면 즉시 수백 가지에 달하는 변주 사운드를 생성해내, 제작 현장의 속도와 창의성을 획기적으로 높이고 있다. 이 서비스는 게임뿐만 아니라 영화, 광고, XR, 메타버스 등 다양한 디지털 콘텐츠 제작 영역으로 확장하고 있다.

이번 성과로 NC AI는 국내 AI 주권 확보와 산업 경쟁력 강화를 위한 국가 전략 사업인 ‘독자 AI 파운데이션 모델 프로젝트’ 선정 이후 AI 연구 역량과 기술력을 공식적으로 인정받으며, 국내 멀티모달 AI 분야에서 독보적인 입지를 구축했다는 평이다.

INTERSPEECH 2025 발표와 데모 시연은 NC AI가 국내외 AI 연구자 및 산업계와 파트너십을 확대하는 계기가 될 전망이다. 향후 연구 성과와 시연 영상을공식 채널을 통해 공개, AI 기반 오디오 창작 도구의 상용화와 해외 시장 진출 역시 가속화 할 계획이다. 이를 통해 NC AI는 국내 멀티모달 AI 대표 기업으로서의 위상을 견고히 다지고, 글로벌 AI 혁신을 선도하는 핵심 주체로 자리매김할 전망이다.

조남현 NC AI Audio AI 팀장은 “NC AI는 국내 멀티모달 AI 분야를 대표하는 연구 전문 조직으로서, 방대한 게임 오디오 데이터와 첨단 AI 모델링 기술, 뛰어난 사운드 디자인 전문성을 융합해 이번 몬스터 사운드 변환 기술을 완성했다”며 “앞으로도 AI를 활용해 창작자의 상상력을 현실로 구현하고, 디지털 콘텐츠 산업 전반에 혁신적인 오디오 경험을 제공하는 데 기여할 것”이라고 강조했다.

포토이슈


배너