국내 대표 인공지능(AI) 기업 NC AI가 VARCO-VISION 2.0으로 멀티모달에서도 국내 AI의 선두주자로 나선다.
NC AI가 16일 한국어 기반 멀티모달 AI 기술력을 집약한 VARCO-VISION 2.0, 총 4종(14B / 1.7B / 1.7B OCR / Video-Embedding)의 멀티모달 AI 모델을 오픈소스로 공개한다고 발표했다.
NC AI는 오픈소스 텍스트 모델을 기반으로 추가학습을 통해 멀티모달 모델을 구축, 최고 수준의 한국어 성능을 바탕으로 이미지와 텍스트를 함께 이해하는 능력을 갖춘 차세대 인공지능 모델을 선보였다.
특히 VARCO-VISION 2.0 14B는 글로벌 오픈소스 VLM((비전언어모델) 최고 성능으로 알려진 InternVL3-14B(140억 파라미터)와 알리바바의 Ovis2-16B, Qwen2.5-VL 7B를 능가하는 성과를 달성했다. 4종의 모델 중 14B와 임베딩 모델 2종은 오늘, 1.7B와 OCR모델은 차주 중 공개 예정이다.
NC AI의 VARCO-VISION 2.0은 이미지와 텍스트를 함께 이해해 질문에 답할 수 있는 차세대 인공지능 모델로, 여러 장의 이미지를 동시에 분석할 수 있어 복잡한 문서나 표, 차트도 효과적으로 처리할 수 있다는 점이 핵심 차별화 요소다. 한국어와 영어 모두 자연스럽게 이해할 수 있으며, 특히 텍스트 생성 능력과 한국 문화에 대한 이해도를 크게 향상시켰다.
특히 오늘 공개된 14B모델의 경우 멀티모달 AI로 기존 최고 성능으로 알려진 InternVL3-14B, Ovis2-16B, Qwen2.5-VL 7B 등 동급 모델들을 영문 이미지 이해, 한국어 이미지 이해, OCR 벤치마크 등 다양한 벤치마크에서 능가하며, 멀티모달 AI에서도 소버린AI의 가능성을 확인했다.
NC AI는 개인과 산업의 활용도를 실질적으로 높이기 위해 14B 파라미터 모델과 함께 1.7B 파라미터 경량 모델을 동시에 제공한다. 14B 모델은 복잡한 멀티이미지 분석과 고도화된 추론이 필요한 업무용 환경에 최적화되어 있으며, 1.7B 경량 모델은 스마트폰이나 PC 등 개인 기기에서도 원활하게 동작할 수 있도록 설계됐다. 이는 클라우드 환경 뿐만 아니라 개인 디바이스에서도 고성능 멀티모달 AI를 활용할 수 있게 함으로써 AI 기술의 접근성과 확장성을 크게 높인 것으로 평가된다.
이미지 내 문자를 인식하는 광학 문자 인식 작업에 특화된 모델인 VARCO-VISION-1.7B-OCR도 내놓았다. 기존 OCR(광학문자판독) 모델들과 달리 이미지와 언어 정보를 동시에 학습한 VLM기반 접근 방식을 채택, 기존 오픈소스 OCR 모델 대비 한국어 OCR 능력이 더 높은 것으로 확인됐다.
이 모델의 가장 큰 특징은 AnyRes 해상도 분할 입력 방식을 적용한 것으로, 입력 이미지를 다수의 조각으로 나누고 각 부분에서 높은 해상도 정보를 생성하는 구조를 통해 다양한 해상도의 이미지를 손실 없이 효율적으로 처리한다.
특히 노이즈나 흐림 등이 포함된 어려운 환경에서도 이미지의 전반적인 분위기나 시각적 단서를 바탕으로 정밀하게 글자를 인식할 수 있어, 한국어-영어 혼합 환경에서도 높은 인식 정확도를 보여준다.
마지막으로 멀티모달 임베딩 모델 VARCO-VISION-Embedding은 텍스트, 이미지, 비디오 간의 의미적 유사도를 고차원 임베딩 공간에서 정밀하게 계산한다. 임베딩이란 영상의 내용을 숫자로 변환해서 저장하는 것으로, 이 기술을 통해 사용자의 자연어 질의에 따라 동영상 콘텐츠를 고차원 임베딩으로 변환하고, 이 임베딩 간의 거리나 유사도를 기반으로 관련성 높은 이미지나 비디오를 검색할 수 있다.
특히 검색 벡터 개념을 도입, 기술적 차별점을 극대화 함으로써 비디오 검색 벤치마크(MultiVENT2.0) 제로샷 기준 최고 성능 모델로 등극했다. 이미 잘 만들어진 검색 AI의 능력을 복사해서 영상 검색 AI에 그 능력을 더해주는 방식을 적용, 기존 이미지-텍스트 검색에 특화된 고성능 모델의 가중치 차이를 계산해 도출한 벡터를 파인튜닝된 비디오-텍스트 모델에 덧셈 방식으로 적용해 추가 학습 없이도 검색 성능을 강화했다.
이번에 공개된 4종의 모델은 금융, 교육, 문화, 쇼핑, 제조 등 다양한 도메인에서 활용 가능하다. 복잡한 보고서, 계약서, 청구서 등의 자동 분석 및 디지털화, 표와 차트가 포함된 문서 처리나 주문서 자동 정리 및 요약 등 문서 처리 및 자동화 분야에서 광범위하게 활용할 수 있다.
또한 제품 이미지 기반 자동 설명 생성, 비디오 콘텐츠의 자연어 기반 검색 시스템, 크리에이티브 콘텐츠 생성 및 광고 문구 작성 등 콘텐츠 및 미디어 분야에서도 업무효율의 증대를 가져올 것으로 기대된다.
NC AI의 이번 모델들은 단순한 성능 향상을 넘어 기술적 효율성에서도 주목할 만한 성과를 보여준다. VARCO-VISION 2.0의 경우 고품질 데이터 선별 과정과 새로운 데이터 합성 기술을 통해 상대적으로 적은 컴퓨팅 자원으로도 대규모 데이터를 효율적으로 학습할 수 있도록 최적화했다.
또한 VARCO-VISION-Embedding 모델은 기존 선호 최적화 데이터셋을 대조 학습에 적합하도록 변형해 활용하는 등 데이터 효율성을 극대화하는 혁신적인 접근 방식을 채택했다. NC AI는 AI 모델 개발의 비용 효율성을 높이고, 더 많은 기업과 개발자들이 고성능 AI 기술에 접근할 수 있는 기반을 마련하는 것을 목표로 개발했다고 밝혔다.
이번 모델 발표로 NC AI는 파운데이션 모델을 기반부터 구축하는 From Scratch 방식의 LLM 모델 개발 경험에 더해 멀티모달 모델 구축 능력까지 갖춘 독자 AI 기술력을 다시 한 번 입증했다. 특히 한국어 특화 성능과 글로벌 수준의 기술력을 동시에 확보함으로써 국내 AI 산업의 경쟁력을 크게 높였다는 평가다.
특히 NC AI는 이번에 공개하는 4종 모델 모두를 연구용 오픈소스로 공개한다고 밝혔다. 기업과 개인, 공공기관 누구나 활용할 수 있도록 함으로써 전국민 AI 생태계 발전에 기여하겠다는 의지를 보여준 것이라는 평가다. NC AI는 이번 글로벌 톱 수준의 4종 모델 공개를 통해 국내 AI 기술의 자주성과 접근성을 동시에 높일 계획이다.
NC AI는 이번 멀티모달 AI 모델 4종 공개를 통해 국내 AI 기술의 글로벌 경쟁력을 입증하는 동시에 오픈소스 생태계를 통한 기술 민주화에도 기여, 정부가 추진하는 ‘소버린AI’ 강화에 힘을 더할 계획이다. 특히 한국어 특화 성능과 실용적 활용성을 겸비한 이들 모델은 국내 다양한 산업 분야에서 AI 혁신을 가속화하는 촉매 역할을 할 것으로 예상된다.
이연수 NC AI 대표는 "기술 고도화로 글로벌 트렌드가 텍스트만 처리하는 언어모델을 넘어 비전 모델을 함께 활용하는 비전언어모델로 전환되고 있다"며 "이번 4종 모델 공개를 통해 미디어와 게임, 패션 등 버티컬 AI로 기존 국내 멀티모달 AI를 선도하는 NC AI가 비전언어모델에서도 한국의 주권을 지킬 수 있는 가능성을 확인했다"고 밝혔다.
한편 NC AI는 엔씨소프트의 AI 전문 법인으로 ‘Everyone can be a Creator’라는 미션 아래, 게임을 넘어 모든 산업에서 창작과 비즈니스 혁신을 이끄는 AI 솔루션을 개발·공급하고 있다. 오디오, 그래픽스, 번역, 챗봇 등 다양한 AI 기술을 자체 연구개발과 외부 협업을 통해 고도화하고 있으며, 산업별 맞춤형 솔루션을 통해 고객사의 생산성과 창의성을 극대화하고 있다.