[도시경제채널 = 유주영 기자] 카카오가 12일 테크블로그를 통해 한국형 멀티모달 AI 모델 ‘Kanana-o’와 멀티모달 임베딩 모델 ‘Kanana-v-embedding’의 개발 과정과 성능을 공개했다. 카카오는 이번 발표를 통해 자체 AI 모델의 기술적 완성도를 다시 한 번 강조하며 서비스 적용 범위 확장을 예고했다.
카카오가 공개한 Kanana-o는 텍스트, 음성, 이미지 등 여러 입력을 동시에 이해하고 실시간으로 응답하는 통합 멀티모달 언어모델이다. 글로벌 모델 대비 한국어 맥락 이해 능력이 뛰어나며, 자연스러운 표현력과 대화 흐름을 구현할 수 있는 것이 특징이다. 카카오는 멀티모달 모델이 텍스트 입력에는 강하지만 음성 대화에서는 답변이 단순해지고 추론 능력이 떨어지는 한계를 보완하기 위해 Kanana-o의 지시이행 능력과 복잡한 요구 파악 능력을 고도화했다.
자체 구축한 데이터셋을 활용해 다양한 모달리티의 입력을 처리할 수 있도록 학습을 강화했고, 질의응답뿐 아니라 요약, 감정·의도 해석, 오류 수정, 형식 변환, 번역 등 복합적 작업 수행 능력도 끌어올렸다. 고품질 음성 데이터와 DPO 직선호 최적화 방식도 적용해 억양, 감정, 호흡 등 세부 음성 요소를 정교하게 반영할 수 있게 됐다. 카카오는 팟캐스트 형태의 멀티턴 대화 데이터셋도 구축해 끊김 없는 자연스러운 대화 흐름을 구현했다.
벤치마크 결과 Kanana-o는 영어 음성 성능에서 GPT-4o와 유사한 수준을 보였으며, 한국어 음성 인식·합성·감정 인식 능력에서는 더욱 높은 성능을 기록했다. 카카오는 향후 Kanana-o를 동시 대화와 실시간 사운드스케이프 생성까지 가능한 모델로 진화시킬 계획이다.
함께 공개된 Kanana-v-embedding은 텍스트와 이미지를 동시에 이해하는 한국형 멀티모달 임베딩 모델이다. 이미지 기반 검색 기술이 핵심으로, 텍스트로 이미지를 찾거나 이미지를 기반으로 연관 정보를 검색하고 이미지 포함 문서를 찾아내는 기능을 지원한다. 한국 문화 이해도가 높아 ‘경복궁’, ‘붕어빵’ 같은 고유명사뿐 아니라 ‘하멜튼 치즈’처럼 오타가 있는 단어도 문맥을 파악해 정확한 이미지를 찾아준다. ‘한복 입고 찍은 단체 사진’처럼 복합 조건도 정확히 이해해 조건을 일부만 충족하는 이미지는 걸러낼 수 있다.
Kanana-v-embedding은 현재 카카오 내부 광고 심사 시스템에서 활용 중이며, 추후 비디오와 음성 기반 모델로 확장해 다양한 서비스에 적용될 예정이다.
카카오는 지난 5월 공개한 Kanana-1.5를 기반으로 온디바이스 환경에서 동작하는 가벼운 멀티모달 모델 연구를 진행 중이다. 또한 MoE 구조를 적용한 고성능 모델 Kanana-2 개발에도 착수했다.
카카오 김병학 카나나 성과리더는 “카나나는 단순 정보 나열을 넘어 사용자 감정을 이해하고 더 자연스럽게 대화할 수 있는 AI를 지향한다”며 “실제 서비스 환경을 기반으로 한국적 맥락을 반영한 AI 경험을 확장하고 사람과 상호작용하는 AI 개발에 집중하겠다”고 말했다.
[저작권자ⓒ 도시경제채널. 무단전재-재배포 금지]































