네이버 vs 카카오, ‘챗GPT’ 진검승부 벌인다…“한국어 데이터 능력, 우리가 단연 최고”

시간 입력 2023-03-07 07:00:03 시간 수정 2023-03-06 18:00:35
  • 페이스북
  • 트위치
  • 카카오
  • 링크복사

대화형 AI(인공지능) 서비스인 ‘챗GPT’ 돌풍이 확산되고 있는 가운데, 한국어 데이터를 기반으로 한 이른바 ‘한국형 챗GPT ’ 최고 자리를 놓고 네이버와 카카오간 자존심을 건 대결을 벌인다. 

양사 모두 최고 수준의 한국어 데이터 처리능력을 앞세워, 연내에 챗봇 기반의 AI 플랫폼을 선보이겠다고 선언하며, 진검승부를 예고하고 있다. 특히 두 회사 모두 챗GPT의 시초 격인 오픈AI의 대화 모델이 유독 한국어 처리에 취약하다는 점을 앞세워, 국내 최고 챗GPT 자리를 넘보고 있다.

실제 오픈AI의 ‘챗GPT’ 뿐만 아니라 마이크로소프트(MS)의 검색엔진 ‘빙(Bing)’에 탑재된 대화 모델이나, 구글의 ‘바드’ 등 현존하는 글로벌 빅테크의 ‘챗GPT’ 모두 한국어 처리에 유독 약하다는 지적을 받아 왔다.

이는 ‘챗GPT’의 데이터 처리 방식인 ‘토큰화’ 과정에서 발생하는 문제 때문이다. 이들 해외 빅테크들은 주로 영어 위주의 언어 처리 방식에 몰두해 왔다. 문제는 한국어와 영어의 언어 처리 방식에 큰 차이가 있다는 점이다. 영어는 알파벳 위주의 조합으로 단어와 문장의 뜻이 구성되지만, 한국어는 낱말 조합으로 의미가 창출되기 때문이다.

실제 ‘챗GPT’는 말을 최소 단위로 쪼개 데이터로 치환하는 ‘토큰화’를 통해 학습 과정을 거친다. 사람처럼 입력 즉시 이해하는 것이 어렵기 때문에, 학습 과정에서 쌓인 데이터를 통해 패턴을 분석하고 적절한 단어를 조합해 의미를 이해하는 방식이다.

이러한 ‘토큰화’ 과정에서 영어 데이터는 ‘바이트 페어 인코딩(BPE)’ 기법을 활용한다. 다만, 이러한 BPE 기법은 알파벳 문자에 어울리는 것이어서, 낱말 조합 방식의 한국어에는 적용되기 어렵다.

예를 들어 “나는 야구를 좋아한다(I love playing baseball)”라는 문장을 토큰화하면, 그 차이가 드러난다. 영어는 ‘I/love/playing/baseball’의 4개의 토큰으로 구성된다. 반면, 같은 내용을 한국어로 토큰화하면 ‘나/는/야구/를/좋-/-아-/하-/-ㄴ-/다’ 등 9개 이상의 조합으로 쪼개진다.

이같은 이유 때문에 현재 다수의 ‘챗GPT’ 대화 모델은 한국어의 문맥을 제대로 이해하지 못한다. 토큰화 과정을 통해 학습한 데이터의 97% 이상이 영어 데이터이기 때문이다. 이때문에 국내 이용자가 ‘챗GPT’를 제대로 활용하기 위해서는 영어로 번역해 활용해야 하는 불편함이 있다.

네이버, 카카오, 통신 3사 등 국내 IT 기업들은 이처럼 해외 빅테크 기업들이 취약한 한국어 활용능력을 앞세워 챗GPT 경쟁에 나선다는 전략이다. 

최수연 네이버 대표(왼쪽)와 기존의 하이퍼클로바(오른쪽) <출처=네이버>

먼저, 네이버는 국내 IT 기업중에서는 가장 먼저 오는 7월 중에 초대형 AI 플랫폼인 ‘하이퍼클로바X’를 공개할 예정이다. 하이퍼클로바X는 고객이 보유한 데이터를 기존 하이퍼클로바와 결합해 사용자 필요에 맞는 응답을 즉각 제공할 수 있는 초대형 AI다. 하이퍼클로바X의 가장 큰 특징은 ‘챗GPT’ 대비 한국어 학습량이 약 6500배 많다는 점이다.

앞서 네이버가 지난 2021년 5월 공개한 하이퍼클로바는 오픈AI에서 개발한 시스템 ‘GPT-3’의 1750억개 보다 많은 2040억개의 매개변수(파라미터)를 갖췄다. 여기에 사용자 데이터와 한국어 관련 정보가 더해져 ‘하이퍼클로바X’ 관련 업그레이드가 진행될 경우, ‘한국어 검색 정확도’는 더욱 향상될 것으로 기대된다.

김유원 네이버클라우드 대표가 지난달 27일 열린 네이버 데뷰 2023 컨퍼런스에서 '하이퍼클로바X'에 대해 소개하고 있다 <출처=네이버>

네이버는 여기에 ‘서치GPT’도 상반기 중 공개할 계획이다. 이는 MS의 ‘빙’ 처럼 챗봇AI를 탑재한 검색 서비스다. 네이버의 ‘서치GPT 프로젝트’는 기존의 ‘하이퍼클로바’를 네이버 검색에 특화한 대규모 언어모델(Search LLM)인 ‘오션(OCEAN)’을 기반으로 진행되고 있다.

김용범 네이버 서치US 치프 사이언티스트(Chief Scientist)는 “정보 간 교차·반복 검증 및 사용자 피드백을 통해 정확성과 신뢰성을 갖춘 정보를 생성하고자 한다”며 “쇼핑과 페이, 지도 등 네이버 서비스와 연동으로 검색 의도에 최적화된 정보를 이미지와 음성 등의 직관적인 형태로 제공할 것”이라고 말했다.

결과적으로, 네이버는 자사가 기존에 서비스 중인 여러 분야의 각종 서비스에 AI 기능을 더해 사용자 편의성과 기능 활용도를 강화하는 방향으로 관련 사업을 진행할 것으로 보인다.

김일두 카카오브레인 대표(왼쪽)와 임직원들 <출처=카카오브레인>

카카오도 AI 모델 개발에 속도를 내고 있다. 카카오의 AI 자회사 카카오브레인은 올 상반기 한국어에 특화한 AI 언어 모델 ‘코(Ko)GPT’의 새로운 버전을 출시할 계획이다.

김광섭 카카오브레인 최고기술책임자(CTO)는 “한국어를 사전적, 문맥적으로 이해해 사용자가 원하는 결과를 보여주는 카카오브레인의 초거대 AI 언어모델”이라고 설명했다.

또한 홍은택 카카오 대표는 “카카오는 글로벌 기업과 같은 선상에서 경쟁하기보다 카카오브레인이 가진 한국어 특화 AI 모델인 코GPT를 활용해 우리가 잘 할 수 있는 버티컬 AI 서비스에 집중하고자 한다”고 발표한 바 있다.

카카오의 경우, 대표 메신저 ‘카카오톡’에 ‘코GPT’를 접목하는 방식 등으로 ‘버티컬 AI 서비스’에 집중할 계획이다. ‘버티컬 서비스’는 특정 분야를 수직화해 전문적으로 다루는 서비스를 말한다.

한국어 기반 AI 모델인 카카오브레인의 ‘KoGPT’ <출처=카카오>

‘챗GPT’ 돌풍과 함께 ‘생성형 AI’를 비롯한 ‘초대규모 AI’ 시장이 주목받고 있다. 이처럼 기술 패러다임이 빠르게 전환되고 있는 상황에서, 한국 IT  산업을 대표하는 네이버와 카카오가 글로벌 시장에서 경쟁력 있는 초대규모 AI 생태계를 만들어 갈 수 있을지 관심이 집중되고 있다.

[CEO스코어데일리 / 이예림 기자 / leeyerim@ceoscore.co.kr]

댓글

[ 300자 이내 / 현재: 0자 ]

현재 총 0개의 댓글이 있습니다.