네이버 하이퍼클로바X, ChatGPT 한국어 비교우위

오픈 AI의 ChatGPT를 비롯한 글로벌 빅테크 기업들이 超AI(인공지능) 개발 및 공개경쟁에 마침내 국내 기업인 네이버도 이 대열에 합류한 모양새다. 네이버는 오늘 7월 자체 초대형 하이퍼 스케일의 인공지능을 공개하기로 했다. 바로 '하이퍼클로바X'이다.

오늘은 네이버가 공개한 국산 AI '하이퍼클로바X는 어떤 것이며, 이것이 ChatGPT보다 더 나은 비교우위는 무엇인지?'에 대해 다음과 같이 중점적으로 이야기하고자 한다.

1. 하이퍼클로바X 등장 배경

2. 對 ChatGPT 비교우위, 한국어

3. 데이터 기반과 기대 용도

하이퍼클로바X 등장 배경

네이버클라우드가 이번에 공개한 X버전은 기존의 자체 초대형 인공지능 하이퍼클로바를 업그레이드한 것이다.

즉 기존 하이퍼클로바와 결합하여 사용자의 요구에 맞는 응답을 즉각 제공할 수 있도록 한 초대형 AI로서 특정 개인과 기업, 국가 단위별로 최적화된 AI를 개발해 새로운 비즈니스 기회와 영역을 창출할 것이라고 한다.

아직까지 이러한 사용자 단위별 버전이 어떤 것인지는 구체적으로 알려지지는 않았으나 여기까지만 보면, 개인용, 기업용, 해외 버전 등.. 사용자 유형에 따른 각각의 클로바 버전이 있을 것이란 의미로 들린다.

그렇다면 이것은 우리가 그동안 익숙하게 이용해 왔던 검색 및 채팅 기반의 용도를 초월하거나 벗어나거나 혹은 특정한 이용 목적에 특화된 인공지능으로 인식될 여지가 있다.

물론 초거대 AI는 특정 용도에 한정하지 않고 자율적으로 사고·학습·판단·행동하는 인간의 뇌 구조를 닮은 AI를 뜻한다.

일론 머스크 테슬라 CEO가 주도해 설립한 Open AI가 지난해 공개한 초거대 AI GPT-3가 바로 그 첫 번째 대표적인 예다.

이 모델은 인간처럼 자연스러운 대화가 가능하고 에세이나 소설도 창작할 수 있다.

게다가 얼마 전 이보다 더 뛰어난 ChatGPT가 공개되어 현재의 인공지능 개발 경쟁을 더욱 촉발시켰다.

그러나 (한국인의 입장에서) ChatGPT의 문제는 학습 데이터가 대부분 영어라는 점이다.

네이버가 '한국형 AI'를 만드는 데 뛰어든 이유는 글로벌 경쟁에서 뒤처지지 않는 것도 중요하지만, 한국어에 최적화된 국산 인공지능 모델을 개발하여 적어도 한국 내에서 만큼은 구글로부터 네이버가 그래왔듯이 AI 부문 역시 해외 기업의 인공지능에게 점유율을 뺏기지 않으려는 의도가 크게 작용한 것으로 보인다.

對 ChatGPT 비교우위, 한국어

네이버클라우드의 하이퍼클로바X의 對 ChatGPT 비교우위는 당연히 한국어 능력이다.

하이퍼클로바는 GPT-3보다 한국어 데이터를 6,500배 이상 학습했다고 발표했다.

(이 부분을 어떤 신문 기사 중에는 'ChatGPT보다 6,500배 더 뛰어나다'는 어그로성 타이틀로 보도한 것도 있다)

이를 위해 네이버는 560B 토큰(token·말뭉치)의 한국어 대용량 데이터를 구축했다.

이는 한국어 위키피디아의 2,900배, 뉴스 50년 치, 블로그 9년 치에 달하는 규모라고 한다.

성낙호 네이버 클로바 CIC 비즈 AI 책임리더의 말을 인용하면,,

"하이퍼클로바는 우리말을 가장 잘 이해하고 구사할 수 있는 최초의 초대형 한국어 AI이다"

"데이터셋을 별도로 구축하지 않아도 연결된 대화가 가능하다. 이용자가 굳이 모든 문장을 완벽하게 구사해서 내 의도를 전달하지 않아도 편하게 대화할 수 있는 수준이다"라고 밝혔다.

다시 말해서,,

한국어에 눈치 빠른 국산 인공지능과 아주 자연스러운 한국말 대화·채팅이 가능해졌다는 것이 일단 가장 큰 장점으로 주목된다.

(성능이 비슷하다면) 한국인의 입장에서 이보다 더 중요한 비교우위가 또 있을까?

데이터 기반과 기대 용도

데이터 획득 경로

하이퍼클로바X가 하이퍼클로바를 기반으로 발전된 것이라고 가정했을 때,,

기존의 데이터 축척은 네이버가 가진 뉴스·블로그·지식인·카페·웹문서가 바로 데이터 획득 경로일 것이다.

국내 1위 포털사답게 전반적인 데이터를 두고 품질 순으로 데이터를 선정하고, 신뢰할 수 있는 출처에서 공유하는 자료들은 고품질로 분류해 데이터에 추가했다.

네이버 서치 CIC 관계자는 "검색이 허용된 범위에서 품질 순으로 데이터를 가져왔으며, 개인정보수집은 지양하고 있지만 사용자 전체공개로 지정해서 수집된 정보나 검색 허용된 문서의 경우 포함될 수 있는 개인정보는 제거 또는 비식별화 처리했다"라고 밝힌 바 있다.

또한 "한국의 지식과 특성을 잘 반영한 구성으로 지금 우리가 구할 수 있는 한국어 문서의 결정체라고 볼 수 있다"라고 자신함으로써 한국어에 특화된 국산 인공지능에 대한 차별성을 부각하기도 했다.

결론적으로,,

네이버는 스스로 공인한 바와 같이 국내 1위 포털사로서 보유한 방대한 데이터를 이러한 목적성에 따라 수집, 획득했을 것이다.

주력 용도

네이버는 기존의 하이퍼크로바를 이미 다양한 네이버 서비스에 적용함으로써 이용자들에게 차별화된 경험을 제공한다는 방침을 표방한 바 있었다.

그중 가장 대표적인 분야는 바로 '검색'과 '쇼핑이었다.

사용자가 검색어를 잘못 입력했을 때에도 하이퍼클로바가 이를 정정해 주거나 적절한 검색어를 추천해 주는 검색어 교정 기능에 가장 먼저 도입됐다. (음성 검색에도 적용됐다)

이미 공개되었던 버전에서 이와 같은 기능들이 적용된 것으로 보아 이러한 부문들에 대한 업그레이드와 함께 ChatGPT가 구현하고 있는 '대화형 챗봇 + 자연스러운 네이티브 한국어 구사능력을 탑재한 기능'을 선사할 것으로 기대된다.

그러나 구글과 달리 프로모션 플랫폼 형태의 웹사이트 포털을 구축하고 있는 네이버의 특성상 단순한(?) 입력창에 명령 프롬프트만을 입력하는 형태를 구축하지는 않을 것으로 보이기 때문에 ChatGPT와 똑같은 사용 방식은 아닐 것으로 여겨진다.

그렇다면 (한국인) 사용자에게 있어 주력 용도는 무엇이 될 수 있을까?

지금으로서는 확실하게 알 수는 없지만, 아마도 코머셜 콘텐츠, 번역, 지식형 문답, 코드 생성 부문에 많은 수요가 있을 것이란 예상을 해본다.

▶ 이밖에도 네이버는 MS의 '빙'과 같이 챗봇 AI를 탑재한 검색 서비스인 '서치 GPT'도 공개할 예정인데, 이것이 바로 ChatGPT와 동일 선상에서 비교할만한 서비스로 주목할만하다.

▶ 뿐만 아니라 카카오 역시 자회사인 카카오브레인을 통해 거대 이미지생성 AI '칼로 100X 프로젝트'에 돌입할 것으로 알려졌으며, 페이스북의 모회사인 메타 역시 대형 언어 모델 AI인 LLaMa 프로그램을 연구 목적의 비영리 라이선스로 제공하기로 했다.

▶ 무엇보다도 인공지능 기술 우위를 선점하고도 MS에 뒤통수를 제대로 맞은 구글의 반격이 곧 임박했다.

새로운 변혁이라는 물결을 타고 이제 본격적인 AI 춘추전국 시대가 되어가는 것 같다.

바야흐로 혼돈의 시기, 카오스의 시대가 도래하는 듯하다..

(함께 참고할만한 글 ▼)

네이버 블로그 주소 변경, NAVER blog ID URL 변경 시 장점 및 문제점

2022년 10월, 네이버에서 블로그 주소를 변경할 수 있도록 공지한 바 있다. 그동안 네이버는 신규 계정 가입을 하면 자동으로 blog가 생성되고, 블로그 주소(ID)는 선택의 여지없이 네이버 계정 ID가

e-media.tistory.com

하이퍼클로바X 등장 배경

對 ChatGPT 비교우위, 한국어

데이터 기반과 기대 용도

데이터 획득 경로

주력 용도

최근 글

최근댓글

티스토리툴바