초거대 AI시대, 한국 기업들은 어디까지 왔나?

[업다운뉴스 조근우 기자] 지난해 오픈AI가 공개한 챗GPT가 세계에 불러온 파장은 어마어마했다. 구글의 모회사 알파벳의 선다 피차이 최고경영자는 챗GPT 공개 후 심각한 위기 경고를 뜻하는 ‘코드 레드’를 발령했다. 구글은 대중들의 일상에 깊숙이 침투해 있던 자사 검색 엔진의 경쟁력이 흔들릴 가능성을 크게 우려하고 있다. 마이크로소프트가 검색엔진 빙에 챗GPT를 통합시키려는 움직임을 보이고 있기 때문이다.

투자은행 UBS에 따르면 챗GPT는 공개 2달만에 월간 활성 사용자 수(MAU) 1억명을 돌파하는 기염을 토했다. MAU는 월 단위로 한 번이라도 접속한 사람 수를 뜻한다. 이 기록은 다른 인터넷 서비스에 비해 압도적인 수치다. UBS 보고서에 따르면 틱톡은 1억 MAU에 도달하는 데 9개월, 인스타그램은 30개월 걸렸다.

대 인공지능(AI) 시대의 본격 도래가 시작된 요즘, 챗GPT의 특징과 국내 기업들의 AI는 어디까지 왔는지 알아봤다.

■ 챗GPT가 쏘아올린 초거대 AI시대, 언어모델이란?

초거대 AI는 스스로 사고하고 학습하며 판단할 수 있는 인간의 뇌 구조를 모방한 AI다. 대용량 연산이 가능한 컴퓨팅 인프라를 기반으로 대규모 데이터를 스스로 학습하고 사고하며 판단할 수 있고, 특정 용도에 국한되지 않고 다양한 분야에서 활용이 가능하다.

언어모델(LM)은 가장 자연스러운 단어 시퀀스(일련의 연속적인 사건)를 찾아내는 모델이다. 문장 가운데에 있는 단어를 비워놓고 양쪽 문맥을 통해 빈칸의 단어를 맞히는 고등학교 수험 시험의 빈칸 추론 문제와 비슷하다. LM은 머신러닝을 사용해 텍스트 구조와 의미를 파악한다. 스탠포드 대에서는 LM을 문법이라고 비유하기도 한다. LM이 단어 조합이 얼마나 적절한지, 또는 해당 문장이 얼마나 적합한지 알려주는 일을 하는 것이 마치 문법이 하는 일 같기 때문이다.

최근 나온 AI들의 LM은 인공신경망을 이용해 만들어진다. 인공신경망은 컴퓨터가 실수에서 배우고 지속적으로 개선하는 데 사용하는 적응형 시스템을 생성한다. 그렇기에 문서 요약 또는 얼굴 인식과 같은 복잡한 문제를 더 정확하게 해결할 수 있다.

국내 기업의 AI는 ‘한국어’기반이라는 점에서 강점을 가진다. AI는 사람처럼 언어를 바로 알아듣지 못해 데이터를 학습하고 '토큰화'를 거쳐야 한다. 토큰화는 말을 최소 단위로 잘게 쪼개 컴퓨터가 인식하도록 데이터로 치환하는 과정에서 시작한다. 그 뒤 패턴을 분석하고 적절한 단어를 조합해 의미를 이해한다. 토큰화는 언어마다 다르게 적용된다. 영어 데이터는 알파벳 문자에 어울리는 토큰화 기법 '바이트 페어 인코딩'(BPE)이 적합하다. 반면 BPE는 낱말 조합 방식의 한국어에는 적용되기 쉽지 않다.

지난해 11월 미국 뉴올리언스에서 열린 뉴립스에 LG AI연구원과 LG CNS 등 5개 회사가 함께 참여했다.[사진=LG 제공]

■ 전문 산업현장에서 활발히 활동 중인 LG그룹 엑사원

LG AI연구원은 초거대 AI ‘엑사원(EXAONE)’ 공개 1년 만인 지난해 12월 ‘AI 경량화·최적화’ 신기술을 적용한 초거대 LM을 선보였다. 엑사원은 상위 1% 전문가를 지향하는 LG의 초거대 AI로, 언어·음성·이미지를 모두 다루는 멀티 모달리티(multi-modality.여러 가지 형태와 의미로 컴퓨터와 대화하는 환경) 능력을 갖췄다.

엑사원 LM의 한국어 성능은 ▲분류 ▲번역 ▲기계독해 ▲요약 등 4개 영역 16개 평가 지표 중 15개가 글로벌 최고 성능을 의미하는 ‘SOTA(State-of-the-art)’를 상회했다. 실제로 LG디스플레이 등 주요 계열사는 보도자료 제목을 지을 때 엑사원 의견을 참고하는 것으로 알려졌다.

LG AI연구원은 코딩에 관한 전문 지식이 없거나 AI 개발자가 아니어도 쉽고 간편하게 초거대 AI를 사용해보고 활용할 수 있도록 엑사원 기반의 3대 서비스 플랫폼을 개발했다.

‘엑사원 유니버스’는 고객 대상 언어 전문가 AI를 보다 편하게 기획하고 개발할 수 있도록 한 초거대 LM 기반 플랫폼이다. LG AI연구원은 ▲인간처럼 자연스러운 질의응답·대화 ▲텍스트 분류·생성 ▲키워드 추출·생성 ▲번역·변환 기능을 활용할 수 있는 플랫폼을 통해 누구나 쉽게 전문가 AI 개발이 가능하도록 했다. ▲AI 은행원(우리은행) ▲AI 컨택 센터(LG생활건강) ▲앱스토어 고객 리뷰 분석(LG유플러스) 등이 대표적인 예다.

‘엑사원 아틀리에’는 텍스트와 이미지 간 양방향 생성이 가능한 엑사원만의 멀티모달 특성을 살려, 세상에 없던 창조적 디자인을 생성하는 플랫폼이다. LG AI연구원은 세계 3대 디자인스쿨 파슨스, 글로벌 크리에이티브 플랫폼 기업인 셔터스톡과 생성 AI 기술을 공동 연구하고 있으며 향후 협업 대상과 영역을 확대할 계획이다.

‘엑사원 디스커버리’는 초거대 AI가 인류가 쌓아온 지식을 AI가 스스로 학습해 활용할 수 있다면 질병, 에너지와 같은 세상의 난제를 해결하는 데 도움이 될 수 있을 것이라는 아이디어를 구체화한 플랫폼으로 엑사원이 논문·특허 등 전문 문헌의 텍스트뿐만 아니라 수식과 표, 이미지까지 스스로 학습해 데이터베이스화하는 기술을 적용했다.

LG그룹 관계자는 “엑사원을 활용하면 인간 전문가가 전문 문헌의 데이터를 AI가 학습 가능한형태로 수집하고 가공하는 작업이 필요하지 않아, 학습 데이터가 축적될수록 신약과 신소재 개발 범위와 속도에 혁신을 가져올 것으로 보고 있다”고 설명했다.

■ 한국어 최대 검색 포털 네이버의 하이퍼클로바

네이버는 챗GPT 대비 한국어를 6500배 더 많이 학습한 초거대 AI ‘하이퍼클로바X’를 오는 7월 중 공개한다.

하이퍼클로바는 네이버가 국내 기업 최초로 자체 개발한 초대규모 AI다. 하이퍼클로바 성능과 기술력은 자연어처리 분야 최고 권위 학회인 ‘EMNLP(Empirical Methods in Natural Language Proessing) 2021’에서 관련 연구 논문이 메인 트랙에 채택되며 세계적으로 인정받기도 했다. 하이퍼클로바 학습 데이터는 한국어 비중이 97%에 달한다. 영어 중심의 글로벌 AI 모델과 달리 한국어에 최적화한 LM을 개발함으로써, AI 주권을 확보한다는 계획이다.

실제 하이퍼클로바는 다양한 분야에서 활용되고 있다. 하이퍼클로바의 딥러닝 기술은 음성기록 앱 ‘클로바노트’에 적용돼 음성인식 정확도를 대폭 높였다. 또한 AI가 대화 주제별로 구간을 나누고, 핵심을 자동으로 요약해주는 'AI 요약' 기능에 하이퍼클로바 LM이 적용됐다. 이 외에도 ▲AI가 독거 어르신과의 정형화되지 않은 자연스러운 대화를 할 수 있게 되어 정서적인 케어에 도움을 주는 클로바 케어콜 ▲클로바 AI 스피커에서 하이퍼클로바 기반으로 특정 주제에 대해 자유롭게 대화할 수 있는 똑똑사전 ▲소상공인들의 사업 확장을 위한 기술 솔루션을 모아 제공하는 커머스솔루션마켓 내 제공되고 있는 클로바 메시지마케팅 솔루션과 클로바 라이브챗 솔루션 ▲일상용어로 질문해도 AI가 이를 이해하고, 전문 정보를 찾아 주는 지식인터랙티브 ▲사용자가 오타를 입력하거나 맞춤법을 잘못 입력하거나 잘못 알고 있는 검색어를 입력한 경우, 올바른 단어로 전환해 검색해주거나 적절한 검색어를 추천해주는 검색어 교정 등에도 하이퍼클로바가 사용된다.

클로바 스튜디오를 활용하면 하이퍼클로바를 코딩 없이 활용이 가능하다. 코드가 아닌 자연어 지시문 및 예제 (프롬프트)만 제시하면 간단히 사용할 수 있어 AI나 코딩 관련 지식이 없는 기획자, 마케터 등도 쉽게 AI 개발이 가능한 것이 특징이다.

네이버 관계자는 “지난해 2월부터 일부 파트너사를 대상으로 클로즈드 베타 서비스를 시작해, 현재 500여개 스타트업들이 사용 중”이라고 설명했다.

■ 시쓰는 AI, 카카오의 코지피티

카카오도 한국어 특화 LM KoGPT(코지피티)를 토대로 카카오 대화형 AI와 카카오 브레인 AI 챗봇 '코챗지피티'를 연내 공개한다.

코지피티는 2021년 11월 최대 오픈소스 커뮤니티 깃허브(GitHub)에 공개된 한국어 특화 AI LM이다. 코지피티는 데이터, 인프라, 모델 개발, 서비스 출시 전체를 아우른다. 개발자는 모바일·웹 상품 광고나 쇼핑몰, 배달앱 등 다양한 서비스 개발 시 코지피티 API를 적용해 광고 카피를 만드는 등 마케팅, 커머스, 자영업 등에 활용할 수 있다. 핵심 키워드를 입력하면 광고 문구를 자동 생성하는 방식이다. 또 수만 개의 후기를 종합적으로 이해한 후 요약해, 상품 구매 시 이용자들의 선택을 효율적으로 도울 수 있고, 서비스 내 이용자들이 작성한 후기를 보고 긍·부정 판단은 물론 상품의 특징을 정확하게 파악하고 분류할 수도 있다.

카카오브레인은 미디어아트 그룹 슬릿스코프와 함께 시 쓰는 AI 모델 ‘SIA(시아)’를 개발하고, 지난해 8월에 시아의 첫 번째 시집 ‘시를 쓰는 이유’를 출간했다. 시아는 카카오브레인의 초거대 AI LM 코지피티를 기반으로 시를 쓰는 AI 모델로, 1만3000여 편의 시를 읽으며 작법을 익혔다. 주제어와 명령어를 입력하면 ‘시아’가 입력된 정보의 맥락을 이해하고 곧바로 시를 짓는다. ‘시를 쓰는 이유’는 총 53편의 시로 구성돼 있으며, ‘시를 쓰는 이유’에 수록된 시들은 시극 공연에도 활용됐다.

코지피티 API 모델을 활용해 향후 다양한 상품 후기를 보유한 서비스 플랫폼사나 광고회사 등을 대상으로 파트너십 체결을 하고 서비스 적용 범위를 확대해 나갈 예정이다.

카카오브레인 관계자는 “코지피티의 영어 및 일본어 모델을 준비해 오픈소스화하고 베트남어, 말레이시아어 등 동남아어 버전으로 확장 개발, 더 많은 곳에서 AI 기술의 혜택을 누릴 수 있도록 지원할 계획”이라며 “헬스케어 등 AI의 부가가치가 큰 영역으로 초거대 AI 연구 범위를 확대해 나가며 다양한 사업 모델 개발 추진할 것”이라고 말했다.

개의 댓글

BEST댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

댓글삭제

삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글수정

댓글 수정은 작성 후 1분내에만 가능합니다.

상단영역

본문영역

초거대 AI시대, 한국 기업들은 어디까지 왔나?

관련기사

개의 댓글

댓글 정렬

내 댓글 모음