UPDATED. 2021-01-20 18:21 (수)
챗봇 '이루다'에 쓰인 카톡 1700건, 1년 넘게 온라인에 퍼졌다...개발사, 결국 첫 사과
챗봇 '이루다'에 쓰인 카톡 1700건, 1년 넘게 온라인에 퍼졌다...개발사, 결국 첫 사과
  • 강성도 기자
  • 승인 2021.01.14 10:46
  • 댓글 0
이 기사를 공유합니다

[업다운뉴스 강성도 기자] 인공지능(AI) 챗봇 '이루다' 개발사인 스캐터랩이 자사 서비스 '연애의과학'에서 추출한 100여건의 이용자 대화 데이터를 누구나 접근할 수 있는 오픈소스 프로젝트 저장소에 비식별화 조치를 하지 않은 상태로 올려 논란이 일고 있다. 

이루다의 혐오와 차별발언, 그리고 개인정보유출 논란으로 챗봇 서비스를 잠정 중단한 스캐터랩는 13일 공식 사과문을 내고 개인정보보호위원회 및 한국인터넷진흥원(KISA)의 조사에 성실히 임하겠다고 밝혔다. 이루다를 둘러싼 각종 논란이 불거진 지 닷새 만의 첫 사과다.

이날 연합뉴스와 IT업계에 따르면 스캐터랩은 2019년 10월부터 오픈소스 플랫폼 '깃허브'(GitHub)에 카카오톡 대화 데이터로 학습하는 인공신경망 모델 파일을 게재했다. 깃허브는 IT 개발자들이 개발 생태계 전반의 발전을 위해 오픈소스를 공유하는 플랫폼이다. 

AI 이루다 서비스를 제공하는 스캐터랩 [사진=스캐터랩 제공]
AI 이루다 서비스를 제공하는 스캐터랩 [사진=스캐터랩 제공]

하지만 해당 프로젝트에 모델 훈련에 필요한 데이터셋으로 '연애의과학'에서 추출된 데이터가 비식별화 처리도 거치지 않고 공개되면서 개인정보 유출 논란을 빚고 있다. 스캐터랩은 연애의과학 이용자들의 카톡 데이터 약 100억건을 재료로 이루다를 개발했다. 

스캐터랩 측은 깃허브에 오픈소스를 올리면서 카톡 데이터 100건을 훈련 데이터로 공유했다. 카톡 데이터 100건에 담겨 있는 카톡 대화량은 1700건에 달한다. 약 200명의 일대일 대화 내용으로 추정된다. 이 과정에서 집주소, 예금주명이 포함된 계좌번호, 학교 이름, 직장 이름과 위치, 건강 정보 등 비식별화가 충분히 되지 않은 개인 정보가 이루다를 통해 노출됐다.

관련 사실이 개발자 커뮤니티에서 논란이 되자 스캐터랩 측은 깃허브 게시물을 삭제했다. 하지만 이루다에게 성희롱을 주도해 사회적 물의를 일으켰던 남초 커뮤니티에서는 오픈소스를 활용해 ‘제2의 이루다’를 제작 중이다. 

개발자 A씨가 실명과 지역명 등으로 추정되는 정보를 비식별화 처리해 제공한 자료 사진. [사진=개발자 A씨/연합뉴스]
개발자 A씨가 실명과 지역명 등으로 추정되는 정보를 비식별화 처리해 제공한 자료 사진. [사진=개발자 A씨 제공/연합뉴스]

이와 관련해 스캐터랩의 개인정보보호법 위반 의혹을 조사하는 개인정보보호위원회 측은 "조사 과정에서 함께 들여다볼 것"이라고 밝혔다.

논란이 커지자 스캐터랩 측은 이날 해명자료를 내고 "깃허브에 공개한 오픈소스에 내부 테스트 샘플이 포함된 사실이 확인됐다. 실명을 자동화 비식별 처리했는데, 필터링 과정에 걸러지지 않은 부분이 일부 존재했다"며 "민감할 수 있는 정보가 노출된 점에 진심으로 사과드린다"고 밝혔다.

이어 "현재 연애의과학 데이터의 개인정보처리와 관련한 부분은 개인정보보호위원회 및 한국인터넷진흥원에서 조사가 진행 중"이라며 "해당 관계 기관의 요청에 따라 성실하게 조사에 임하고 있으며, 앞으로도 최선을 다해 임하겠다"고 밝혔다.

또한 "논란이 되는 모든 사항에 대해 진상조사위원회를 구성해 철저히 조사하는 한편 외부 전문가를 포함한 상시 개인정보 보호 체계를 구축하고 재발 방지를 위한 강화된 보안 교육을 실시하는 등 노력하겠다"며 "이번 사안으로 인해 인공지능 산업계에 계신 여러 동료 기업들, 연구자분들, 파트너들께도 누를 끼치지 않기를 바란다. AI 윤리에 관한 사회적 합의에 부합할 수 있도록 노력하겠다"고 덧붙였다.