[여의춘추] 국립국어원 입찰 공고 유감

[여의춘추] 국립국어원 입찰 공고 유감

정승훈 디지털뉴스센터장

입력 2024-02-13 04:08

국어 경쟁력 위한 말뭉치 사업
한국어 기반 AI개발에도 핵심

신문사, 기사 공익 활용엔 동의
권리 일체 이용 요구는
기업 대변하는 것 오해 소지

저작권 침해 소지 간과 안 돼
기존 공고 철회, 재공고 내야

문화체육관광부 소속기관 국립국어원은 매년 ‘말뭉치 구축 사업’을 벌인다. ‘말뭉치(corpus)’는 신문기사를 비롯해 책이나 일상의 대화, 메신저 대화, 게시판의 글 등 다양한 형식의 언어를 컴퓨터로 쉽게 분석하고 처리할 수 있도록 만든 것이다. 소위 ‘텍스트 마이닝(text mining)’을 위해 원자료를 데이터화하는 과정인 셈이다. 정해진 양식이 없는 비정형 데이터인 글을 학습해야 하는 텍스트 마이닝은 스프레드시트 데이터 등 정형화되어 있는 자료를 학습하는 일반적인 데이터 마이닝보다 훨씬 난이도가 높은 작업이다. 학습 대상 텍스트가 어떤 것이냐, 텍스트를 어떻게 데이터화했느냐에 따라 결과는 상당히 달라진다.

국립국어원은 한국인들이 지금 현재 쓰고 있는 다양한 표현과 용례 등을 바탕으로 말뭉치를 만든다. 기본적으로 사전 편찬이나 국어 교육·연구 등에 활용하기 위해서다. 양질의 말뭉치 확보를 위해 ‘신문 기사 원문 자료 수집 및 정제 사업’을 벌여 왔다. 매년 해당 연도 신문기사를 확보해 이를 말뭉치 구축에 활용하기 위한 절차다. 신문사들은 자사 기사를 활용할 수 있도록 허락한 데 대한 대가가 만족스럽지 않음에도 불구하고 매년 특별한 협상 없이 이에 응했다. 국어 자산의 경쟁력을 높이고 국어 연구와 관련한 디지털 기술 개발을 지원하는 공익성 높은 사업이기에 기꺼이 자사 콘텐츠 활용을 용인해준 것이다.

그런데 올해 제시된 2024년 사업 입찰 공고를 본 후 격앙된 반응이 나오고 있다. 예년과 다른 조건이 덧붙여졌기 때문이다. 2024년 말뭉치 사업 공고에는 신문 기사 원문 자료 및 신문 기사 말뭉치의 저장, 복제, 전송, 배포, 2차적 저작물 작성권(번역 허용 매체의 경우 ‘번역’ 포함) 등의 권리 일체에 대한 이용 허락을 요구하는 내용이 포함됐다.

국립국어원의 말뭉치는 상업적 용도로 활용할 수 없도록 규정돼 있다. 하지만 최근 국내외에서 개발되거나 개발 중인 상당수 한국어 기반 생성형 인공지능(AI) 모델들이 매년 업데이트되는 국립국어원의 ‘모두의 말뭉치’를 활용해 기본적인 거대언어모델(LLM) 개발을 수행하고 있다는 것은 공공연한 비밀이다. 많은 기업들이 말뭉치를 LLM 개발에 이용하는 이유는 잘 정리된 말뭉치만큼 AI 기술에 활용하기에 좋은 데이터가 없기 때문이다. 말뭉치 사업이 우리의 언어문화를 잘 이해하고 한국어 생성 능력이 우수한 AI를 개발하는 데도 필수적이라는 것을 방증하는 셈이다. 말뭉치 사업이 한국어 사용 AI의 기술 주권 확보에 필수적인 작업임을 이해하기에 신문사들은 한국어 저작물을 생산하는 주요 주체로서 이 사업에 참여해 왔다.

하지만 정식 계약 등을 통해 사용권리를 확보하지 않은 채 상업적 용도로 쓸 수 없는 자료를 이용하는 것은 저작권 침해 요소가 다분한 행위다. 국립국어원의 사업에 참여한 저작권자들은 공공의 이익을 위한 연구·개발 활용을 용인했으나 기업의 상업적 용도 활용에 동의한 것은 아니다.

AI의 학습용 데이터로 사용되는 저작물에 대한 권리 보호는 전 세계적인 이슈다. 해외에선 언론사 등 저작권자들과 생성형 AI 개발 회사들 사이에 여러 건의 협상과 법적 소송 등이 진행되고 있고, 국내에서도 저작권자들이 AI 학습용 데이터로 활용되는 저작물에 대한 권리 보장을 요구하고 있다.

이런 상황에서 저작권 정책 마련의 주무 부처라 할 수 있는 문화체육관광부 소속기관인 국립국어원의 공고 내용은 유감스럽다. 학습용 데이터의 저작권 문제에 대해 사회적 합의가 이뤄지지 못한 상태에서 저작권자들에게 사실상 모든 권리를 내놓으라는 내용을 담고 있기 때문이다. 자칫하면 신문 기사 등을 바탕으로 정부가 구축해 놓은 말뭉치를 그동안 대가 없이 활용했던 기업 등의 저작권 침해를 정부 기관이 대신 나서서 무마하겠다고 선언한 것처럼 보일 여지도 있다.

향후 공공은 물론 민간의 유사한 사례에 기준으로 적용될 가능성이 있는 사업은 정부나 공공기관이 더 주의 깊게 접근해야 한다. 국립국어원은 이번 공고를 철회하고 더 신중하게 내용을 살펴서 다시 공고를 내는 게 바람직하다. 말뭉치의 상업적 용도 사용 불가를 거듭 강조하고, 상업적 활용 예가 있다면 저작권자와 협의를 통해 사용권리를 확보하라는 점을 포함한다면 금상첨화일 것이다.

정승훈 디지털뉴스센터장 shjung@kmib.co.kr