[여의춘추] 베일 벗는 생성형 AI의 비밀

[여의춘추] 베일 벗는 생성형 AI의 비밀

정승훈 논설위원

입력 2024-04-09 04:08

생성형 AI의 놀라운 결과물
오픈소스 데이터로는 불가능

오픈AI·메타 등의 침해 내용
내부 증언 등으로 속속 밝혀져
공공연한 비밀은 드러나는 법

AI 개발 기업들 경각심 갖고
저작권 문제 해결에 나서야

언젠가는 드러날 일이었다. 누가 먼저 밝혀내느냐의 문제였고, 언제 시작될 것인가의 문제였을 뿐이다. 생성형 인공지능(AI)의 놀라운 결과물들이 무료로 쓸 수 있는 소위 오픈소스 플랫폼의 데이터만으로 만들어진 것이라고 생각하는 이들은 없었다. 짧은 글, 그림 한 컷에도 다 따라붙는 저작권 콘텐츠 없이 AI가 그렇게 훌륭한 결과물들을 내놓을 수 있다는 생각, 그건 착각 아니면 무지다. 아무리 뛰어난 학생이라도 양질의 교재와 강사를 만나지 않으면 뒤처질 수밖에 없다는 것은 삼척동자도 안다. 천문학적인 시장 규모와 기업의 생존이 걸린 AI 학습 경쟁에서 더 훌륭한 교재와 더 뛰어난 강사를 찾는 건 당연하다. 다만 저작권을 제대로 인정하거나 비용을 지불하지 않았고, 지금도 그러고 있다는 점이 문제다.

개인이 창작한 콘텐츠, 언론사 등 기업이 만든 콘텐츠가 생성형 AI의 학습에 이용됐다는 문제제기는 AI 업계의 큰 이슈다. 관련 소송과 보도가 줄을 이었지만 AI 개발·서비스 기업들은 꿈쩍도 하지 않았다. 빅테크(거대 정보기술기업)들에 비하면 하찮은 개인과 소규모 기업들이 목청을 높여도 저작권 침해를 기술적으로 증명하기 어려울 것이라 생각했고, 실제 그러했기 때문이다. 증언이 없다면 이를 밝힐 수 없을 것이라 봤고, 기업들의 입막음으로 내부자의 폭로는 오랜 시간이 지난 후에나 가능할 것으로 예상했다. 그런데 그 시점이 생각보다 빨리 도래하고 있다.

미국 뉴욕타임스(NYT)는 6일(현지시간) 내부 사정을 잘 아는 소식통들을 인용해 빅테크들이 저작권 규정을 무시한 채 AI 학습용 데이터 확보에 사활을 걸고 있다고 보도했다. 보도에 따르면 챗GPT 개발사 오픈AI는 2021년 수집한 AI 학습용 데이터가 고갈될 상황에 처하자 유튜브 영상과 팟캐스트 등의 콘텐츠를 무단으로 사용했다. 영상 속 말소리를 받아적는 프로그램인 ‘위스퍼’(Whisper)까지 개발해 학습시켰다. 유튜브는 플랫폼에 올라온 영상을 다른 독립된 기능을 위해 사용하는 것, 위스퍼와 같은 자동화 프로그램 등을 이용한 영상 후처리를 금지하고 있어 명백한 규정 위반이다. 구글 대변인은 이에 대해 “오픈AI의 해당 관행에 대해 아는 바가 없다”고 부인했으나 NYT는 구글도 규정을 어긴 채 유튜브 영상을 자체 AI 개발에 사용했다고 전했다. 자사도 규정 위반을 한 상황이어서 구글 직원들이 오픈AI의 위반을 인지했음에도 그냥 넘어갔다는 내용도 덧붙였다.

메타는 페이스북·인스타그램 게시물뿐 아니라 인터넷의 소설, 에세이 등에도 무단으로 손을 댄 것으로 나타났다. NYT가 확보한 지난해 3~4월 메타의 회의 기록에 따르면 생성형 AI 담당 부사장은 인터넷에서 이용 가능한 거의 모든 영어 책과 에세이, 시, 뉴스 기사를 사용했다고 임원들에게 말했다. 회의 참석자들은 소송 가능성에도 불구하고 더 많은 데이터 확보 방안을 논의했다. 일부 간부들은 “오픈AI가 챗GPT 개발에 저작권 허가를 받지 못한 데이터를 사용한 것으로 보인다”며 “메타는 ‘시장의 선례’를 따라갈 수 있다”고 말했다고 NYT는 밝혔다.

일부 기업들은 AI가 생성한 데이터로 다시 AI를 학습시키는 ‘합성(synthetic)’ 데이터 활용 방안도 고민 중인 것으로도 전해졌다. 데이터 고갈 문제 해결을 위해서라지만 원 저작권자의 가공된 데이터를 재가공함으로써 창작물의 저작권을 희석시키려하는 것 아니냐는 의심도 생긴다. 2차, 3차 가공된 데이터는 저작권 위반 여부를 판명하기 더 어려워질 것이기 때문이다. 이처럼 짐작 가능했지만 밝혀지기 쉽지 않을 것으로 예상됐던 시나리오가 드러나고 있다. AI가 발전하고 활용이 늘어나면 문제도 많이 불거질 수밖에 없다. 책임 논란이 뒤따를 때마다 AI 학습의 저작권 침해가 드러날 가능성도 높아진다.

생성형 AI 활용을 앞다퉈 홍보하고 있는 국내 기업들은 저작권 문제에서 자유로울까. 일부 콘텐츠 기업들은 이미 빅테크 AI 기업들의 저작권 위반 사례들을 기술적으로 찾아내고 있다. 빅테크 기업들의 위반을 찾아낸 것과 같은 방법으로 국내 기업들의 저작권 침해도 충분히 찾아낼 수 있다. 내부 고발자들의 목소리가 곧 터져나올지도 모른다. 미리 저작권 있는 콘텐츠를 제대로 확보하기를, 이전에 그러지 못했다면 제대로 양해를 얻고 사전에 협의하기를 바란다. 공공연한 비밀은 곧 밝혀지게 돼 있다.

정승훈 논설위원 shjung@kmib.co.kr
포토