딥페이크 범죄 막을 400인의 얼굴… 새로운 노동이 온다 [이슈&탐사]

국민일보

딥페이크 범죄 막을 400인의 얼굴… 새로운 노동이 온다 [이슈&탐사]

[AI를 위해 일한다, 데이터 노동의 등장] <2회> 감춰진 인간의 피땀

입력 2020-10-14 04:07
30대 후반 여성을 촬영한 원본 영상(왼쪽)을 20대 중반의 여성 얼굴로 변조한 결과물(오른쪽). 이렇게 생성된 진짜·가짜 영상 데이터 세트는 ‘딥페이크 범죄’를 막는 인공지능(AI)를 학습시키는 데 쓰인다. 한국정보화진흥원 AI Hub 사이트

어느날 당신의 아버지가 영상통화를 걸어와 이야기를 한다. 급하게 500만원이 필요하니 당장 입금해 달라고. 상황이 의심스럽지만 말하는 모습, 목소리 모두 영락없는 아버지다. 돈을 입금한 뒤 다시 아버지에게 전화를 건다. “돈 받으셨죠?”(자식) “무슨 돈?”(아버지)

딥페이크(Deepfake) 기술로 가능한 사기다. 딥페이크를 이용한 범죄는 가까운 미래에 누구에게나 일어날 수 있다. 주목할 점은 딥페이크를 잡아낼 기술도 개발되고 있다는 것이다. 영상 속 아버지가 진짜인지 가짜인지 단박에 알아내는 게 목표다. ‘머신 러닝’ 혹은 ‘기계 학습’으로 불리는 AI 기술이 여기에 쓰인다. 그리고 이 AI의 뒤편에 ‘노동’이 투입된다. 한두 사람이 아니다. 수백명이 딥페이크를 막기 위한 일을 하고 있다.

‘데이터 노동’ 시대가 열리고 있다

정부는 지난 6월 ‘딥페이크 방지 영상을 위한 AI 학습용 데이터 구축사업’을 민간업체와 공공기관에 맡겼다. 올해 1차로 진행한 390억원 규모 ‘AI 학습용 데이터 구축사업’ 20개 과제 중 하나다. 추경 2925억원으로 마련한 2차 사업에서는 이런 과제를 150개 더 추가했다. 문재인 대통령이 직접 발표한 ‘디지털 뉴딜’ 사업의 핵심인 ‘데이터 댐’ 건설의 일환이다. 정부는 2차 사업으로만 2만8000명이 일자리를 얻을 것으로 예상하고 있다. 2025년까지 6년간 이 AI 학습용 데이터 구축 사업에 2조5000억원을 투입한다는 계획이다. AI를 가르치기 위해 데이터를 수집하고 가공하는 ‘데이터 노동’이라는 새로운 일자리의 시대가 열리고 있다.

딥페이크 방지 영상을 위한 AI 학습용 데이터는 두 개의 영상 세트로 구성된다. 하나는 진짜 영상이고 다른 하나는 가짜 영상이다. 진짜와 가짜를 함께 AI에 입력하고 AI가 스스로 차이를 알아낼 수 있도록 학습, 훈련시키는 게 딥페이크 방지 기술의 핵심 원리다. 정부 사업을 수주한 AI 전문기업 머니브레인의 권용재 연구원은 이렇게 설명했다. “처음에는 진짜와 가짜를 섞어 100개를 보여줍니다. 그중 가짜 50개 영상에서 눈에 문제가 있으면 기계는 ‘눈에 문제가 있으면 변조 영상이구나’ 하고 결정을 내립니다. 그 다음에 또 100개를 보여줍니다. 이번에는 눈뿐 아니라 입에 문제가 있는 영상도 있습니다. 눈만을 기준으로 하면 틀리니까 기계는 ‘눈과 입을 다 봐야 하는구나’라고 결정을 합니다. 이런 식으로 계속 훈련을 시켜 정답에 가까운 답을 내도록 하는 게 기계 학습입니다.”

권 연구원은 동료 유재성 연구원과 함께 가짜 영상을 만드는 일을 한다. 진짜 영상을 일부러 변조해 데이터 세트를 구성한다. 이런 학습용 데이터 세트가 많을수록 AI의 능력은 강해진다. 문제는 진짜 영상을 확보하는 일이다. 다른 사람의 영상을 제멋대로 가져다 쓸 수는 없다. 정치인, 연예인의 영상은 초상권 문제가 걸려 있다. 외국인의 영상을 쓰면 한국인에게 적용하기 어렵다. 국내에서 쓰일 기술이면 한국인의 영상이 필요하다.


여기가 데이터 노동이 생기는 첫 번째 지점이다. 즉 영상 촬영의 대상이 될 한국인이 필요하다. 현재 한국인 400여명이 딥페이크 방지를 위한 영상 촬영에 참여하고 있다. 정부 예산이 이들의 인건비로 쓰인다. 유재성 연구원은 “성별로 연령대가 다양한 400여명이 촬영을 하고 있다. 정부의 자금 지원이 나오므로 금전적 보상을 내걸고 사람을 모집한 것”이라고 말했다.

영상을 촬영하고 가공하는 일은 AI 데이터 기업 크라우드웍스가 맡고 있다. 이 회사 관계자에 따르면 촬영에 참여하는 사람들은 몸을 고정하고 한 곳만 바라보면서 똑같은 말을 100번 넘게 반복해야 한다. 이 관계자는 “상반신 어깨까지 나오는 방식으로 촬영을 하는데 모두 100초에 이르는 문장 열 개를 150차례 반복해 말하는 식”이라고 말했다.

촬영된 영상을 바로 AI에 투입할 수 있는 것은 아니다. AI가 눈, 코, 입을 인지할 수 있도록 표시를 해줘야 한다. 즉 왼쪽 눈에는 ‘왼쪽 눈’이라는 이름을, 오른쪽 눈에는 ‘오른쪽 눈’이라는 이름을 붙여줘야 한다. 이 작업을 ‘데이터 라벨링’으로 부른다. 사람의 노동이 필요한 두 번째 지점이다. 이 일을 하는 사람들은 ‘데이터 라벨러’다. 라벨링은 데이터 노동의 가장 대표적인 유형이다. 크라우드웍스 관계자는 “딥페이크 방지 영상 관련 라벨링은 곧 프로젝트를 시작해 수십명을 선발할 계획”이라며 “이력을 보고 이미지 라벨링 작업에 숙련된 사람 위주로 선별할 것”이라고 말했다.

안양 CCTV 앞 1000명이 선 이유는

정부 AI 학습용 데이터 구축 사업 중에는 ‘한국인 재식별 AI 학습용 데이터’를 모으는 일도 있다. 여러 CCTV 영상을 보고 거기에 등장하는 동일한 사람을 찾아내는 기술을 위한 것이다. 이 기술이 고도화되면 실종 아동을 찾거나 범인의 동선을 추적하는 일이 쉽고 정확해진다.

한국인 재식별 AI 모델을 구현하는 데도 노동력이 대거 투입된다. 현재 이 사업은 보행자 1000명의 영상을 찍고 있다. 촬영은 경기도 안양시의 협조를 얻어 관내 CCTV 주변에서 이뤄진다. 영상 이미지 패치(조각)로 따지면 400만장 이상의 데이터를 확보하는 게 목표다. 한 명당 최소 10대의 CCTV에 10초 이상 노출시킨다. 지나가는 사람을 아무나 찍는 게 아니다. 촬영에 참여할 1000명을 모집하고 이들에게 보수를 지급한다.

촬영된 영상은 다시 데이터 라벨러의 손을 거친다. 라벨러들은 400만장의 이미지를 하나하나 들여다보면서 ‘머리가 긴 사람이다’ ‘상의는 녹색이다’ ‘하의는 검정이다’ 등 데이터의 속성을 표시하는 작업을 하고 있다. 촬영 장소의 실내·실외 여부와 시간대, 마스크 착용 여부, 성별, 나이, 키 등에 대한 정보도 입력한다.

안면인식 레이블링 작업 예시. 눈, 코, 입, 귀에 네모칸을 지정해준 뒤 각 항목에 대한 설명을 입력해야 한다. 한국정보화진흥원 AI Hub 웹사이트 캡쳐

사업 컨소시엄 중 휴먼아이씨티라는 업체가 촬영 및 데이터 가공 작업을 하고 있다. 이 업체는 이 일을 위해 최근 수십명을 신규 채용했다고 한다. 이 사업의 대표 수행 기관인 한국과학기술연구원의 조정현 선임연구원은 “휴먼아이씨티에서 데이터 색인 작업을 하는 사람만 30명이고 신규 채용한 사람은 50명이 넘는다”고 말했다. 조 연구원은 “정부 사업비 대부분이 사람을 채용하고 그 사람들로 하여금 데이터 색인 기술을 익히도록 하는 데 사용된다”고 말했다.

AI를 만드는 데 많은 노동력이 필요한 이유는 잘 정돈된 데이터가 AI 구현에 필수적이기 때문이다. 지금의 AI 모델은 대부분 기계 학습에 기반하고 있다. 학습 데이터가 많아질수록 주어진 문제를 해결할 확률이 높아진다. 그렇지만 현실에서 AI를 가르칠 데이터는 많지 않다. 특히 국내에서 작동시키려면 우리의 현실에 맞는 데이터가 있어야 하지만 턱없이 부족한 실정이다.

데이터 노동의 종류는 구현하고자 하는 AI 모델에 따라 천차만별이다. AI를 사람처럼 듣고 말하게 하려는 자연어 처리 분야에서는 말뭉치 데이터의 생성과 가공이 필요하다. 자율주행 자동차 분야에서는 도로 주변 사물에 대한 데이터 처리가 필수적이다. AI 데이터 기업 크라우드웍스 관계자는 “자율주행과 사물인터넷(IoT) 등 4차 산업혁명의 핵심 기술이 속속 등장하면서 음성, 동영상 등 비교적 작업 난도가 높은 데이터의 수요가 증가하고 있다”고 말했다.

데이터 노동은 AI 학습용 데이터 아웃소싱 단계의 가장 끝단에 있다. 데이터가 필요한 기업은 직접 일하기보다 ‘이러이러한 데이터를 모아 달라’고 전문 데이터 수집·가공 기업에 주문한다. 주문을 받은 기업은 크라우드소싱 방식으로 데이터를 수집, 가공한다.

데이터 노동 상당수는 시간과 장소에 상관없이 일하는 게 가능하다. 데이터 생성, 수집 단계의 작업은 대부분 하루 한두 시간만 일해도 된다. 컴퓨터만 다룰 줄 알면 되므로 나이도 상관 없다. 진입장벽이 낮아 장애가 있어도 할 수 있는 일이 다양하다.

한 발달장애인이 지난 7일 서울 송파구 AI 데이터 전문기업 데이터큐 사무실에서 차량 번호판 숫자와 문자를 구별해 입력하는 작업을 하고 있다. 권현구 기자

지난 7일 찾은 서울 송파구 데이터큐 교육장에는 청각장애인 4명이 데이터 라벨링 교육을 받고 있었다. AI 데이터 기업인 테스트웍스의 자회사인 데이터큐는 장애인과 경력단절 여성 등 고용 취약계층을 데이터 인력으로 키워내는 교육을 진행 중이다. 이날은 모니터 속 차량번호판을 영역으로 지정한 뒤 숫자와 글씨를 입력하는 방법을 교육했다. 이미지 데이터 라벨링 중에서 가장 난도가 낮은 단계로 꼽히는 OCR(광학문자인식) 작업이다. 윤재홍 테스트웍스 운영지원팀 선임은 “발달장애인에게 업무 방식을 충분히 알려주면 작업 속도가 정말 빠르다. 숙련도가 올라가면 장애인 작업자도 검수 인력으로 성장할 수도 있다”고 말했다.

정부가 ‘긱 이코노미’ 확장하나

AI를 위한 노동은 겉으로 잘 드러나지 않고 의도적으로 감춰지는 경우가 많다는 점에서 전문가들은 이를 ‘유령 노동(ghost work)’으로 부른다. 미국 마이크로소프트 연구소의 메리 그레이와 시다스 수리는 지난해 책 ‘고스트 워크’에서 AI를 발달시키고 보완하는 업무를 하는 사람들을 ‘유령 노동자(ghost worker)’로 불렀다.

그동안 AI를 위한 데이터 노동은 민간 기업 중심으로 진행됐다. 아마존은 엠터크(아마존 미캐니컬 터크(Amazon Mechanical Turk)의 약칭)라는 사이트를 통해 데이터 노동을 중개하고 있다. 기업이나 기관이 필요한 ‘데이터 작업’을 엠터크 사이트에 올려두면 전 세계에 있는 참여자들이 자신이 할 수 있는 일을 골라 하고 작업별로 보수를 받는다.

국내에서는 데이터가 필요한 기업이 데이터 전문 기업에 주문하는 식으로 데이터 노동이 이뤄져 왔다. 정규 일자리라기보다 ‘알바’ 개념이 강했다. 필요에 따라 임시로 일을 주문하고 맡기는 긱(gig) 이코노미의 대표적 현상으로 여겨졌다.

정부의 데이터 댐 구축 추진은 민간 중심인 데이터 노동 시장을 정부가 주도적으로 확장한다는 의미가 있다. 이는 일단 AI산업 발전에 긍정적으로 작용할 것으로 보인다. 관련 전문가들은 데이터를 모으는 일이 중요하다고 말한다. 그렇지만 짧은 기간에 대량의 데이터를 수집, 가공한다는 현재 정책 모델이 얼마나 효과를 낼 것인지 의문이 제기된다.

국무총리 산하 공공데이터전략위원회 실무위원을 맡고 있는 김학래 중앙대 문헌정보학과 교수는 “예산 3000억원을 올해 안에 다 소진해야 하는데 주어진 시간은 3개월 정도”라면서 “과연 그 안에 적절한 관리체계를 확보하고 양질의 데이터를 만들 수 있을지 의문”이라고 말했다.

무엇보다 오로지 일자리 창출이라는 목적으로 일회성이거나 단기적인 성격의 일을 양산하는 게 아니냐는 비판이 나온다. 유령 노동과 긱 이코노미가 확대되는 현상을 정부가 앞당기는 결과를 낳을 수 있다는 우려도 있다. 이에 대해 박정은 한국정보화진흥원 AI데이터추진단장은 “정부 사업이 시작된 지 얼마 되지 않았고 시장도 아직 성숙되지 않았다”며 “데이터 라벨러들이 잘 성장할 수 있도록 돕는 정책도 함께 이뤄지고 있기 때문에 라벨러를 발판으로 데이터 기획자나 관련 전문가로도 성장해 나갈 수 있을 것”이라고 말했다.

이슈&탐사2팀=권기석 김유나 권중혁 방극렬 기자 keys@kmib.co.kr

[AI를 위해 일한다. 데이터 노동의 등장]
▶①“내가 로봇의 비서라니…” 인간 노동이 일구는 AI [이슈&탐사]
▶③파파고는 집단지성의 산물… 번역가는 사라지지 않는다 [이슈&탐사]
▶④“아기 잠들면 일해요” 자투리 노동에 돈이 쌓인다 [이슈&탐사]
▶⑤디지털 뉴딜 핵심 데이터 댐, ‘알바 댐’ 될라… 새 안전망 필요 [이슈&탐사]

많이 본 기사

아직 살만한 세상