민주, 부정 평가 늘어나고… 통합, 막말에 흔들리고 [총선 빅데이터]

국민일보

민주, 부정 평가 늘어나고… 통합, 막말에 흔들리고 [총선 빅데이터]

격전지 6곳 게시글 빅데이터 분석

입력 2020-04-13 04:01

4·15 총선 공식 선거운동 기간 더불어민주당, 미래통합당 후보들이 쏟아낸 네거티브 캠페인이 오히려 해당 후보에 대한 부정적 평가를 높이고 있다는 빅데이터 분석이 나왔다.

특히 김대호 후보의 세대비하 발언, 차명진 후보의 세월호 막말이 수도권 접전지역 통합당 후보에 대한 부정적 평가에까지 상당한 영향을 끼친 것으로 조사됐다. 빅데이터 분석 방식을 이전 선거에 대입했을 때 후보자에 대한 부정 감성 추세 상승은 선거일이 가까울수록 당락에 직접 변수로 작용했다는 게 전문가들 평가다.

빅데이터는 알고 있다

국민일보는 경기대 빅데이터센터(센터장 장석진) 김택환 교수팀과 공동으로 지난달 20일부터 지난 9일까지 SNS상에 올라온 주요 격전지 6곳 후보에 대한 유권자 게시글 52만여 건을 텍스트 마이닝(text mining) 기법으로 추출해 분석했다.

트위터, 블로그, 인스타그램 등을 대상으로 ‘감성 연관어 분석’ 방식을 적용했다. 글에 나타난 긍·부정 감정 평가 알고리즘을 만들어 점수화한 것으로 2012년 미국 대선에서는 오바마 캠프가 여론 파악을 위해 활용했었다. 유권자가 설문에 답하는 여론조사와는 달리 SNS 상에 드러난 유권자 감정을 직접 분석, 디지털 민심을 유추하는 기법이다. 조사는 웹데이터 수집 전문회사 리스틀리와 빅데이터 분석 업체 언노운데이터에 의뢰했다.

이번 분석에서 빅데이터 민심과 주요 여론조사 결과는 유의미한 차이를 보였다. 민주당 후보들의 경우 공식선거운동 기간 상대 후보를 직접 공격하는 캠페인이 전개될수록 부정평가가 증가하는 현상이 나타났다. 정치 신인들일수록 이 같은 추세가 도드라졌다. 반면 통합당 후보들은 김 후보와 차 후보의 막말 논란이 불거진 지난 6~8일 부정평가가 급증했다.

사진=연합뉴스

차기 대권 주자의 맞대결이 펼쳐진 서울 종로의 경우 이낙연 민주당 후보는 최근 여러 건의 여론조사에서 황교안 통합당 후보에 오차범위 밖에서 앞섰다. 그러나 최근 디지털에서 확인한 민심은 이 후보 부정평가가 증가하고, 황 후보 부정평가는 일부 감소하는 추세가 나타났다. 다만 긍정평가 대비 부정평가 비중은 여전히 황 후보가 크게 높아 이 후보가 승기를 잡은 것으로 평가됐다.

지난달 20일부터 지난 9일까지 21일간 수집된 종로 관련 문서에서 이 후보에 대한 긍정 감성 비중은 32.0%로 나타났다. 부정 감성 비중은 36.6%로 4.6% 포인트 높았다. 같은 기간 추출·분석한 문건에서 황 후보의 경우 긍정, 부정 감성 비중이 각각 21.8%, 46.2%로 분석됐다. 두 후보 모두 부정 감성이 긍정 감성보다 우위에 있지만 그 폭은 황 후보가 더 컸다.

정치 신인과 대권 잠룡 간 대결 구도인 서울 광진을에선 후보 간 초접전 양상이 전개됐다. 전체 감성 연관어 분석에서 고민정 민주당 후보의 긍정 비율은 높고 부정 비율은 낮았다. 하지만 최근 들어 부정 감성 언급 비율이 늘어나면서 오세훈 통합당 후보와의 격차가 줄어들고 있다. 광진을 지역구의 경우 일별 빅데이터 감성 평가 점수가 가장 출렁이는 곳이어서 어느 후보도 낙관하기 어렵다는 게 빅데이터 업체 분석이었다.

사진=연합뉴스

지난달 20일부터 지난 9일까지 두 후보와 지역구를 함께 언급한 소셜 빅데이터에 나타난 감성 분석 결과 고 후보에 대한 긍정 감성 비율은 33.4%로 오 후보(26.9%)를 살짝 앞질렀다. 같은 기간 부정 감성 비율도 고 후보(24.7%)가 오 후보에 비해 11.8%포인트 낮았다. 전체 감성 평가 점수 상으로는 고 후보가 소폭 유리한 상황이다.

전직 판사 출신이 맞붙은 서울 동작을 역시 박빙 승부가 예측됐다. 디지털 민심에서는 이수진 후보가 초반 강세를 보였지만 선거운동이 진행되면서 부정평가가 추세 상승하면서 나 후보와 대등한 양상이 나타났다.

이 후보는 전체 7963건의 데이터 가운데 긍정 감성 언급 비율이 32.0%, 부정 감성 언급 비율이 36.6%로 조사됐다. 나 후보는 전체 7029건 가운데 긍정 감성 언급 비율이 23.9%, 부정 감성 언급 비율이 51.2%로 나타났다. 전체 언급량을 보면 나 후보의 부정 감성 언급 비율이 14.6% 포인트 더 높다.

리턴매치인 송파을에선 최재성 후보와 배현진 후보 모두 선거일이 다가오면서 부정 평가가 긍정 평가를 압도하는 현상이 나타났다. 최 후보는 전체 부정 감성 비율(40.5%)에서 배 후보(37.2%)를 3.3%포인트 앞질렀다. 보통 현역 의원의 경우 부정 의견이 높아도 인지도가 있어 총 언급량이 상당히 높은 편이다. 하지만 최 후보에 대한 총 언급량은 2563건으로 오히려 배 후보(2748건)에 비해 낮았다.

언노운데이터 분석팀은 “두 후보에 대한 긍·부정 평가 흐름은 비슷하지만 최 후보 언급량이 배 후보 언급량을 압도하지 못한다”며 “배 후보는 통합당 후보 중에서도 부정 비율이 높지 않아 배 후보가 최 후보를 따라잡은 것으로 보인다”고 분석했다.

어떻게 분석했나

텍스트 마이닝 기법으로 추출한 감성 빅데이터 분석에서는 부정 감성 연관어 비중이 당락 예측의 가장 중요한 기준이 된다. ‘싫다’ ‘나쁘다’ 같은 부정 표현이 ‘좋아요’ 같은 긍정 표현보다 감정 표출 면에서 적극적이기 때문이다.

데이터 분석업체는 긍정 부정의 감성어 비중이 하루 이틀 요동치고 원래자리로 돌아오는 현상은 당락에 큰 의미가 없다고 보고 있다. 후보자에 대한 감정이 굳어지는 추세가 중요해서다. 그래서 이슈가 터진 뒤 곧 사라지는 키워드들은 표준편차 값을 통해 제거했다. 지난 20대 총선 데이터를 기반으로 모델링을 했을 때도 일시적 요동은 당락에 큰 영향을 미치지 못한 것으로 분석됐다.

다만 유권자 감정에 영향을 미치는 이슈 발생 이후 추세가 움직이면 분석가치가 높다. 선거일에 임박해 긍정 비율이 급증할 경우 실제 당선에도 긍정적인 영향을 미치는 것으로 예측된다. 한 후보에 대한 부정적 감성이 늘어나는 추세라고 해도, 상대편 후보가 비슷하게 늘어가고 있으면 상쇄된다.

서기슬 언노운데이터 대표는 “유권자들의 디지털 민심은 선거 막판까지 계속 움직이고 있다”며 “선거직전 부정 감성이 높을수록 당선 가능성은 떨어진다”고 말했다.

황교안, 당내 공천·막말논란에 부정평가↑ [총선 빅데이터-서울 종로]
‘여론 주목’ 태구민 인지도, 4선 의원 압도 [총선 빅데이터-서울 강남]
주호영에 쏠렸던 디지털 민심, 후반엔 혼전 [총선 빅데이터-대구 수성갑]
이수진 부정 평가 증가… 나경원과 초박빙 [총선 빅데이터-서울 동작을]
우세하던 고민정, 빅데이터는 낙관 못해 [총선 빅데이터-서울 광진을]
뒤지던 배현진, 총 언급량서 최재성 앞서 [총선 빅데이터-서울 송파을]

전웅빈 김판 임주언 박세원 기자 imung@kmib.co.kr

많이 본 기사

포토

아직 살만한 세상