주호영에 쏠렸던 디지털 민심, 후반엔 혼전 [총선 빅데이터-대구 수성갑]

국민일보

주호영에 쏠렸던 디지털 민심, 후반엔 혼전 [총선 빅데이터-대구 수성갑]

입력 2020-04-13 04:03 수정 2020-04-13 10:15
사진=연합뉴스

대구 수성갑 지역구 후보에 대한 디지털 민심은 투표일이 다가올수록 혼전 양상을 나타냈다. 초반에는 미래통합당 주호영 후보가 더불어민주당 김부겸 후보보다 우위를 보였지만 주말 사이 김 후보가 이를 뒤집는 등 엎치락뒤치락하는 모습이 12일 관측됐다.

지난달 22일부터 지난 11일까지 수집된 대구 수성갑 관련 소셜 데이터에 따르면 김 후보에 대한 긍정 감성 비율은 35.8%로 주 후보(32.7%)를 약간 웃돌았다. 부정 감성 비율 또한 김 후보가 27.2%로 31.8%인 주 후보보다 낮았다. 다만 전체 언급량에서는 현역인 김 의원과 지역구를 옮겨 온 주 후보 간 차이가 크지 않았다. 김 후보가 미세하게 우위를 차지한 상태에서 접전이 펼쳐지고 있는 것으로 해석된다. 지난달 20일부터 지난 9일까지 수집된 데이터 상에선 김 후보에 대한 부정 감성 비율이 28.7%로 나타나 주 후보 부정 감성 비율(23.2%)을 웃돌았다.

국민일보와 CBS가 리얼미터에 공동 의뢰해 지난 4~5일 대구 수성갑 거주 18세 이상 503명을 대상으로 진행한 여론조사에서는 주 후보가 47.5%의 지지율을 얻어 김 후보(42.7%)를 오차범위 내 근소한 차로 앞섰다.

여론조사와의 차이는 사전투표가 진행된 10~11일 사이 만들어졌다. 여론조사 공표 금지가 시작된 9일까지는 빅데이터도 주 후보에 더 우호적인 모습을 보여 왔다. 하지만 10일과 11일 김 후보에 대한 언급량 자체가 크게 늘면서 혼전 양상을 띄기 시작했다. 이틀간 김 후보에 대한 긍정적 언급과 부정적 언급 총량은 각각 86건, 57건으로 주 후보에 대한 긍·부정 언급(27건, 27건)을 압도했다. 선거 당락에 영향을 미치는 부정 감성 비율 추이도 김 후보는 투표일에 가까워질수록 하락하는 반면 주 후보는 상승하는 양상을 보였다.

김 후보에 대한 상위 10개 긍정 감성어 중에서는 ‘승리하다’ ‘유명하다’ 등이 눈에 띄었다. 현역의원 프리미엄과 전 행정안전부 장관으로서의 인지도 등이 반영된 결과로 보인다. 부정 감성어로는 ‘위태롭다’ ‘힘들다’ ‘쉽지 않다’ 등이 있었다. 오차범위 내이긴 하지만 주 후보에 비해 여론조사에서 열세라는 점을 표현하는 동시에 지지층에 결집을 호소할 수 있는 키워드로 풀이된다.

주 후보의 경우 긍정 감성어로는 ‘완화하다’ ‘안전한’ 등이 상위권을 차지했다. 투기과열지구 해제 등 부동산 규제 완화를 대표 공약으로 제시한 주 후보의 전략에 지지층이 반응한 것으로 보인다. 부정 감성어로는 ‘위기 맞다’ 등이 눈에 띄었다. 주 후보는 ‘문재인 케어로 인한 건강보험 재정 고갈 위기’ ‘코로나 위기’ 등 현 정부의 정책을 비판하는 메시지를 전할 때 위기라는 단어를 주로 사용해왔다.

‘희망’과 ‘기대’ 등의 긍정 감성 키워드는 두 후보와 관련해 공통적으로 빈번하게 검색됐다. 최근 감염병 사태의 최대 피해지역이 됐던 대구 유권자들의 심리가 깔려있다는 분석이다.

그 밖의 사항은 사항은 중앙선거여론조사심의위원회 홈페이지 참조

어떻게 분석했나

국민일보는 경기대 빅데이터센터(센터장 장석진) 김택환 교수팀과 공동으로 지난달 20일부터 지난 9일까지 SNS상에 올라온 주요 격전지 6곳 후보자에 대한 유권자 평가글 52만여 건을 텍스트 마이닝(text mining) 기법으로 추출해 분석했다. 트위터, 블로그, 인스타그램 등을 대상으로 ‘감성 연관어 분석’ 방식을 적용했다. 글에 나타난 긍·부정 감정 평가 알고리즘을 만들어 점수화한 것으로 2012년 미국 대선에서는 오바마 캠프가 여론 파악을 위해 활용했었다. 유권자가 설문에 답하는 여론조사와는 달리 SNS 상에 드러난 유권자 감정을 직접 분석, 디지털 민심을 유추하는 기법이다. 조사는 웹데이터 수집 전문회사 리스틀리와 빅데이터 분석 업체 언노운데이터에 의뢰했다.

텍스트 마이닝 기법으로 추출한 감성 빅데이터 분석에서는 부정 감성 연관어 비중이 당락 예측의 가장 중요한 기준이 된다. ‘싫다’ ‘나쁘다’ 같은 부정 표현이 ‘좋아요’ 같은 긍정 표현보다 감정 표출 면에서 적극적이기 때문이다.

데이터 분석업체는 긍정 부정의 감성어 비중이 하루 이틀 요동치고 원래자리로 돌아오는 현상은 당락에 큰 의미가 없다고 보고 있다. 후보자에 대한 감정이 굳어지는 추세가 중요하기 때문이다. 그래서 이슈가 터진 뒤 곧 사라지는 키워드들은 표준편차값을 통해 제거했다.

지난 20대 총선 데이터를 기반으로 모델링을 했을 때도 일시적 요동은 당락에 큰 영향을 미치지 못한 것으로 분석됐다. 다만 유권자 감정에 영향을 미치는 이슈 발생 이후 추세가 움직이면 분석가치가 높다. 선거일에 임박해 긍정 비율이 급증할 경우 실제 당선에도 긍정적인 영향을 미치는 것으로 예측된다. 한 후보에 대한 부정적 감성이 늘어나는 추세라고 해도, 상대편 후보가 비슷하게 늘어가고 있으면 상쇄된다.

민주, 부정 평가 늘어나고… 통합, 막말에 흔들리고 [총선 빅데이터]
황교안, 당내 공천·막말논란에 부정평가↑ [총선 빅데이터-서울 종로]
‘여론 주목’ 태구민 인지도, 4선 의원 압도 [총선 빅데이터-서울 강남갑]
이수진 부정 평가 증가… 나경원과 초박빙 [총선 빅데이터-서울 동작을]
우세하던 고민정, 빅데이터는 낙관 못해 [총선 빅데이터-서울 광진을]
뒤지던 배현진, 총 언급량서 최재성 앞서 [총선 빅데이터-서울 송파을]

임주언 기자 eon@kmib.co.kr

많이 본 기사

포토

아직 살만한 세상