경불진 이피디의 경제공부방

'대량살상수학무기' 아시나요? 본문

책 행간 읽기

'대량살상수학무기' 아시나요?

경불진 이피디 2021. 8. 5. 19:49
반응형

 

‘AI분석 기술로 정교하게 분석해줍니다.’

빅데이터를 활용해 맞춤형으로 추천해줍니다.’

 

이제는 흔하게 볼 수 있는 광고 문고입니다. 게임·IT·금융·보험 등은 물론이고 이제는 교육이나 헬스, 가구, 의료, 인사 등 거의 모든 분야에서 AI나 빅데이터를 강조하고 있죠. 새로 나온 서비스나 제품에 AI나 빅데이터란 문구가 없으면 왠지 시대에 뒤떨어진, 뭔가 부족해 보이는 생각까지 들곤 합니다. AI나 빅데이터가 아닌 구식 방법으로 만들었으니 제대로 된 것이 아니라고 여기게 되죠.

 

그러면 질문. AI와 빅데이터로 만든 서비스나 제품은 믿어도 될까요?

 

오늘은 우리가 믿어왔던 AI나 빅데이터의 실상을 파헤쳐볼까 합니다. 과연 믿을만한 녀석인지 말이죠. 그리고 이를 통해 우리의 대응책도 살펴볼 예정입니다.

 

제가 AI나 빅데이터의 전문가도 아닌데 이걸 어떻게 하냐고요? 물론 제가 직접 AI나 빅데이터를 분석하는 것은 아니고요. 지난해 읽었던 책의 도움을 받을 예정인데요. 너무나 재미있게 읽었던 책이었는데 방송에서 소개할 기회가 없었거든요. 그런데 최근 한 프로그램을 보면서 큰 충격을 받았는데 이 책이 딱 떠오르더군요. 그래서 책에서 읽었던 내용과 함께 저를 포함한 많은 사람들을 깜짝 놀라게 만들었던 프로그램을 지금부터 이야기 나눠볼까 합니다.

 

2주전 MBC스트레이트를 보신 분들은 정말 많은 충격을 받으셨을 것입니다. 그리고 그동안 이상했던 의문도 풀리 셨을테고요. 저도 짐작은 했지만 구체적인 조사내용을 보니 정말 기가 막히더군요.

 

네이버 모바일 뉴스홈 분석이란 제목의 방송이었는데요. 제목처럼 네이버 모바일 뉴스 홈에 주로 어떤 기사들이 실리는지를 조사한 것입니다. 내용은 간단합니다. 많은 분들이 의문을 가지고 있었던 내용을 검증한 것인데요. 네이버의 인공지능이 보수편향 뉴스를 위주로 보여준다는 것이죠. 실제로 이런 의문을 품으신 분들이 많을 것입니다. ‘AiRS(AI Recommender system, 에어스)’라고 불리는 인공지능 추천 기사를 보다보면 유독 보수적 시각의 뉴스가 많잖아요,

 

하지만 이런 의문에 대해 네이버는 줄곧 객관적인 시각을 가질 수 밖에 없는 인공지능이 뉴스를 추천하는 것이기 때문에 보수적 뉴스가 많다는 것은 그냥 느낌일 뿐이라고 해명해 왔습니다. 진보, 보수 등의 정치색을 띄지 않는 인공지능이 편향됐다는 것은 인공지능을 모르는 무식한 발언이라고 무시하기도 했습니다. 특히 우리나라에는 보수매체가 상대적으로 더 많으니 보수적 뉴스가 많은 것은 당연한 결과 일 수 있다고도 주장하고요.

 

참고로 MBC 스트레이트가 이런 의혹에 대해 조사한 것은 이번이 처음은 아닙니다. 지난해 말에 PC버전에서 볼 수 있는 네이버 뉴스홈에서 어느 언론사 기사들이 많이 노출됐는지를 조사했는데요. 당시 조사에서 홈 첫 페이지 최상단에 위치한 헤드라인 뉴스(뉴스홈에서 가장 먼저 보게 되는 위치로 6개 기사가 노출)들을 조사한 결과, 이곳에 가장 많이 노출된 언론사는 중앙일보(점유율 15.7%), 연합뉴스(15.1%), 조선일보(7.9%), 세계일보(5.8%), 한국경제(5.3%) 순이었습니다. 네이버에 기사를 제공하는 언론사는 75곳이나 되는데 중도로 분류되는 연합뉴스를 제외한 보수언론들이 대부분을 차지한 셈입니다.

 

이 방송이 나간 후 네이버는 특정 언론사를 우대하는 알고리즘을 쓰지 않고 있고 개인화한 영역(개인 맞춤 서비스)에서의 뉴스 소비가 90%에 달한다고 해명했습니다. 요즘 누가 PC버전으로 네이버를 보냐는 것이죠. 모바일 특히 인공지능이 추천해주는 에어스는 절대 그럴 리 없다라고 자신한 것이죠. 뉴스 알고리즘에 사람이 개입할 가능성이 없다고 잘라 말합니다.

 

MBC 화면 캡쳐

 

과연 그럴까요? 그래서 이번에 MBC 스트레이트가 모바일 앱을 분석한 것입니다. 특히 에어스 추천에서는 편향성이 없는 살펴본 것이고요. 특히 네이버는 물론 최근 보수화 논란이 일고 있는 다음 모바일앱에 접속해 조사를 했는데요. 에어스 등 인공지능이 정말 편향성이 없는지를 알아보기 위해 비로그인 상태와 로그인 상태로 나눠 실험을 진행했다고 합니다. 편향성이 없다면 비로그인 상태에서는 골고루, 로그인 상태에서는 진보적인 사람에게는 진보적인 매체가, 보수적인 사람에게는 보수적인 매체가 더 많이 등장해야 하겠죠.

 

일단 조사결과 비로그인 상태에서 네이버 마이뉴스에 가장 많이 노출된 언론사 1위는 중앙일보(15.6%), 2위 연합뉴스(13.8%), 3YTN(6.6%), 4위 조선일보(5.4%), 5위 한국경제신문(4.3%)이었습니다. 이들 5개 언론사가 마이뉴스 노출 기사의 절반가량(45.7%)을 차지했죠, 지난해 1PC 조사 때와 비교해보면 세계일보가 빠지고 YTN이 들어간 것말고는 큰 차이가 없습니다.

 

재미난 것은 로그인한 상태에서도 보수성향 기사를 전문으로 1주일간 학습시킨 아이디, 진보성향 기사를 전문으로 학습시킨 아이디를 만들어 실험을 한 것입니다. 인공지능이 학습을 해서 맞춤형으로 추천해준다고 네이버가 그토록 자랑했던 에어스를 조사한 것인데요. 일단 보수성향 기사를 학습시킨 아이디에서는 물론 진보성향 기사를 학습시킨 아이디도 보수언론과 중도성향 위주로 추천을 받았습니다. 진보 성향의 경향신문과 한겨레만 읽은 아이디도 AI가 연합뉴스, 중앙일보, 조선일보, KBS 순으로 기사를 추천한 것입니다.

 

좀더 편파적인 성향을 가질 수 있도록 정치기사로 한정하고 조사기간을 3주로 늘렸을 때는 어땠을까요? 결과가 오히려 더 심해졌습니다. 진보성향 ID는 뉴스1, 연합뉴스, 국민일보, 데일리안, 중앙일보 순으로 기사를 추천받았습니다. 데일리안은 극우성향 인터넷 매체인데 말입니다.

 

이에 대해 네이버는 또 기사량이 많은 언론사가 더 노출이 많이 되는 것이 당연하다구독자 수 많은 언론사에 가중치를 많이 둔 것이다라고 해명했습니다.

 

그러나 네이버의 해명과 스트레이트팀이 네이버 기사 송고량과 노출량을 분석한 결과, 마이뉴스 점유율 1위 언론사인 중앙일보의 기사 송고량은 21개 언론사 중 14, 점유율 4위 조선일보는 기사 송고량 18, 점유율 9위 동아일보는 송고량 16위였습니다.

 

반면 송고량 19위인 경향신문은 점유율 19위를 차지하며 송고량 18위인 조선일보가 점유율 4위를 차지한 것과 큰 차이를 보였습니다.

 

진보성향 뉴스만 봐도 보수적 뉴스를, 기사 송고량이 적어도 보수적 뉴스를 먼저 네이버 에어스가 보여주고 있다는 것입니다. 이는 다음도 크게 다르지 않았습니다. 뉴스 알고리즘에 사람이 개입할 가능성이 없다고 네이버와 다음이 주장을 믿을 수 있을까요?

 

실제로 AI, 빅데이터라는 그럴싸한 말로 사람들을 현혹시키는 꼼수를 적나라하게 파헤친 책이 있습니다. 바로 대량살상수학무기’(흐름출판)라는 책인데요. 이름부터 무시무시하죠. 대량살상, 무기에다가 많은 분들이 가장 싫어하는 과목인 수학까지 거론하고 있으니까요. 그런데 이 책은 수학을 몰라도 충분히 읽을 수 있습니다. 아니 꼭 읽어야 합니다. 수학이라는 말만 나오면 치를 떨고, AI, 빅데이터가 했다고 하면 그저 좋은 것으로, 최첨단으로 여기는 일반인들을 기득권들이 어떻게 속이고 착취하는지를 자세히 설명해주기 때문입니다. 특히 앞서 언급했던 것처럼 AI, 빅데이터란 용어가 일상화됐는데 그것이 얼마나 헛소리인지도 알려줍니다.

 

정말 책에 나온 내용은 믿을 만한가 의심도 생길 것입니다. 그런데 저자의 프로필을 보면 금방 고개가 끄떡여집니다. 하버드대에서 학위를 받고 매사추세츠공대(MIT)에서 박사후과정을 거쳐 바너드 칼리지 수학과 종신교수가 된 수학자인 캐시 오닐은 저자입니다. 하지만 수학을 현실 세계에 활용한다는 데 매료돼 2007년 헤지펀드로 옮겨 잘나가는 퀀트(수학모형 기반의 계량분석 기법을 활용하는 금융분석가)가 되죠. 데이터과학자로서 알고리즘을 개발하고 활용해 천문학적 규모의 자금을 거래하다 2008년 월스트리트발 세계금융위기를 겪으며 수학과 금융의 결탁이 불러낸 파괴적 힘에 환멸을 느끼고 월스트리트를 떠났습니다. 장밋빛 빅데이터 경제가 실은 부익부 빈익빈의 양극화를 심화시키고 민주주의를 파괴한다는 사실을 절감한 그는 지금 월스트리트를 점령하라!’ 운동의 하위조직인 대안 금융그룹을 이끌면서 대량살상 수학무기의 위험성을 측정하고 알리는 일을 하고 있습니다.

 

그럼 캐시 오닐이 경고하는 대량살상 수학무기는 도대체 뭘까요? 데이터·정보통신기술을 결합해 원하는 답을 출력해내기 위한 수학적 알고리즘, 즉 컴퓨터 입력용으로 코드화한 프로그램을 가리킵니다. 앞서 언급했던 AI, 빅데이터도 여기에 포합되죠. 금융·IT 등 일부 분야에서만 쓰이던 대량살상 수학무기는 이제는 사법, 교육, 노동(취업), 보험, 정치(선거) 등 사회 모든 영역으로 확산되고 있는데요. 캐시 오닐은 앞으로 몇년 안에 대량살상 수학무기가 전 세계를 혼란에 빠뜨리는 주요 화두로 떠오를 것이라고 경고합니다.

 

캐시 오닐은 이미 많은 사람들이 매일 같이 대량살상 수학무기에 희생되고 있다고 지적합니다. 대표적인 사례가 최첨단이라고 알려진 대출시스템입니다. 기존 대출과는 달리 다양한 빅데이터 분석을 통해 보다 저렴하게 대출을 해준다는 소위 핀테크 업체들이 늘어나고 있잖아요. 국내에도 마찬가지고요.

 

구글의 최고운영책임자였던 더글러스 메릴은 빅데이터를 이용하면 위험도를 계산해서 단기소액대출을 할인된 금리로 제공할 수 있을 거라고 아이디어를 바탕으로 2009년 제스트 파이낸스라는 스타트업을 창업했습니다. 회사 홈페이지에는 모든 데이터가 신용 데이터다라는 선언을 써놓을 정도로 빅데이터, AI분석을 자랑했습니다. 네이버, 다음의 인공지능 뉴스추천처럼 말이죠.

 

제스트 파이낸스는 대출 신청자 1인당 최대 1만 개의 데이터를 수집, 분석해 신용도, 위험도를 측정한다고 합니다. 이런 이야기를 들으면 기존에 인맥을 통해하는 것보다 훨씬 정교하면서도 공정할 것이라고 믿을 수 밖에 없죠. 기존 금융권에서 퇴짜 맞았던 사람들도 희망을 가지게 되고요. 그런데 과연 그럴까요?

 

제스트 파이낸스는 1명당 무려 1만개의 데이트를 수집한다고 했는데 도대체 뭘 수집할까요? 당연히 그동안의 금융거래 기록 등을 살펴볼 것 같은데 이걸로는 1만개가 되기 힘들잖아요. 캐시 오닐을 내부 자료를 입수해 공개한 것을 보면 놀랍습니다. 1만개 안에는 온라인으로 대출신청서를 작성할 때 맞춤법을 맞게 쓰는지, 구두점은 제대로 찍는지, 신청서 작성에 얼마나 시간이 걸리는지 등도 포함된다고 하는군요. 그런데 이게 신용도랑 무슨 상관있을까요?

 

제스트 파이낸스는 규칙을 준수하는 사람이 신용도가 높다고 본다는 것입니다. 참 어의없죠. 하지만 그럴 수 있지 않느냐고 항변하는 분들도 계실 것입니다. ‘하나를 보면 열을 안다는 말도 있는데 하면서요. 물론 이것도 틀린 이야기는 아닙니다.

 

하지만 찬찬히 따져볼까요? 대출신청서를 작성할 때 맞춤법이 틀리거나 구두점을 제대로 못 찍거나 작성에 시간이 오래 걸리는 사람은 대체로 어떤 부류일까요?

 

교육수준이 낮거나 이민자일 가능성이 매우 큽니다. 그런데 교육수준이 낮거나 이민자가 대출 받은 돈을 못 갚을 위험성이 높을까요? 이렇게 생각하는 사람들도 있겠지만 이건 잘못된 편견에 불과합니다. 각종 조사나 보고서를 보면 부자보다 가난한 사람들이 대출을 떼먹을 확률이 훨씬 낮습니다. 부자가 더 많이 사기도 치고 빚도 안 갚는다는 것이죠.

 

따라서 제스트 파이낸스가 규칙을 준수하는 사람이 신용도가 높다고 본 것은 가난과 인종에 대한 차별을 교묘하게 드러낸 것이라고 캐시 오닐을 주장합니다. 이런 알고리즘을 교묘하게 숨겨서 당장 돈이 필요한 가난한 사람에게 더 많은 이자를 뜯어낸다는 것이죠. 바로 경제시그널에서 지적했던 은행가의 역설이 벌어지는 셈이죠.

 

그런데 제스트 파이낸스가 성공하자 이를 쫓아하는 핀테크 업체들 대부분도 비슷한 짓거리를 하고 있다고 캐시 오닐을 지적합니다. AI, 빅테이터를 통해 공정하게 평가한다는 그럴싸한 포장을 앞세워 가난한 사람과 이민자들을 차별하고 있다는 것이죠. 실상 뒤로는 가난한 사람과 이민자들에게 불리할 수 밖에 없는 데이터를 끊임없이 발굴해내고 있다는 것입니다.

 

기존 금융권에서 대출받기 힘들었던 사람들중 상당수가 카카오뱅크 등에서도 왜 퇴짜를 받았는지 이해되시죠?

 

문제는 이것으로 그치지 않습니다. 이같은 교묘한 방식이 일자리를 구하고, 아파트를 빌리거나 심지어 데이터 상대를 소개해주는 업체에도 널리 쓰이고 있기 때문입니다. 이는 곧 사회 곳곳에서 빅데이터의 차별적 판단이 확산된다는 뜻입니다.

 

더 나아가 범죄도 마찬가지입니다.

 

일례로, 미국 뉴욕 등에서 범죄를 줄이기 위해 범죄 예측 소프트웨어라는 수학 모형을 사용합니다. 영화 마이너리티 리포트에 나왔던 범죄 예측 시스템과 비슷하죠. 하지만 영화와는 달리 범죄를 예측하지는 않고 범죄가 자주 일어나는 지역에 점을 찍어 점이 많은 지역의 순찰을 강화하는 방식입니다. 당연히 그렇게 해야 한다고 생각하는 분들이 많을 것입니다. 국내에서도 범죄우발지역은 경찰차가 많이 돌아다니잖아요. 전혀 문제가 없어 보이죠.

 

하지만 여기에도 대량살상수학무기의 교묘한 술책이 숨겨져 있다고 캐시 오닐을 주장합니다. 도대체 어떤 술책일까요? 범죄 예측 소프트웨어를 만들려면 기본적인 데이터가 필요하죠. 앞서 대출신용평가처럼 많은 데이터로 빅데이터, AI 분석을 할수록 더욱 정교해질 것입니다. 이건 너무나 당연하죠.

 

그런데 여기에 함정이 있습니다. 많은 데이터가 필요하기 때문에 온갖 범죄 데이터가 다 수집되기 시작합니다. 기존에는 훈방 등으로 가볍게 넘어갈 범죄도 데이터로 쌓이기 시작한다는 것이죠. 문제는 이런 경범죄는 어디에서 주로 일어날까요? 바로 저소득층의 가난한 지역이고 흑인, 히스패닉 계열의 사람들이 많이 거주하는 곳입니다. 이런 지역에서는 싸움도 자주 일어나고 마약도 많이 하겠죠. 그런데 초기에 이런 지역으로 선정되면 이 지역에 자주 순찰하게 되고 이런 순찰이 길어지면 경범죄를 발견할 기회도 상대적으로 많아집니다. 자연스럽게 그 지역에는 더 많은 점이 찍히게 되고 순찰은 더욱 심화되죠. ‘해로운 피드백 루프가 형성되는 것이죠.

 

실제로 이 프로그램을 사용한 후 전체 범죄율은 줄어들었지만 유색인종과 저소득층의 범죄율은 오히려 증가했다고 합니다. 경범죄라도 범죄는 범죄이니 단속해야 하는 것 아니냐고 하실 수 있습니다. 그런데 경찰들이 이런 경범죄를 쫓아다니느라 정작 잡아야 할 살인, 강도 같은 중범죄를 놓치는 경우가 속출하고 있다는 점이 문제입니다.

 

이밖에 중앙일보가 하고 있는 대학평가, 많은 회사들이 사용하는 일정관리, 국가의 운명을 좌지우지하는 선거결과 심지어는 콜센터에 전화 연결 시간까지도 앞서 설명한 대량살상수학무기를 장착하고 우리를 차별하고 위협한다고 캐시오닐을 주장합니다.

 

그러면 어떻게 해야 할까요? 이대로 AI·빅테이터 등으로 화려하게 무장한 대량살상수학무기의 희생양이 돼야만 할까요? 캐시 오닐은 간단한 예를 통해 대안을 제시합니다.

 

야회 음악회에 입장할 때 안내원이 맨 앞에서 열 번째 줄까지는 앉을 수 없다고 말하면, 당신은 그것을 불합리한 처사라고 생각할 것이다. 그러나 맨 앞에서 열 번째 줄까지는 휠체어를 이용하는 장애인들을 위한 자리라는 설명을 듣는다면, 이야기가 달라진다. '정상'적인 사람이라면 이것에 대해서 수긍할 것이라는 말이다.’

 

이처럼 AI, 빅데이터라는 화려함만 앞세우지 말고 그런 결과가 어떻게 나왔는지 투명하게 공개하라는 것입니다. 그래야 잘못됐을 경우 고칠 수 있다는 이야기입니다. 대출이나 범죄 등의 사례에서처럼 가난하거나 유색인종에게 불리한 데이터가 수집되고 있다면 이를 바로잡으면 됩니다.

 

캐시 오닐은 이렇게 주장합니다.

 

인간의 의사결정은 가끔 오류가 있기는 해도, 이를 충분히 상쇄할 수 있는 최고의 미덕이 하나 있다. 바로 진화하는 능력이다. 학습하고 적응함에 따라 개개인은 변화하고 우리가 운영하는 제도나 시스템도 개선돼 왔다.’

 

반면에 빅테이터, AI로 무장한 기술자들은 자신들이 만든 코드를 영업비밀이라며 공개하기를 꺼린다고 비난합니다. 이런 탓에 오류를 발견하지 못하고 발견되더라고 숨기기에 급급합니다. 이런 불투명성에 기승하는 잘못된 관행이 결국 2008년 금융위기를 가져왔다고 캐시 오닐은 지적합니다.

 

앞서 지적했던 네이버나 다음도 마찬가지입니다. 뉴스 편향성 지적이 나올 때마다 편향성이 없는 AI가 하는데 그럴 리 없다고만 항변해 왔습니다. 그런데도 AI의 뉴스 편집 기준에 대해서는 밝히기를 꺼려합니다. 영업 비밀이라면서요. 특히 네이버나 다음 AI의 편집 기준은 내부에서는 아는 사람이 몇 명에 불과하다고 합니다. 중요한 영업비밀이니 사내에서도 비밀처럼 여겨지는 것이죠. 이렇게 되니 더욱더 객관성과 공정에 의심이 가는 것이죠. 캐시 오닐의 대량살상 수학무기에서 알 수 있듯이 AI, 빅데이터가 스스로 분석하는 것이 아니라 인간이 셋팅한대로, 학습 시키대로 하는 것에 불과하잖아요.

 

따라서 네이버나 다음도 이번 기회에 AI 뉴스 편집 기준을 명확하게 밝히길 바랍니다. 그렇지 않으면 계속 의심 받을 수 밖에 없습니다. 그래도 영업 비밀을 공개하기 싫으면 아예 페이스북처럼 다시 사람에게 편집을 맡기세요. 그리고 언론임을 선언하세요. 그게 훨씬 깔끔해 보입니다.

 

마지막으로 강조하고 싶은 것은 AI, 빅데이터라는 화려한 말만 늘어놓으면서 구체적인 사항을 투명하게 밝히지 않는 업체와 서비스는 일단 의심해야 합니다. 몰래 숨긴 대량살상 수학무기로 언제 우리 뒤통수를 때리려 할지 모르니까요.

 

 

728x90
반응형
LIST