알고리즘의 불편한 진실

알고리즘은 컴퓨터가 문제를 해결하기 위해 수행하는 규칙을 의미한다. 내비게이션에서 가장 짧은 거리를 찾아가는 규칙이 우리가 알고 있는 알고리즘 사례 중 하나다. 최근 알고리즘이라는 용어가 미디어 영역에서 자주 언급되는 이유는 미디어 분야의 많은 부분이 컴퓨터를 사용하는 방식으로 변하고 있기 때문이다. 종이신문 시절 어떤 기사가 신문의 1면에 나와야 하는지를 결정하는 것은 인간이었다. 충분한 경력을 쌓은 기자가 현장에서 보내는 기사를 취합하고 보도 방향을 결정했다. 하지만 최근 온라인에서 어떤 기사를 보여줄지에 대한 많은 부분이 알고리즘에 의해 기계적으로 이루어진다. ‘다음’은 오래전부터 알고리즘에 기반하여 개인에게 가장 적합한 맞춤형 기사를 제공한다고 이야기했고, ‘네이버’도 2019년부터 에어스(AiRS)라고 부르는 알고리즘 기반 자동 추천 기사를 전면 적용했다.

온라인을 지배하다

알고리즘이 적용되는 영역은 온라인 뉴스에만 그치는 것은 아니다. 온라인 쇼핑몰에서 물건을 구매하고, 음원 사이트에서 취향에 맞는 곡을 청취하고, 소셜미디어를 통해 다양한 사람들과 관계 맺는 방식에 이르기까지 다양한 분야에 활용되고 있다. 이처럼 알고리즘의 활용이 늘어나는 것은 필연적인 결과이다. 수많은 콘텐츠를 다양한 개인에게 각각 다른 방식으로 제시하는 일을 인간의 손을 통해서 하는 것은 불가능한 일이다. 예를 들어, 100만 개의 유튜브 영상 중 각자의 취향을 고려하여 10개를 뽑아서 2천만 명에게 제시하는 것은 수백 명이 며칠 밤을 새워도 쉽지 않은 일이지만, 컴퓨터는 알고리즘에 따라 지치지 않고 작업을 수행한다. 특히, 거대 플랫폼 기업은 전 세계 이용자를 대상으로 많은 양의 데이터를 처리해야 하므로 알고리즘을 사용한다. 우리가 잘 알고 있는 구글, 아마존, 페이스북, 넷플릭스 같은 플랫폼 기업은 이용자에게 가장 적절한 방식으로 정보를 제공하기 위해 알고리즘을 사용한다. 이러한 추천 알고리즘과 관련하여 일반적으로 알려진 원칙은 데이터를 통해 이용자 취향을 파악하고 이용자가 가장 좋아할 만한 정보를 제공한다는 것이다.

알고리즘의 그늘

이와 관련된 두 가지 주요한 문제가 논의되고 있다. 첫째, 필터 버블(filter bubble)에 관한 논쟁이다. 필터 버블은 거대 플랫폼에서 사용하는 알고리즘으로 인해 이용자가 자신의 취향과 일치하는 정보만 받아들이게 되고, 민주사회 시민으로서 필수적으로 알아야 하는 정보에 대한 접근이 제한될 수 있다는 우려에서 유래한 용어이다. 실제 알고리즘으로 인해 필터 버블이 발생하는지와 관련한 다양한 연구가 이루어지고 있다. 필터 버블에 대한 반론은 플랫폼의 알고리즘이 다양한 콘텐츠를 이용자에게 노출하지만, 이용자 스스로가 제시된 결과 중 자신이 원하는 정보만 선택하는 과정에서 필터 버블이 발생한다는 것이다. 한국언론진흥재단에서 2019년 발표된 <유튜브 알고리즘과 저널리즘> 보고서는 유튜브 추천 알고리즘 영상을 수집하여 실제 유튜브 알고리즘은 이용자에게 다양한 결과를 제시하고 있다는 점을 보이기도 했다. 둘째, 알고리즘의 투명성과 관련된 논쟁이다. 알고리즘이 이용자가 좋아할 만한 내용을 추천해주기 위해 사용된다고 하지만 어떤 기준으로 어떤 콘텐츠를 추천하는지에 대해 알려진 바가 없다. 흔히 알고리즘을 블랙박스에 비유하여 말한다. 데이터를 처리하기 위해 사용하는 딥러닝(deep-learning)이나 신경망(neural network) 기술은 효율적이지만 어떻게 결론을 도출하는지 확인할 방법이 없다는 뜻이다. 지난달 ‘영국 남자’ 유튜브 채널에서 한국어 댓글이 차별받고 있다는 주장이 제기되었다. 언젠가부터 ‘좋아요’ 700개를 받은 한글 댓글보다 ‘좋아요’ 100개 정도 되는 영어 댓글이 상위에 올라오는 결과가 나타났으며, 유튜브에 문의한 결과 프로그램 결함이라는 답변을 받았다고 말했다. 하지만 이후 한국 채널에 영어 댓글을 우선순위로 올리면 외국 시청자 유입에 도움이 되는지 테스트하는 중이었다고 밝혔다는 것이다. 두 가지 문제점 모두 이용자에게 무엇을 보여줄지 결정하는 알고리즘이 투명하지 않고 이용자에게 편향된 정보를 제시할 가능성에 대해 말하고 있다. 이와 관련된 논쟁은 플랫폼 기업의 영향력이 점차 증가함에 따라 더욱 심화하고 있다. 네이버는 2017년 K리그에 부정적인 기사를 보이지 않게 해달라는 한국프로축구연맹의 청탁을 받고 기사 배열을 변경한 임원에게 징계 조치를 했다. 이후 네이버는 뉴스 편집에서 인간의 개입 없이 알고리즘에 따라 공정하게 뉴스를 배열하겠다고 밝히며 알고리즘 기반 추천을 도입했다. 그렇지만 우리가 살펴보았던 것처럼 기계적인 알고리즘이 언제나 공정한가? 학습에 기반한 알고리즘은 기존 인간이 보여준 결과를 따라 하는 방식이며, 알고리즘에 사용하는 데이터가 편향성이 있다면 결과 자체도 편향되는 모습이 나타난다. 미국 탐사보도 언론 프로퍼블리카(ProPublica)는 범죄자에 대한 잠재적 위험 평가 알고리즘에서 흑인 피고인이 백인 피고인에 비해 높은 위험도를 가지는 미래 범죄자로 판단하는 편향이 나타난다는 사실을 밝혔다.

공정성 확보 가능한가

알고리즘도 결국 과거 데이터에 기반하여 확률적으로 결과를 도출하지만, 당연히 오차가 존재할 수밖에 없다. 데이터와 알고리즘에 기반한 예측이 인간 개인에게 적용되었을 때 과연 공정성을 담보할 수 있을까? 편향을 확인하고 수정할 수 있어야 하지만 현재까지 이러한 부분은 쉽지 않다. 그래서 알고리즘 투명성에 대한 요구가 점차 높아지고 있다. 알고리즘을 이해하고 알고리즘이 예측한 근거를 파악할 수 있어야 이용자를 보호하고 공정성을 확보할 수 있는 것이다. 아직 알고리즘의 결과 도출 방식을 인간이 이해하기도 쉽지 않은 일이고 기업이 사적 이익을 위해 알고리즘을 불투명하게 활용하는 것을 제재하기도 어렵다. 해외에서는 알고리즘 관련 이해충돌을 완화하기 위한 규제 논의가 이루어지고 있다. 국내에서도 인공지능과 알고리즘에 대한 윤리 및 사회적 책임에 대한 논의가 점차 중요해질 것이다.

송해엽 (군산대 미디어문화학) 교수 press@pusan.ac.kr

상단영역

본문영역

알고리즘의 불편한 진실

개의 댓글

댓글 정렬

내 댓글 모음