본문 바로가기

과학기술/IT 첨단산업

디지털 데이터 쓰레기 대란...‘지우자니 아깝고 놔두자니 돈 드네’ (조선일보 2014.08.01 21:22)

디지털 데이터 쓰레기 대란...‘지우자니 아깝고 놔두자니 돈 드네’

사례1

지난 7월 14일 정윤회·최순실 부부의 조정이혼 소식이 동아일보에 보도됐다. 정윤회씨는 박 대통령의 한국미래연합 대표시절 비서실장 출신이고 최순실씨는 박근혜 대통령과 가까웠던 것으로 알려진 고 최태민 목사의 딸인 만큼 이 기사는 검색 순위 상위에 올라갈 정도로 큰 관심을 모았다. 동아일보 보도 이후 다른 매체들의 후속 보도가 이어졌다.

후속 보도라기보다는 동아일보 보도 내용에 일부 내용을 추가한 것에 불과했다. 온라인 매체들은 이런 기사를 경쟁적으로 네이버에 올리기 시작했다.

온라인상에서는 이를 ‘어뷰징(abusing) 기사’라고 부르는데, 인터넷 포털 사이트에서 언론사가 의도적으로 검색을 통한 클릭 수를 늘리기 위해 동일한 제목의 기사를 지속적으로 전송하는 것을 말한다. 매체들의 경쟁 탓에 몇 시간도 되지 않아 두 사람과 관련된 기사가 수백 건이 올라왔다.

하지만 기사 중 대부분은 동일 언론사에서 올린 것으로 한 인터넷 언론사는 같은 기사를 제목만 바꾸거나 키워드만 바꿔 30건 넘게 업로드했다. 또 다른 언론사도 20건이 넘는 어뷰징 기사를 올렸다. 방식은 비슷했다. 어뷰징 기사 대부분이 최초 기사와 거의 똑같은 키워드를 통해 검색되게끔 하기 때문에 최초 보도했던 언론사의 기사는 찾기가 어려워지게 됐다.

해당기사를 올렸던 인터넷 언론사 편집기자는 “클릭 수를 높이기 위해 어뷰징 기사를 계속해서 보내지만 기사의 대부분은 반나절만 지나면 한 사람도 클릭하지 않는 기사가 되어버린다”고 말했다.

사례2

30대 후반의 이재영(가명)씨는 2000년대 초반 선풍적 인기를 끌었던 동창 찾기 사이트 ‘아이러브스쿨’에서 초·중·고 클럽의 운영자를 했다. 당시만 해도 ‘온 국민을 가입자로 두었다’는 말을 들을 정도였던 만큼 과거 동창생 간 활동이 활발하게 이뤄졌다. 글뿐만 아니라 과거에 찍었던 사진, 정기모임 때 찍었던 동영상도 수시로 업데이트됐다. 클럽을 세 개나 운영하며 그 역시 누구보다 열심히 활동했다. 하지만 그가 아이러브스쿨에 마지막에 들어간 것은 8년도 더 된 일이다.

최근 친구들 사이에서 아이러브스쿨 얘기가 나와서 사이트에 들어가봤는데 여전히 그 사이트는 서비스 중이었다. 당시 활동했던 자료도 그대로 있었다. 8년 동안 이 자료들은 아이러브스쿨 서버상에 그대로 방치되어 있었던 셈이다.

생각해 보니 비슷한 시기 가입했던 ‘세이클럽’이나 ‘싸이월드’도 마찬가지였다. 세 개 사이트 모두 1000만명이 넘는 회원 수와 그들이 남긴 데이터를 가지고 있었지만, 이를 비즈니스로 연결시키지 못하면서 급격하게 몰락했다. 현재도 사이트가 운영되고 있지만 이 사이트의 이용자는 과거와 비교하면 큰 폭으로 줄었다. 하지만 회원 본인이 탈퇴를 하지 않으면 본인의 개인정보와 활동 데이터는 여전히 남아있다.

두 사례 모두 온라인상에 남아있지만 더 이상 활용되지 않는 데이터들에 대한 얘기다. 인터넷 사용이 활발해지면서 온라인에 데이터를 생성하고 저장하는 데만 몰두해 왔을 뿐, 온라인에 남아있는 데이터를 지워야 한다는 논의는 한 번도 활발하게 진행된 바 없다. 하지만 지난 6월 13일 유럽사법재판소의 판결이 온라인 데이터 삭제와 관련한 논란으로 확산되고 있다.

유럽사법재판소는 구글 이용자들이 자신들이 남긴 부적절한 개인정보를 삭제할 수 있는 권리를 갖고 있다며 ‘잊혀질 권리(right to be forgotten)’를 인정하는 판결을 내린 바 있다. ‘잊혀질 권리’는 개인정보 침해와 밀접하게 연관된 부분이다. 이는 생성자조차도 알 수 없는 데이터가 온라인상에 떠돌기 때문에 발생하는 문제이기도 하다. 전문가들은 이런 데이터를 디지털 데이터 쓰레기(이하 ‘디지털 쓰레기’라고 표기)라고 부르고 있다.

논란이 촉발되기 전까지만 해도 온라인 데이터는 생성하고 저장하는 것이 당연한 수순이었다. 데이터의 질과 관계 없이 ‘데이터를 지워야 한다’는 주장은 주목받지 못했다. 하지만 불필요한 데이터 저장은 개인정보 침해뿐만 아니라 온라인 환경 전체를 악화시키고 더 나아가 현실 공간에도 물리적 피해를 가져올 수 있다는 주장이 제기되면서, 디지털 쓰레기에 대한 공론화가 필요하다는 의견이 나오고 있다. 특히 우리나라와 같이 IT산업이 발달된 나라에서는 외국보다 더 큰 문제를 불러올 수 있다는 점에서 이 같은 주장은 귀를 기울여 볼 필요가 있다.

강원도 춘천시 전경이 한눈에 내려다보이는 구봉산 자락. 이 산 중턱에 2012년 12월 네이버 데이터센터가 문을 열었다. ‘각’이라고 명명한 이 데이터센터는 축구장의 약 7배 크기인 5만4000㎡ 터에 지하 3층, 지상 2층 규모의 본관 1개 동과 지하 2층, 지상 3층의 서버관 3개 동 등 모두 4개 동으로 건립됐다.

지난 7월 15일 찾아간 이곳은 주위를 온통 철창으로 둘러싼 것이 마치 군사보안시설을 방불케 했다. 거대한 전경과 달리 데이터센터를 출입할 수 있는 곳은 좁은 산길 막다른 곳에 설치된 출입문 한 곳이 전부였다. 이곳이 외부에 공개된 것은 2013년 6월 단 한 차례. 네이버는 출입기자들을 대상으로 설명회를 연 바 있다. 이후로 데이터센터는 철저히 외부인의 출입이 통제되고 있다.

이날도 주간조선이 네이버 홍보팀 측에 출입을 요청했으나, 네이버 측은 “어떠한 외부인에게도 방문을 허용하지 않고 있다”고 거절했다. 주간조선이 네이버 데이터센터를 방문하고자 했던 것은 설명으로만 들은 서버의 규모를 직접 눈으로 보고, 과연 ‘전기 먹는 하마’라는 데이터센터가 어떻게 운영되고 있는지를 보기 위해서였다.

네이버가 데이터센터를 지은 이유는 폭증하는 데이터를 저장할 수 있는 서버를 놓을 공간 확보를 위해서다. 2013년 기준으로 네이버 이용자들은 초당 4000회 이상의 검색어를 입력해 정보를 찾고 있으며 초당 2300통가량의 메일을 서로 주고받고 있다.

파일을 인터넷 공간에 저장하는 서비스인 N드라이브의 경우 초당 수백 개, 매일 2000만개 이상의 사진이 업로드돼 하루에 올라오는 데이터양은 400테라바이트(Tera Byte) 이상의 디지털 기록들이 새롭게 생성된다. 이밖에 블로그, 카페, 지식iN 등 이용자가 생성한 콘텐츠뿐 아니라 국보급 유물과 미술 작품, 옛날 신문 등도 디지털 데이터로 기록되고 있다. 이처럼 지난 10여년간 네이버 서비스를 통해 생성된 데이터는 약 180페타바이트(Peta Byte·테라바이트의 1024배 크기)에 달한다.


	강원도 춘천시에 위치한 네이버 데이터센터의 내부 모습 /조선일보 DB
강원도 춘천시에 위치한 네이버 데이터센터의 내부 모습 /조선일보 DB
네이버는 지금까지 확보된 데이터뿐만 아니라 향후 발생하는 데이터까지도 저장하기 위해 데이터센터에 서버를 7000대가량 설치했으며, 향후 9만대까지 서버를 늘릴 수 있다. 앞서 언급했듯이 데이터센터는 ‘전기 먹는 하마’로 불린다. 서버를 24시간 돌려야 할 뿐만 아니라 서버보관소의 온도를 유지하기 위한 온도조절장치를 가동하기 위해서는 안정적 전력 공급이 필수적이기 때문이다.

네이버 측의 설명에 따르면 데이터센터의 필요 전력 용량은 4만㎾다. 아파트 6만~9만가구가 사용하는 전력량과 맞먹는 수준이다. 한전 춘천지점에서 만난 직원은 주간조선에 “현재 네이버 데이터센터에서 사용하고 있는 순간 최대 전력량은 2만7000㎾ 수준인데 아직까지는 인근 제조공장보다 많은 수준은 아니다”라고 말했다.

현재는 한전에서 공급하는 전기를 사용하고 있지만 4만㎾를 초과하는 전력을 사용하고 싶다면 추가로 변전소를 설치해야 하는데, 이를 위해서는 변전소 1곳당 300억~400억원이 들어간다는 게 회사 측 설명이다. 네이버 데이터센터는 환경문제를 의식해 최대한 친환경적으로 건설했다고는 하지만 네이버의 고민은 다른 IT 업체가 겪어야 하는 고민이기도 하다.

문제는 서버를 늘리는 속도가 과거 10년보다는 앞으로가 훨씬 빨라질 것이라는 점이다. 가장 직접적 원인은 데이터양이 과거보다 기하급수적으로 늘어나고 있기 때문이다. 또한 데이터 생성에 비례해 데이터 쓰레기가 증가하는 점도 원인으로 꼽힌다. 전문가들은 데이터 생성 속도가 빨라질수록 디지털 쓰레기에 들어가는 사회적 비용도 함께 증가할 것이라고 말한다. 디지털 쓰레기는 데이터 폭증과 서버 확충으로 이어지고, 이는 곧 전력사용이 폭발적으로 늘어남을 의미한다. 또한 전력사용이 늘어나는 데서 발생하는 환경문제도 정해진 수순이다. 이는 곧 사회적 비용이 될 수밖에 없다는 것.

최근 MS가 국내에 설립하려는 데이터센터에 대한 반대 여론이 높아지는 것도 이와 무관하지 않다. IT업계에 따르면 MS는 글로벌 IT기업으로는 처음으로 국내에 데이터센터 건립을 추진 중이다. 유력지 중 하나는 부산시 강서구 미음지구. MS는 이곳에 16만5000㎡(약 5만평) 규모의 데이터센터 건립을 검토하면서 부산시와 부지(임대 또는 매입) 가격, 세제 혜택 등 건립 조건을 놓고 협의 중인 것으로 알려졌다.

하지만 데이터센터의 고용창출 효과가 생각보다 높지 않은 데다 오히려 전력난을 불러일으킬 수 있다는 지적이 많아지면서 반대여론도 높아지고 있다. 특히 전문가들은 MS 데이터센터에 들어가는 전력이 일반 LNG 복합발전소 한 기에서 생산하는 양과 맞먹을 정도로 필요하다고 말하고 있다. 또한 데이터센터는 대용량 전력을 필요로 하기 때문에 대량의 이산화탄소를 배출한다는 이유로 환경론자들이 반대하고 있다.

일부 글로벌 IT기업들이 지역민 및 환경보호론자들의 반발로 사막 등 외진 곳에 데이터센터를 짓는 이유도 이 때문이다. MS뿐만 아니라 소프트뱅크와 야후 등 세계적 IT업체들이 데이터센터를 짓기에 적합한 부지로 우리나라를 꼽고, 논의를 진행하고 있다. 우리나라의 값싼 전기료 때문이다. 하지만 결과적으로 데이터센터의 폭발적 증가는 고용창출이나 국가경쟁력 강화보다는 우리나라의 사회적 비용 증가로 이어질 가능성이 높다는 의견이 많다.

디지털 쓰레기는 포털 입장에서도 유지비용을 유발시키고 데이터의 질을 떨어뜨리는 원인임에도 포털업체들은 자발적으로 이 쓰레기를 삭제하지 않고 있다. 그 이유는 무엇일까. 디지털 쓰레기 삭제와 관련된 기술을 연구하고 있는 KT 데이터서비스 본부 송명빈 부장은 “현재까지는 데이터의 양이 포털 사이트의 자산가치로 평가받기 때문”이라고 말했다. 송 부장의 설명이다.

“포털회사나 신용카드사, 통신사 모두 기본 베이스는 회원이다. 회사를 인수한다고 할 때는 회사를 사는 것이 아니라 회원을 사는 것이다. 예를 들어 아멕스카드의 경우 회원 한 명당 8만원, 또다른 카드는 회원 한 명당 3만원, 보험사 같은 경우엔 1만원에서 5000원까지 계산하기도 한다. 최하가 5000원인 곳도 있다. 페이스북이나 네이버, 카카오톡의 가치평가도 마찬가지다.

그런데 네이버나 구글과 같은 포털의 경우는 가치평가를 받을 때 서버 안에 데이터의 양도 하나의 기준이 된다. 시장에 매물로 나오지 않았다 하더라도 평가사들이 그런 기준으로 가치를 계산한다. 하지만 여태까지는 그것에 대한 질적인 평가를 할 수 없었고 구분도 쉽지 않았다. 거의 용량에 따라서 평가를 했다.”

송 부장의 말에 따르면 현재처럼 데이터가 곧 자산이 되는 상황에서는 어떤 데이터라도 함부로 삭제를 할 수 없다는 것이다. 그래서 유지비용을 늘려가면서라도 데이터센터를 건설하고 거기에 서버를 확충한다는 주장이다. 하지만 포털들의 암묵적인 디지털 쓰레기 방치는 결국에 가서는 데이터의 속도와 질 모두를 떨어뜨릴 가능성이 높다.

문송천 카이스트 경영대학 교수는 “데이터의 세계에서는 데이터의 질이 지켜져야 속도도 보장되는데 이는 속도가 질을 보장하는 것이 아니고 질이 속도를 보장한다는 말”이라며 “그런데 어느 기업이나 정보시스템 내 저장공간에 저장된 데이터를 자세히 들여다보면 질적으로 엉터리인 데이터들로만 가득 차 있다”고 지적했다.

실제로 포털들이 데이터와 관련된 자료를 공개하지 않고 있기 때문에 정확한 통계는 나와 있지 않지만 현재 포털들이나 IT업체에서 보유하고 있는 데이터 중 절반 이상은 쓰레기일 가능성이 높다고 말한다. 송 부장은 포털 데이터 중 75%를, 문 교수는 60%를 쓰레기 데이터로 보고 있다.

포털이 보유하고 있는 디지털 쓰레기 문제는 개인정보의 침해라는 차원에서도 다뤄져야 한다는 주장도 적지 않다. 문일영 한국기술교육대학교 컴퓨터공학부 교수는 “디지털 쓰레기는 개인 사생활 침해에 관련해서는 논란이 될 여지가 많다”며 “보통 검색포털을 사용하면 검색 기록이 남는데 본인들은 이 정보를 사용하지 않지만 업체에서는 이 정보를 활용해서 일주일에 한 번씩 대가를 지불하고 상업기관에 넘긴다”고 말했다.

문 교수는 “고객의 기호에 따라 편리하게 느끼는 사람도 있겠지만 적지 않은 소비자들이 불필요한 문자메시지나 스팸메일로 불편해 하고 있다”며 “현실적으로 이런 부분을 막기가 쉽지 않기 때문에 (포털들이) 기업윤리적 측면에서 다가가야 하는 부분이 크다”고 주장했다.