데이터는 어떻게 미래 산업과 경제의 원동력이 된 것일까? 데이터는 현재의 디지털 경제와 정보기술 산업에 있어서 가장 핵심적인 자원으로 취급된다. 천연자원처럼 땅 속에 묻혀있지는 않지만, 데이터도 채굴하고(Mine) 추출하고(Extract) 걸러내는(Refine) 과정에서 쓸모 있는 정보들을 발견하고 나아가 고유한 가치를 창출해낸다는 점에서 우리 시대의 값진 자원이라 칭할 만하다. 그러나 데이터도 단지 그것이 유용하다는 이유로 무분별하게 채굴하고 남용한다면 다양한 역효과에 직면하게 될 것이다. 그 데이터가 살아있는 인간의 것이라면 더욱 그렇다.

데이터는 주어진 것이 아니라
취득한 것

우리 사회에서는 빅데이터와 그에 따른 개인정보 침해의 문제, 그리고 개인정보 보호의 방안에 대해 이미 십여 년 전부터 지속적으로 논의해 왔다. 그러나 이에 대한 뾰족한 해결 방안을 찾아내었다고 말하기는 어렵다. 특히 2016년 이후 ‘4차 산업혁명’이라는 것을 국가적 혹은 시대적 과업으로 설정하는 상황에서 데이터를 통한 개인정보, 즉 프라이버시의 보호라는 과제는 점점 더 해결하기 어려운 것이 되고 있다. 기본적으로 현재 대부분의 데이터 기반 산업은 개인들이 만들어내는 수많은 종류의 데이터를 그 산업적·상업적 원천으로 삼고 있기 때문이다. 이들은 데이터의 자유로운 이용과 이를 위한 규제의 완화를 경제 성장을 위한 조건으로 내세운다. 그러나 다른 한편 국내의 많은 대기업들이 고객들의 데이터, 즉 개인정보를 유출한 사례는 이루 헤아릴 수 없을 정도다. 금융정보에서 의료정보까지 전 국민의 데이터는 이제 공공재가 되어버렸다고 할 정도로 개인정보 유출의 피해는 심각하다.
데이터는 그 어원상 단순히 ‘주어진(Given)’ 것이라는 의미를 지니고 있다. 하지만 사실 우리에게 데이터는 그저 주어진 것이라기보다는 우리가 적극적으로 찾아내고 기록해낸 것이다. 그런 점에서 디지털 인문학자 조한나 드러커(Johanna Drucker)는 모든 데이터를 캡터(Capta), 즉 적극적으로 ‘취득한(Taken)’ 것으로 간주해야 한다고 주장한다. 주어진 것이 아니라 취득한 것으로 데이터를 이해함으로써, 우리의 지식 생산은 단지 이미 존재하는 자연적이고 객관적인 사실로 주어진 것이 아니라 상황적이고 부분적이며 구성적인 특성을 지니고 있다는 것을 인정하지 않을 수 없다. 지식의 생산뿐만 아니라 다양한 산업적 가치의 생산도 자연적으로 주어진 것에서가 아니라 상황에 따라 구성하고 취득한 것에 기반하고 있다. 이 점을 인정하는 것은 우리가 데이터를 어떻게 간주하고 나아가 인간을 어떻게 이해하는지에 있어서 매우 결정적이다.

2016년 이후 ‘4차 산업혁명’이라는
것을 국가적 혹은 시대적 과업으로
설정하는 상황에서 데이터를 통한
개인정보, 즉 프라이버시의 보호라는
과제는 점점 더 해결하기 어려운
것이 되고 있다.

데이터 기술들의 생태계

빅데이터, 사물인터넷, 플랫폼, 알고리즘, 인공지능 등 오늘날 우리가 일상적으로 대면하는 대부분의 디지털 기술들은 원천적으로 사용자의(사용자에 관한) 데이터, 사용자가 생산한 데이터, 사용자를 둘러싼 데이터를 적극적으로 취득함으로써 가능하다. 달리 말하면, 이 모든 기술들이 다루고 있으며 이 기술들에 제공되는(Feed) 것은 본질적으로 인간이 의지를 가지고 취득한 데이터, 즉 캡터다. 이러한 데이터 기술들을 통해, 살아 움직이고 사회적 활동을 하는 인간(개인)의 모든 삶의 영역은 데이터로 포착되고 축적되어 일종의 디지털 쌍둥이인 ‘데이터 주체’로 프로파일 된다.
사물인터넷은 센서를 통해 인간과 비인간 행위자에게서 취득할 수 있는 모든 종류의 데이터를 측정하고 수집하는 기술을 의미한다. 스마트시티도 사물인터넷을 도시의 수준으로 확장한 것이라고 할 수 있다. 취득한 데이터는 클라우드 컴퓨팅을 통해 대량으로 저장되고 축적되고 운영된다. 인공지능은 축적되고 분석된 데이터를 통해 기계, 즉 알고리즘을 학습·훈련시킴으로써 인간의 인지 기능을 모사하여 작동하도록 하는 기술을 의미한다. 플랫폼은 인공지능 알고리즘을 구체적으로 적용하여 여러 인간 및 비인간 행위자들 사이의 상호작용을 이끌어내고 그 과정에서 새로운 가치를 창출해내는 토대로 기능한다.

자동화된 데이터 기술의 역습

자동화되고 자율적이 되어가는 데이터 기술들은 단지 우리 삶을 편리하게 하는 것을 넘어서 미래를 예측하고 인간을 평가하며 예술을 창작하는 수준에 이르고 있다. 우리는 알고리즘이 판단하는 대로, 인공지능이 예측하는 대로, 플랫폼이 지시하는 대로 자연스럽게 따르고 있다. 우리 자신의 데이터에 기반하여 음악과 영화를 추천받고, SNS에서 광고를 제안 받는다. 보험에 가입하거나 대출 한도를 결정하는 일도 우리의 데이터에 기대고 있다. 우리가 이용하거나 우리를 이용하는 다양한 플랫폼이나 알고리즘이 개인에 맞춤화된 방식, 즉 자동화된 큐레이션이라는 방식으로 서비스를 제공하는데, 이는 사용자 데이터, 개인정보의 지속적인 수집과 통합의 과정을 거쳐 개개인을 판단하고 평가하며 타겟팅하는 방식에 다름 아니다. 그러나 인공지능이나 플랫폼이 우리를 잘 이해하고 모든 면에서 객관적이라고 할 수는 없다. 자율적인 머신러닝이라 할지라도 만일 신경망에 사용되는 데이터가 오염되거나 왜곡되어 있는 것이라면 결과는 심각하게 차별적이거나 편향적인 알고리즘으로 나타나게 된다.
심지어 현재의 전 세계적 현상인 정치적·문화적 양극화나 소위 가짜뉴스의 범람도 이와 무관하지 않다. 각종 디지털 플랫폼이나 소셜미디어가 수집, 채굴한 사용자 데이터를 활용하여 자동화된 맞춤형 정보(와 다름없는 정밀 타겟화된 정치적 광고)를 제공하는 과정의 오용 혹은 악용이 그 원인으로 지목되고 있다. 이러한 의도적 악용뿐만 아니라 대중들이 각자 선호하는 콘텐츠만 반복해서 수용하게 되면서 일종의 정보 확증편향 현상이 굳어지는 문제도 병존한다. 이는 자동화된, 그러나 개인에게 맞춤화되었다고 믿어지는 플랫폼들에 공동체 전체가 장기간 노출되고 그 과정에서 자신도 모르게 받은 영향을 내면에 고착화하면서 하나의 문화로 형성하게 된 것이다. 그 결과로 우리는 언제부턴가 ‘포스트-트루스(진실 이후)’의 시대를 살아가고 있는 셈이다.

개인정보와 데이터 개방은
불가피한가

오는 8월 시행을 앞두고 있는 일명 ‘데이터 3법(개인정보보호법, 신용정보법, 정보통신망법)’ 개정안은 분산되어 있던 개인정보에 관련한 법률들을 개인정보보호위원회로 일원화하는 것이 제도상의 핵심이다. 하지만 실질적으로는 기존의 ‘익명정보’ 대신 ‘가명정보’라는 개념을 도입하여 이를 주체의 동의 없이 반출, 결합하여 상업적으로 활용할 수 있도록 한 것이 골자다. 개인정보와 데이터를 추출·가공하여 공유·활용하는 산업의 측면에서는 개인정보를 가명화함으로써 자유롭게 인공지능 알고리즘을 개발하고 플랫폼을 개선할 수 있는 기회가 될 것으로 기대하고 있다. 아직은 명확한 데이터 산업의 발전 방향이 제시되지는 않고 있지만, 데이터 결합을 통한 새로운 가치를 지닌 데이터를 생산해내고 이를 새로운 플랫폼 개발에 적용한다면 창의적인 결과물들이 등장할 수 있을 것이다.
그러나 비식별 조치로서의 가명정보라는 개념 자체가 얼마나 허술한지는 여러 정황상 명확해 보인다. 어떤 기술적 수단을 써도 데이터 주체를 식별할 수 없는 익명정보와 달리, 가명정보는 그 자체로는 식별이 불가능할지라도 다른 추가적인 데이터와 결합할 경우 주체 식별이 가능해지기 때문이다. 우리는 이미 개인정보가 드러나지 않는 메타데이터(Meta-data)의 결합만으로도 충분히 개인에 대한 감시나 추적이 가능한 기술적 환경에 살고 있다. 데이터 주체, 데이터화된 존재로 살아가는 우리의 현실이 주체의 데이터를 무분별하게 사용할 수 있도록 허용하는 이유가 되어서는 곤란하다.




어느 누구도 소셜미디어의 자유롭고 민주적인 사용이 지금과 같은 고유한 개인의 상실, 혐오의 확산, 개인정보의 상업화 도구가 될 것이라고 상상하지 못했을 것이다. 법률을 통해 개인정보를 적극적으로 보호하지 않는 것의 문제를 넘어, 개인정보가 산업 혹은 상업적으로 창출하는 가치의 원천이라고 한다면 이에 대한 존중이 어떻게 가능할 것인지를 우리 사회는 더 고민해야 할 것이다.