빅데이터는 인공지능 시대의 새로운 자원이자 화폐라 불린다. 첨단 기술과 시스템에 의해 데이터는 기하급수적으로 늘어나고 있으며 직간접적으로 그 위력을 실감하곤 한다. 국내 최고의 빅데이터 전문가로 꼽히는 서울대학교 산업공학과 조성준 교수와 ‘세상을 읽는 새로운 언어’ 빅데이터에 대해 말한다.

Q. 빅데이터는 데이터 그 자체이면서 수집·분석하는 능력을 말하기도 하고, 정형과 비정형 데이터를 두루 포괄하기도 합니다. 교수님께서 정의하시는 빅데이터란 무엇입니까?

빅데이터의 특성을 간추려 ‘VVV’라고 합니다. 양(Volume), 생성속도(Velocity), 다양성(Variety)의 첫 글자를 따서 그렇게 말하는데요, 정확한 정의이나 다분히 IT적인 관점입니다. 저는 빅데이터를 ‘식재료’라고 생각합니다. 예를 들어 국수와 마늘, 올리브오일 등의 식재료를 가지고 파스타를 만들었다고 가정해봅시다. 각각의 식재료들이 어떻게 조화를 이루고 요리되었는지에 따라 먹는 사람의 포만감과 만족감, 행복의 수치는 달라집니다. 그리고 또 하나, 식재료의 가치는 먹는 사람 스스로가 만드는 것입니다. 식재료를 가지고 맛있는 파스타를 만들겠다고 이탈리아 요리학교로 유학을 가서 배울 수도 있지만, 원하는 맛을 내는 셰프가 있는 레스토랑에 찾아가 맛있는 파스타를 먹을 수도 있습니다. 다시 말해, 빅데이터는 식재료이고 그 식재료로 최고의 요리를 얻는 비법은 식재료를 활용하는 이의 몫일 것입니다.

Q. 현대사회는 일상의 모든 순간순간이 데이터화된다고 해도 과언이 아닙니다. 10년 전에 비해 지금의 데이터는 양과 질에 있어서 비교할 수 없는데요, 앞으로의 데이터는 또 어떤 모습일지 궁금합니다.

인간이 활동하는 모든 면면이 숫자로 만들어지는 건 인류역사상 아마 처음이 아닐까 싶습니다. 요즘엔 인간관계도 숫자로 표시됩니다. 매일 메시지를 주고받는 배우자와 동창회 할 때만 일시적으로 메시지를 주고받는 고등학교 친구는 데이터의 양에서 현격한 차이를 보이죠. 또한 연인 관계일 때는 매일 100번 이상의 메시지가 오가다 이별하면 제로가 되죠. 일별 메시지 수량만 봐도 관계를 알 수 있습니다. 인간관계는 인류의 출발부터 존재했지만 데이터로 변환된 건 최근인 셈입니다. 데이터는 이제 시작이라고 생각합니다. 날이 갈수록 더 어마어마해질 겁니다. 그런데 문제는 양이 아닙니다. 어떻게 해석하느냐에 달려 있습니다. 텍스트건 이미지건 컴퓨터는 모두 숫자로 변환하고 이 숫자의 경향이나 유사성 등을 어떻게 분석하고 찾아내느냐에 따라 모든 것이 달라질 겁니다.

인간관계는 인류의
출발부터 존재했지만
데이터로 변환된 건
최근인 셈입니다.
데이터는 이제
시작이라고 생각합니다.
날이 갈수록 더
어마어마해질 겁니다.

Q. 빅데이터는 정치, 경제, 사회, 문화 등 다방면에서 활용되고 있습니다. 빅데이터가 모든 문제를 해결하는 만능 열쇠와 같이 인식되기도 하는데요, 빅데이터를 어떻게 활용해야 할까요?

‘인사이트(Insight)’라는 말을 많이 합니다. 우리말로 해석하면 통찰력인데요, 영어 표현을 그냥 해석하면 ‘안을 본다’입니다. 그런데 안을 볼 때 보는 사람에 따라 보이는 것이 다를 겁니다. 과거 인사이트는 전문지식과 경험, 여기에 감이 더해져서 나왔습니다. “내가 30년 동안 그걸 해봤는데” 이렇게 말하면 도통 당해낼 재간이 없었죠. 그 전문지식과 경험, 감을 어떻게 간과하겠습니까? 그런데 여기서 맹점은 바로 그 인사이트가 주관적이라는 것입니다. 데이터 기반의 인사이트는 다릅니다. 객관적이고, 대상의 개인화가 가능하고, 24시간 모니터링이 가능합니다. 이 특성을 잘 알고 활용을 해야 합니다. 기업에서 빅데이터를 활용하는 궁극적인 목적은 고객 만족을 통한 수익 창출일 겁니다. 그 목적을 위해서 빅데이터를 이리저리 들여다보면서 신규 서비스를 개발하고 새로운 상품을 만들고 고객을 관리하는 것이죠. 사실 페이스북이나 아마존, 네이버나 카카오가 앞서가는 이유는 데이터를 통해 새로운 가치를 만들어내기 때문입니다. 현대사회는 변화무쌍하게 움직이고 있는데요, 데이터에 의한 정확한 의사결정이 그 어느 때보다 가능한 시점이라 생각됩니다.

Q. 공간정보와 빅데이터의 결합, 그 가능성과 시너지를 어떻게 보시나요? 최근 코로나19 위기를 공간정보 빅데이터를 통해 풀어가기도 했습니다.

공간정보 빅데이터는 사람들이 보다 편리하고 안전하게 살아갈 수 있는 길잡이가 될 거라 기대합니다. 소방차가 불법주차로 인해 화재 현장에 빨리 도착하지 못해 피해가 컸다는 뉴스를 접하곤 하는데요, CCTV 이미지를 분석하여 도로의 불법주차를 지도 위에 표시한다고 하면 화재 현장에 도착하는 거리상 빠른 길이 아닌 불법주차 상황을 고려한 더 빠른 길을 찾을 수 있습니다. 그리고 1년 365일 쉬지 않고 찍는 CCTV 화면을 활용하면 골목마다 ‘통행 가능성’ 지수를 만들 수 있고, 이를 활용하면 이면 도로 주택이나 아파트의 안전 지수도 계산할 수 있습니다. 이걸 공개하면 불법주차가 많이 사라질 겁니다. 이것은 꿈 같은 미래 이야기가 아니라 지금 우리가 매일 생성하는 데이터와 비교적 많이 알려진 기술로 당장 만들 수 있는 현재 이야기입니다.

기업에서 빅데이터를 활용하는
궁극적인 목적은 고객 만족을 통한
수익 창출일 겁니다.
그 목적을 위해서 빅데이터를
이리저리 들여다보면서
신규 서비스를 개발하고
새로운 상품을 만들고
고객을 관리하는 것이죠.

Q. 빅데이터에 대한 긍정적인 측면도 있지만 개인정보 침해와 같은 우려의 시선도 존재합니다. 빅데이터 활용에 있어 반드시 지켜야 할 원칙이나 기준이 있다면 무엇인가요?

나의 데이터를 내가 판단하고 결정할 수 있어야 합니다. 예를 들어 고혈압 환자인데 어느 의료 기관에서 관련 검사를 받았다고 하면, 제약회사는 신약 개발을 위해 이 데이터가 필요하고 국 회와 정부는 관련 법에 의해 데이터를 제한하고 또 시민단체는 사생활 침해를 이유로 사용을 반 대하는 등 정작 자신의 데이터에 많은 이해관계자들이 개입을 합니다. 나 빼고 남들이 주인 행세를 하는 거죠. 데이터가 특정 집단의 이익을 위해 무분별하게 사용되는 것도 문제이고, 특정 집단의 이데올로기 때문에 사용이 원천 봉쇄되는 것도 문제입니다. 원칙적으로 내 데이터에 대한 권리는 자신이 가질 수 있어야 합니다. 이에 대한 대안으로 우리 정부가 마이데이터(My Data) 사업을 추진하고 있습니다. 개인이 본인의 정보를 내려 받거나 동의 하에 제3자에게 제공해서 활용 서비스를 가능하게 하자는 것입니다. 즉, 내 데이터의 주인이 나라는 걸 인정하고 이걸 누구에게 줄 것인지, 어떤 대가를 받고 줄 것인지를 내가 판단하고 결정한다는 데이터 자기 결정권입니다.

Q. 끝으로 빅데이터 전문가로서, 학자이자 연구자로서 올해의 계획과 앞으로의 바람을 듣고 싶습니다.


빅데이터를 가장 잘 활용하는 것은 기업입니다. 자본이나 리소스도 충분할 뿐만 아니라 글로벌 시장을 타깃으로 한다면 필수불가결한 선택이죠. 물론 기업도 중요하지만 빅데이터가 공공의 영역에서 보다 잘 활용될 수 있도록 돕는 게 제 역할이 아닐까 생각합니다. 공공데이터가 공익을 위해 공개 및 개방되고 사회를 발전시키는 좋은 방향으로 활용되어야 한다고 생각됩니다. 공공데이터전략위원회 위원장으로서 국민들이 보다 안전하고 안심한 생활을 할 수 있도록 공공데이터의 가치를 높이는 데 힘쓰겠습니다.