GLOBAL TREND: 인공지능 딥러닝부터 LTE까지, 신기술 입고 진화하는 인구조사

인구통계는 국가의 정책 방향을 결정하는 동시에 큰 틀에서 보자면 인류가 직면한 다양한 문제를 파악할 수 있는 지표가 된다. 하지만 막대한 인력과 시간, 자본을 투입하고도 정확한 결과를 얻어내기란 만만치 않았다. 다행히 4차 산업혁명 특히 인공지능과 공간정보의 발달은 인구통계 조사에 혁신을 일으키며 보다 유의미한 결과들을 도출해내고 있다.

고비용 저효율 구조를
개선하기 위한 각국의 노력들

전 세계적으로 신기술이 발달하고 인구가 폭발적으로 증가해 왔음에도, 인구조사 방법에는 큰 변화가 없었다. 세계에서 가장 앞선 기술을 가진 미국마저도 인구조사에 있어서 만큼은 아날로그 방식을 고수했다. 지난 2010년 진행한 미국 인구총조사에는 역사상 가장 많은 120억 달러(약 13조 5,000억 원)의 비용이 소요됐다. 3억 3,000만여 명의 인구조사를 위해 수많은 인력이 투입됐고, 방문조사를 위해 1,700만 장의 지도와 5,000만 장의 질문지가 소비됐다.
이러한 고비용 저효율 구조를 개선하기 위해 유럽연합은 ‘GHSL(Global Human Settlement Layer)’를 도입했다. GHSL은 인공위성 영상 이미지 상에서 도시 구역을 1스퀘어미터(Square meter) 블록으로 나눈 후 사람들이 거주하는 블록만을 추출해 인구밀도를 측정하는 것이다. 기존 방식에 비해 혁신적인 변화를 이룬 것은 사실이지만 영상의 해상도가 낮을 경우, 활용도가 떨어진다는 단점이 있다.
한편, 독일의 우주항공기관인 DLR(German Aerospace Center)에서는 GUF(Global Urban Footprint)를 탄생시켰다. GUF는 광학 이미지가 아닌 레이더 데이터를 활용해 그리드 셀당 12m의 해상도로 지구 곳곳의 공간들을 표현해낸다. 레이더 데이터는 특히 거주지의 특징인 수직 구조를 매우 정밀하게 감지해 인구밀도를 측정하는 데 효과적이다. 다만 굴뚝이나 첨탑 등의 인공물과 나무나 바위 등을 식별하기에는 쉽지 않아 DLR 연구팀은 오픈 스트리트 맵(Open Street Map) 등을 활용해 레이더 데이터를 수정해야 했다.

새로운 기술 도입으로
더욱 정확한 결과를

2017년 9월, 세계 최대의 소셜네트워크서비스인 페이스북은 사람이 거주하는 지역을 담은 한 장의 지도를 공개했다. 이 지도는 세계 모든 지역을 인터넷으로 연결하기 위한 ‘인터넷닷오알지’ 프로젝트의 일환으로, 인터넷망이 닿지 않는 지역의 인구분포를 분석한 결과다. 평범한 인공위성 사진처럼 보이는 이 지도는 이전에 비해 훨씬 정확한 인구분포를 담아냈다. 인구통계 조사와 인공위성 사진을 결합한 결과다. 특히 인공위성 영상 회사인 디지털 글로브(Digital Globe)가 확보한 146억 장의 이미지 중 인간의 흔적이 담긴 것을 가려내는 과정에서는 인공지능 핵심기술인 신경망 머신러닝을 활용해 눈길을 끌었다. 예를 들어 농촌지역 인공위성 사진에서 사람의 흔적을 찾아내는 과정은 기존 방식대로라면 어마어마한 인력과 시간이 필요하지만 신경망 머신러닝을 통하면 보다 짧은 시간에 정확하게 식별해낼 수 있다. 페이스북은 2017년까지 20개 국가 2,160만km2에 이르는 지역의 인구분포 지도를 완성했다. 이 과정에서는 미국 의회도서관이 보유한 정보에 육박하는 350테라바이트(TB) 분량의 정보를 분석하기 위해 최소 1,000대가 넘는 서버가 동원됐다.
같은 해 12월 스탠포드대학교의 팀닛 게브루(Timnit Gebru) 연구팀 역시 새로운 인구조사 방법을 내놓았다. 구글 스트리트 뷰(Google Street View)에 찍힌 자동차 이미지를 활용해 미국 내 여러 도시들의 인구를 분석한 것이다. 이들은 자동차의 제조사와 모델, 가격 등이 소유주에 대한 정보를 담고 있다는 것에 착안했다. 이후 수년에 걸쳐 미국 200개 도시의 구글 스트리트 뷰에 찍힌 자동차 사진을 수집한 후에 2,657개의 항목으로 분류했다. 이 과정에서 인공지능 딥러닝을 활용한 연구팀은 “사람이 했다면 1대 당 10초, 전체 분석에 15년이 걸렸을 작업을 인공지능 딥러닝을 이용해 1대 당 0.2초, 전체 분석에 2주로 획기적으로 줄였다”고 말했다.
미국 인구통계국은 10년 만에 진행되는 2020년 인구총조사를 위해 GIS를 중심으로 한 새로운 기술 도입에 나섰다. 이를 위해 인구통계국은 인공위성 정보와 항공사진, 10년간 업데이트해온 주소 데이터를 활용해 BARCA(Block Assessment, Research, and Classification Application) 시스템을 개발했다. 이 시스템을 활용하면 15만 명의 현장조사원이 발로 뛰며 주소정보를 조사하던 10년 전과 달리, 100여 명의 기술자들이 사무실에서 10년 전과 현재의 이미지를 비교하고 선택한 구역에 대한 주소를 확인하면 된다.
사람들의 참여를 이끄는 방식도 달라진다. 10년 전 인구총조사에서는 800명의 파트너십 전문가들이 인맥을 이용해 참여를 독려했으나, 2020년 인구총조사에서는 인터랙티브 맵핑 툴인 ‘ROAM’이 활용된다. ROAM은 이전 조사의 응답률과 소득수준, 인구통계 등 다양한 데이터를 맵핑해 응답 가능성이 낮은 지역을 가려낸다. 그 결과를 바탕으로 해당 지역에 적합한 현장조사원을 파견하거나 지역 내 랜드마크에서 캠페인을 진행해 참여를 독려하겠다는 것이다. 미응답자에 대한 현장방문을 위해서는 ArcGIS 런타임 기반의 ECaSE(Enterprise Censuses and Surveys Enabling) 애플리케이션이 도입된다. ECaSE 애플리케이션은 현장조사원 개개인의 주거지, 사용언어 등을 고려해 최적의 업무를 할당한다. 또한 이 애플리케이션을 통해 수집된 데이터는 암호화를 거쳐 자동으로 인구통계국의 중앙 저장소로 업로드됨에 따라 결과를 빠르게 확인할 수 있다.

전 세계 이동통신망을 쓸 수 있는 지역을 표시한 지도로 대부분 지역에서 인터넷 접속이 불가능한 것을 확인할 수 있다. (출처: 페이스북)

공공 데이터와 LTE 시그널로
새로운 인구모델 제시

지난 2018년, 서울시는 ‘서울생활인구’라는 새로운 인구모델을 공개했다. 서울의 행정 서비스 기준인 주민등록인구는 점차 감소하는 반면, 생산성과 도시 활력을 나타내는 ‘경제활동인구’와 ‘주간인구’는 늘어나는 현상에 대비하기 위함이다. 이에 따라 ‘서울생활인구’에는 상주인구는 물론 일, 교육, 의료 등을 이유로 일시적으로 서울에 머물고 있는 ‘비상주인구’와 관광을 위해 서울을 찾은 ‘외국인인구’까지, 서울의 행정 서비스 수요를 유발하는 모든 인구를 포함한다.
이와 같은 데이터 구축을 위해 서울시는 공공 빅데이터와 KT의 통신 빅데이터를 융합했다. 행정동 단위보다 세밀한 집계구 단위로 인구이동 현황을 수집하는 한편, 5일 동안의 데이터 생산주기를 기준으로 해 정확성을 추구했다. 특히 LTE 시그널을 활용해 인구추계를 한 것은 세계 최초의 사례로 더욱 눈길을 끌었다. 서울시와 KT 관계자는 “서울생활인구 지표 개발은 4차 산업혁명 시대에 발맞춰 민관이 협력해 성과를 창출한 사례”라고 말하며 “이 결과물이 지방자치단체들의 스마트시티 구현에 중요한 역할을 하기를 기대한다”는 소감을 밝히기도 했다. 4차 산업혁명의 핵심 인프라인 공간정보와 함께 다양한 신기술을 접목해 인구조사 방법을 진화해 나간다면 머지 않은 미래에 현대사회의 난제들에 대한 해결의 단초를 발견할 것으로 기대를 모은다.