산업 전반에서 인공지능과의 결합을 추진함에 따라, 인공지능 학습을 가속화하기 위한 움직임도 빨라졌다. 그중 비정형 데이터를 컴퓨터의 언어로 변형하거나 가공하는 데이터 라벨링 시장의 규모 확대가 특히 돋보인다.

데이터에 이름 붙여 AI 학습 시키는 데이터 라벨링

4차 산업혁명과 관련해 거론되고 있는 사물인터넷(IoT), 빅데이터(Big Data), 블록체인(Blockchain), 3D 프린팅 등 중 가장 첨단 기술은 인공지능(AI, Artificial Intelligence)이라 할 수 있다. 특히 하나의 인프라로서 거의 모든 산업이 인공지능과 융합하기 시작하면서, 관련 경쟁력을 강화하기 위한 각국의 움직임도 빨라지고 있다.(1)
이러한 AI의 발전 속도를 가속화시키는 것 중 하나로 데이터 라벨링(Data Labeling)을 꼽을 수 있다. 데이터 라벨링은 기계학습에 필요한 데이터를 수집·분류·가공하는 작업으로, 수동 또는 소프트웨어를 활용해 이루어진다. AI에서 데이터 라벨링은 머신러닝(Machine Learning), 특히 컴퓨터에게 정답(Labeling)을 알려주며 학습시키는 지도학습(Supervised Learning)을 위한 데이터 전처리의 중요한 부분이다. 즉, 비정형 데이터를 컴퓨터가 알아들을 수 있도록 쉽게 변형하거나 가공하는 것이 데이터 라벨링이다.
예를 들어 여러 이미지 중 꽃을 식별할 수 있는 모델을 학습시키기 위해 이미지 데이터 셋에서 해바라기, 장미, 튤립 등의 객체에 라벨을 지정하는 방식이다. 마찬가지로 의료 문서에서 질병의 이름을 식별할 수 있는 모델을 학습시키려면 문서 데이터 셋에서 질병 관련 단어를 강조해 표시해야 한다.(2)
자율주행 차량용 머신러닝 알고리즘을 구성할 때에도 데이터 라벨링이 사용된다. 자율주행차는 안전한 주행을 위하여 외부에 있는 물체를 파악할 수 있어야 하는데, 데이터 라벨링은 자동차의 인공지능이 이러한 물체 또는 데이터 포인트의 주요 특징에 라벨을 지정하고 이들 간의 유사점을 찾아 사람, 거리, 다른 자동차 등을 파악할 수 있게 해준다.
세계적으로 데이터 라벨링 시장은 급속도로 성장하고 있다. 시장조사 기업인 커그니리티카(Cognilytica)는 데이터 라벨링 시장 규모가 2018년에 5,835억 원을 넘어섰고, 향후 2023년에는 1조 4,000억 원에 이를 것으로 전망하였다. 또다른 글로벌 리서치컨설팅회사인 그랜드뷰리서치(Grand View Research)는 2019년 기준 전 세계 데이터 라벨링 툴(Tool) 시장은 2020년부터 2027년까지 연평균 26.9% 증가해 규모는 4,700억 원에 달했으며, 2027년에 약 3조 원 규모로 확대될 것으로 예측하였다.(5)

최근 정부에서도 디지털 뉴딜의 일환으로 2025년까지 58조 2000억 원을 투입하여 데이터댐 구축을 추진하고 있으며, AI가 사물간 연관성을 스스로 이해할 수 있는 형태로 가공된 대규모 AI 학습용 데이터 확보에 나섰다. AI 학습용 데이터 구축 사업은 특히 한국정보화진흥원(NIA) 주관으로 추진 중인데, 150개 세부과제(그룹과제 43개)로 구성되어 있다. 한국정보화진흥원은 한국어음성, 글자체이미지 등 범용데이터와 법률, 특허 등 전문분야를 포함한 총 21종 4,650만 건의 AI 학습용 데이터를 개방했으며, 4.4천여 명의 개발자들이 이를 활용해 1.7만여 건의 지능화 서비스 개발에 나섰다.(7)
그중 AI 스타트업인 스트라드비젼(StradVision)은 자율주행차량 구동에 안전성을 보장하는 딥러닝 기반 자율주행 소프트웨어 ‘SVNet External’을 개발하여 교통표지판, 사람 및 차량 등의 외부 객체를 정확하고 신속하게 탐지 및 인지하는 서비스를 제공하고 있다.
공간정보 분야도 AI와 연계하여 다양한 시도를 하고 있다. AI의 하위분류 중 하나인 지리정보 AI는 지리정보시스템이 지닌 정밀성, 그리고 AI가 지닌 면도날 같은 분석 능력과 솔루션 기반 접근성을 겸비한 기술로 속칭 Geo AI로 통한다.(9)
공간정보와 AI의 결합인 Geo AI가 보다 발전하고 다양한 분야에서 활용되기 위해서는 필요로 하는 데이터에 이름표를 붙이는 데이터 라벨링 역시 하나의 좋은 도구로써 역할을 할 수 있을 것으로 기대된다.

* 참고자료
(1) 이건한, 2020, “민간이 ‘인공지능 뉴딜’에 뛰어든 이유”, 블로터, 2020.06.14.자.
(2) https://cloud.google.com/ai-platform/data-labeling/docs?hl=ko
(3) crowdworks 홈페이지https://www.crowdworks.kr/main.do)
(4) 아주경제, 2020, “[AI, 생활속으로] ① ”AI는 데이터를 먹고 자란다“”, 2020.08.13.자
(5) 컴퓨터 월드, 2020, “AI 산업 육성 밑거름 ‘데이터 라벨링’이 떠오른다”, 2020.08.13.자
(6) 한국정보화진흥원, 2020, “인공지능 학습용 데이터 구축 사업(2차) 공모안내서
(7) 한국정보화진흥원, 2020, ”NIA 인공지능 학습용 데이터 활용 우수 사례“
(8) 스트라드비젼 홈페이지(https://stradvision.com/ko/news-2/)
(9) 공간정보연구원, 2018, ”Geo AI(Geo AI, 지리공간 인공지능)이란 무엇인가?“, 공간정보 뉴스레터, Vol.30,