빅데이터와 공간정보, 최근 가장 주목받는 이슈들이다. 그런데 빅데이터와 공간정보가 결합했다니 그 활용가치는 더욱 상승하는 것이 자명하다. 코로나19로 어려운 시기, 공간정보와 빅데이터에 의료를 결합해 위기 극복의 해법을 모색하고 있는 아주대학교 의과대학 의료정보학과 박래웅 교수를 만났다.

Q. 먼저 지금 진행하고 계시는 코로나19 퇴치를 위한 빅데이터 연구에 대해 자세한 설명을 부탁드립니다. 연구를 시작한 계기, 그리고 구체적인 연구 내용에 대해서도 말씀해 주세요.

병원들이 데이터를 많이 가지고 있음에도 불구하고 병원 밖의 연구자가 그 데이터를 활용하기란 ‘하늘의 별 따기’입니다. 민감한 개인정보, 건강정보 등이 걸려있기 때문인데요. 기관 밖의 연구자들이 데이터에 쉽게 접근할 수 있도록 CDM(Common Data Model)을 만들었습니다. 데이터를 직접 제공하는 대신, 분석 프로그램을 짠 후 병원으로 보내주면 병원 내의 연구자가 이를 실행해 그 결과만 연구자에게 제공하는 형태입니다. 전국 42개 병원이 우리 컨소시엄에 들어와 있고 현재 27개 병원이 정보 변환을 완료한 상태입니다. 원래 3월 말에 유럽에서 오딧세이 심포지엄이 열릴 예정이었는데 코로나19로 취소되었습니다. 대신 온라인 심포지엄을 통해 코로나19에 관한 연구 마라톤을 하기로 했는데요. 옥스퍼드대학교 주도로 실제 88시간 동안 진행되었습니다. 그런데 코로나19 연구에 사용할 유효 데이터가 충분치 않았어요. 당시 대구, 경북 지역을 중심으로 팬데믹이 진행되고 있던 상황이라 해당 지역 대학병원 2군데와 건강보험심사원에서 얻은 약 5,000명의 환자에 대한 자료를 CDM으로 변환해 연구 마라톤에 필요한 데이터를 생성할 수 있었습니다.

Q. 특히 이번 연구는 빌&멀린다 게이츠 재단과 국제 공동 연구 협약을 맺어 화제가 되었습니다. 어떻게 협약을 맺게 되었으며, 재단에서 주목한 점은 어떤 부분인가요?

데이터를 얻으려면 병원들도 설득해야 하고 대의명분도 있어야 합니다. 또한 데이터 변환 및 적용에 드는 비용도 만만치 않고요. 현실적으로 어려움을 겪고 있던 차에 싱가포르 식약청에서 근무하다 재단으로 간 오딧세이 멤버가 빌&멀린다 게이츠 재단을 연결해 줬습니다. 2주마다 텔레 컨퍼런스를 하는데 재단에서 코로나 바이러스 백신 개발 및 연구에 지대한 관심을 갖고 있다면서요. 빌&멀린다 게이츠 재단의 지원 덕분에 37개 기관에서 데이터를 제공받아 다양한 연구를 진행했습니다. 고혈압 환자 중 특정 약물 복용자가 코로나 바이러스에 취약한지에 대한 연구와 실제 특정 개인이 코로나에 걸렸을 때의 입원 확률, 중환자실에 가게 될 확률, 사망 확률이 각각 몇 퍼센트인지 백분율로 나타내는 분석 프로그램을 개발하기도 하는 등 주목할 만한 성과를 거두었습니다.

데이터를 직접 제공하는 대신,
분석 프로그램을 짠 후
병원으로 보내주면
병원 내의 연구자가 이를 실행해
그 결과만 연구자에게
제공하는 형태입니다.

Q. 빅데이터는 그 활용 범위가 넓은 만큼 개인정보보호나 정보보안에 있어 우려를 낳기도 합니다. 그런 의미에서 이번 연구를 통해 환자의 전자의무기록 자료를 익명화·표준화한 부분에 특히 눈길이 갑니다.

병원 내부의 건강기록은 아시다시피 굉장히 민감한 데이터입니다. 물론 이를 활용해 새로운 치료제를 개발하거나 몰랐던 부작용을 찾기도 하지만요. ‘가명화’를 원칙으로 하나 해킹이나 예상치 못한 상황에 의해 정보가 누출되면 개인에게 불이익이 갈 수 있다는 게 문제지요. 그것 때문에 법과 규제, 윤리위원회의 통제가 존재하는 것이고요. 일기에 비유하면 이해가 쉽습니다.
이름만 빼면 내 일기를 통째로 남에게 줄 수 있느냐 하는 문제거든요. 대의명분이 있더라도 프라이버시 또한 존중되어야 하기에 데이터를 분석, 통계 처리한 다음 숫자 몇 가지만 연구자에게 주는 형태의 ‘근거 공유 플랫폼(Evidence Sharing Platform)’을 개발한 겁니다. 병원은 개인정보 침해를 걱정하지 않아도 되고, 연구자들은 연구 결과, 즉 ‘근거’를 얻을 수 있는 만큼 연구의 한계와 프라이버시 이슈를 모두 극복하는 연구망이 구축되었다고 볼 수 있습니다. 현재 63개 병원이 컨소시엄에 들어와 있습니다. 아산병원, 삼성병원, 서울대학교병원, 세브란스병원 등 대형 병원 대부분이 다 포함됩니다.

Q. 지금까지의 연구 진행 상황과 그 연구 결과를 어떻게 활용할 것인지에 대한 계획을 들려주세요.


현재는 고혈압 환자에 대한 연구를 진행 중입니다. 지금껏 고혈압 환자에게 어떤 약을 먼저 투여할 것인지에 대한 가이드라인이 없었는데 최근 빅데이터를 활용한 연구로 이뇨제가 초기 치료제로 제일 효과적이라는 결론에 도달했습니다. 무려 600만 명의 데이터 분석을 통해 밝혀낸 결과입니다. 이런 식으로 다양한 컨소시엄을 통해 수백 가지의 연구가 동시 진행 중입니다. 이런 연구들을 통해 아주 유효한 개인건강기록(PHR: Personal Health Record)을 만드는 게 목표입니다. 지금까지의 PHR은 페이퍼 형태로 제공되었습니다. 전자 형태의 정보로 제공된 데이터조차 병원마다 양식과 용어가 모두 달라 통합, 분석이 어려웠죠. CDM을 이용해 이를 표준화하면 환자 개개인이 보다 완성되고 통일된 형태의 PHR을 가질 수 있을 것입니다. 스마트폰의 진료기록이나 건강 관련 데이터와도 통합되어 개인 맞춤형 서비스를 국민들에게 제공할 수 있는 날이 머지 않았으리라 봅니다.

지금껏 고혈압 환자에게
어떤 약을 먼저 투여할 것인지에
대한 가이드라인이 없었는데
최근 빅데이터를 활용한 연구로
이뇨제가 초기 치료제로 제일
효과적이라는 결론에 도달했습니다.

Q. GIS 기반 툴을 개발해 지역별 질병의 분포를 파악하고 상관성을 분석하는 등 기존에도 공간정보 빅데이터를 의료와 접목한 연구를 진행하셨는데요. 이러한 주제에 관심을 갖게 된 이유가 궁금합니다.

전 세계적으로 의료정보뿐 아니라, 지역·공간정보 등 데이터가 엄청나게 늘고 있습니다. CDM에 GIS를 접목하면 흥미로운 메타 데이터를 얻을 수 있겠다는 생각이 들었습니다. 한 예가 천식 환자가 응급실에 갈 확률이 지역별로 어떻게 다른가에 관한 연구였습니다. 실제 공간정보를 기반으로 연구를 해보니 강원, 영동 지방에서 그 수치가 높게 나오는 걸로 나타났습니다. 산이 많아 공기가 좋을 것 같지만 주택가격으로 분석한 결과를 보면 집값과 유의한 상관성을 갖는 것으로 나타난 거죠. 실제로는 병원과의 지리적 접근성이 집값으로 표현된 것 같습니다. 메디컬 분야에서는 공간분석을 하기가 어렵습니다. 보건의료를 연구하는 사람들이 공간정보와 접목한 연구를 보다 쉽게 할 수 있도록 이를 통합할 수 있는 데이터 표준과 프로그램, 분석툴(AEGIS)을 조재형 박사과정과 함께 만들었습니다. 국가간 질병의 발병률 차이 등을 활발히 연구하면 국제 보건에도 기여할 수 있을 겁니다.

Q. 초연결, 초지능, 초융합 시대에 빅데이터는 더욱 발전할 것으로 예상됩니다. 의료와 빅데이터의 접목, 그 가능성을 어떻게 예측하시는지요?

기존에는 정형 데이터들이 주로 활용되었습니다. 영상이나 비디오, 엑스레이 유전체 데이터 같은 비정형 데이터는 상대적으로 활용이 적었는데요. 분절되었던 데이터들이 환자의 동의 하에 PHR 레벨에서 결합될 것으로 봅니다. 빠르면 3년, 늦어도 5년 이내에 말이죠. 중풍 같은 고령화 시대의 질병도 병원 내부의 임상 데이터라든지 기타 비정형 데이터들이 금융정보와 함께 결합되면 지금보다 훨씬 다차원적인 빅데이터가 형성될 거라 내다보고 있습니다.

Q. 끝으로 올해의 계획과 바람에 대해 한 말씀 부탁드립니다.


경계 없는 연구를 해보자는 차원에서 연구자유지대(Research Border-Free Zone)를 만들었습니다. 기존에 복잡한 승인과정을 거쳐야 했던 번거로움을 덜어내고, 연구자라면 누구나 소속기관에서 한 번만 승인을 받으면 추가적 허용 없이도 연구에 필요한 타기관 데이터를 사용할 수 있도록 한 것이죠. 작년 말 가입기관 6개로 출발해 현재는 연구자유지대에 속한 기관이 11개로 늘었습니다. 올해는 기관수를 30개로 늘리는 게 목표입니다. 3차 병원들이 주 가입자인데, 앞으로 2차 병원들로 범위를 확대해 이름처럼 진정한 ‘연구자유지대’를 만드는 게 꿈입니다.