처음 신종 코로나바이러스소식을 접했을 때 대수롭지 않게 여겼습니다. 중국 내 확진자가 급격히 늘고 우리나라에서도 확진자가 발생하면서 2015MERS의 아픈 기억이 떠올랐습니다. 다행히 진단 키트가 개발되고 확진자가 일부 완치되고 있어, 머지 않아 상황이 호전될 것이라 믿습니다.

 

전염병이 세계를 혼란에 빠뜨릴 때마다 이런 생각이 듭니다. ‘단 하루만이라도 더 일찍 상황을 파악하고 원인을 발견할 수 있다면?’

 

202016CDC가 신종 코로나바이러스에 대한 경고를 발표했습니다. 이어서 사흘 뒤 WHO가 위험을 알렸습니다 캐나다의 의료 AI 기업인 BlueDot (https://bluedot.global/) 은 한 발 앞선 20191231일에 발간한 보고서에서 우한 지역에서 발생한 신종 코로나바이러스를 예측했습니다. 발표의 신속성만을 두고 CDC, WHOBlueDot을 단순 비교하는 것은 적절하지 않습니다. 빗나간 예측은 자칫 더 큰 혼란을 초래할 수 있기 때문입니다. 하지만 한시가 바쁜 시점에서 신속한 예측은 효과적인 대응을 위해 제한된 자원을 배분하는 데 중요한 만큼, 이번 BlueDot의 예측은 의미를 부여할 수 있습니다.

 

 

Prediction with Big Data

 

 

2008Google‘Google Flu Trends’ 서비스를 시작했습니다. 웹 상의 Big Data를 활용해 조금이라더 더 빨리 독감의 전파를 인지하려는 시도였습니다. Google에게는 사용자들의 수많은 ‘Googling’이라는 Big Data가 있습니다. 독감이 전파되고 심화될수록 사람들의 관련 검색량이 늘어난다는 가정이 대체로 유효했습니다. 무엇보다 검색어 패턴은 실시간으로 확인이 가능하다는 강점이 있습니다.

 

 

[Link 1. ‘Flu Trends, 데이터로 독감 따라잡기

(https://jacesky1.wordpress.com/2013/05/03/flu-trends-%eb%8d%b0%ec%9d%b4%ed%84%b0%eb%a1%9c-%eb%8f%85%ea%b0%90-%eb%94%b0%eb%9d%bc%ec%9e%a1%ea%b8%b0/)]

 

 

 

[Image 1. 예외가 있기는 하지만 Google Flu TrendsCDC 통계는 추세 상 큰 차이가 없었습니다.]

 

 

다만 Google Flu Trends는 참고 목적으로 사용할 수 있지만, 실질적인 판단 기준으로 삼기는 어려웠습니다. 단순히 검색량이 증가한다고 해서 실제로 독감이 발생했다는 의미는 아니기 때문입니다. 또한 역학 조사가 수반되지 않은 순수한 데이터 분석 기반의 서비스이기 때문입니다.

 

20158Google Flu Trends는 서비스를 중단했습니다.

 

 

Big Data to AI

 

BlueDot은 한 단계 진화했습니다.

 

우선 NLP(Natural Language Processing)ML(Machine Learing)을 이용해 다양한 종류의 데이터를 분석하고 의미를 도출합니다. 65개 언어로 작성된 10만 건이 넘는 아티클, WHO 데이터, ProMED-mail (Program for Monitoring Emerging Diseases), 의학 리포트와 온라인 컨텐츠, 모기와 진드기 등의 분포, 기후와 온도, 가축 현황을 포함합니다.

 

가장 인상적인 대상 데이터는 항공기 티켓 판매 내역입니다. 전염병의 전파에 항공기를 통한 이동이 매우 중요한 요소가 되었습니다. , Social Media는 컨텍스트를 이해하기 어렵고, 뜬소문이 섞여 있기 때문에 ‘Bias’를 피하기 위해 참조하지 않습니다.

 

 

 

 [Image 2. BlueDot의 참조 데이터 출처: BlueDot (https://bluedot.global/products/)]

 

 

데이터가 모든 것을 말해줄 수는 없습니다. 의학 전문가들이 데이터를 바탕으로 전염병 소식을 전할 것인지 여부를 결정합니다. 전염병으로 최종 판단이 되면 어느 지역까지 바이러스가 이동할 지도 예측합니다.

 

 

 

[Image 3. BlueDot Explorer]

 

 

다만 Google Flu TrendsBlueDot을 동일선상에서 비교하는 것은 무리가 있습니다. 10년 가까은 시차를 두고 있으므로 기술 진화의 속도가 다릅니다. Google Flu Trends는 처음부터 보완적인 역할을 강조했고, 대상 데이터의 속성 상 한계가 있음을 감안하면 일부 예측이 빗나갔다는 것은 어쩌면 당연한 일입니다.

 

오히려 BlueDot 같은 서비스들이 좀 더 진화된 기술과 체계적인 데이터를 기반으로 한 단계 더 진화하고 있다는 점에 방점을 찍는 것이 좋지 않을까요?

 

 

SARS의 충격을 넘어

 

창업자이자 전문의인 Kamarn Khan 박사는 2003년의 SARS가 캐나다를 덮친 상황을 목격했습니다. 그 때의 충격과 결심이 창업으로 이어졌고, 그의 절실함만큼 서비스는 진화하고 있습니다. 2014년 에볼라 바이러스 확산과 2016년 지카 바이러스 확산 예측은 그 결실입니다.

 

 

바이러스의 속도는 엄청납니다. 그러나 BlueDot의 데이터 분석의 속도와 정확도가 바이러스의 속도를 넘어서기를 바랍니다.