“데이터를 물에 비유한다면, 우선 데이터 마트는 물병에 들어있는 물이라고 생각할 수 있다. 물병의 물은 필요에 따라 쉽게 소비할 수 있도록 정제되고 포장된 형태라고 볼 수 있다. 반면 데이터 레이크는 물병에 담긴 생수 이전에 존재하는 호수로써 자연의 상태이며 방대한 양의 물을 의미한다

‘데이터 레이크(Data Lake)’는 펜타호(Pentaho) CTO인 제임스 딕슨이 처음 언급한 이후 기술적 진화를 거듭해 오다 최근 데이터 중심의 혁신이 산업계 전반에 가속화 되면서 주목받고 있습니다.

과거에는 데이터가 특정 목적과 방법 별로 수집되고 관리되었으며 주로 정형 데이터로만 분석활용되었습니다.

이는 데이터 수집과 저장, 분석 등 일련의 프로세스에 필요한 하드웨어와 소프트웨어가 부족하거나 빈약했으며 무엇보다 데이터의 활용 가치를 충분히 이해하지 못했기 때문입니다.

빅데이터, 인공지능 기술의 진일보를 통해 데이터를 기반한 분석활용이 고도화 되면서 비정형 데이터나 원시 데이터까지 한 곳에 모으고 관리해야 할 필요성이 대두되었습니다.

데이터 기반 Digitalization을 가속화 하고 있는 기업들은 분산된 Legacy 시스템들을 모아 전사적 분석 공유 Infra로 활용하고 Data 기반의 의사결정을 하며 변화에 빠르게 대응 중입니다.

데이터 레이크는 기존의 데이터베이스 혹은 데이터 웨어하우스와 무슨 차이가 있을까요?

방대한 데이터를 모으고 분석하는 것은 같지만 데이터 레이크는 다양한 형태의 데이터를 활용할 수 있다는 점이 다릅니다.

기존 데이터베이스는 활용 분야와 업무에 따라 형식이 달라 각 데이터 간의 연관성을 찾기 위해서는 같은 방식으로 변환을 해야하고 이로 인해 많은 시간과 비용이 발생할 수 밖에 없습니다.

반면 데이터 레이크는 각 데이터를 가공 없이 저장한 뒤 필요할 때 데이터를 조합, 가공해서 활용합니다.

데이터를 무조건 모은다고 데이터 레이크가 되는 것은 아닙니다. 첫째, 모든 데이터를 한 곳의 서버에 저장하고 둘째, 신속하게 데이터를 추출하고 저장하며 셋째, 데이터 저장과 처리를 분리하고 넷째, 데이터 구조화 없이 분석 처리가 가능한 환경과 구조를 갖춰야 합니다.

기업은 부서나 업무가 다른 직원들도 원하는 데이터를 검색하고 보강하고 가공할 수 있으며 공유 인프라 내에서 유연하고 다양한 액세스로 새로운 비즈니스 가치를 창출할 수 있게 됩니다.

세계 25개 항공사가 GE와 피보탈의 데이터 레이크 시스템을 통해 데이터를 관리하여 항공기 운용과 유지 관리 효율성을 향상시키고 있습니다. 예를 들어 제트 엔진의 온도가 높다면, 과거 유사현상을 검색하고 사용기간, 정비 이력 등을 시스템이 알아서 분석하고 예측합니다.

세계 최대 동영상 스트리밍 서비스 업체인 넷플릭스는 시청자가 원하는 콘텐츠를 추천하는 시네매치 알고리즘 구현에 데이터 레이크를 활용하고 있습니다.

SK C&C는 통합 Data Lake 서비스를 개발 중에 있습니다. Data 중심의 업무 환경을 갖추고 원활한 Data 활용 툴을 제공하며 사업 담당자시민 분석가의 역량을 지원하는 서비스입니다.

분산된 환경으로 인한 Data Silo 문제, 전사 Data 기반 의사결정 문화 확산 한계, 사용자 별 다양한 분석 환경 부족 등 기존 Legacy 시스템의 한계를 극복합니다.

데이터는 21세기의 천연자원입니다. 그 자원을 어떻게 확보하고 관리하고 활용하냐는 질문의 답은 아마도 데이터 레이크가 될 것입니다.