[취재INSIDE] 데이터댐의 성공은 비정형 데이터들의 구조화에 달려있다

2021-06-25     박소연 기자
박소연

정부에서 추진하고 있는 디지털 뉴딜 정책의 핵심 개념 가운데 하나로 데이터댐 정책이 주목받고 있다. 특히, 최근 정부가 개방한 인공지능(AI) 학습용 데이터에 대해 IT업계에서는 큰 기대감을 나타내고 있다.

지난 18일 서울 마곡 LG사이언스파크에서 열린 인공지능(AI) 데이터 활용협의회출범식에 과기정통부는 AI 학습용 데이터 170(48000만 건)1860종을 시작으로 이달 말까지 순차 개방하겠다고 밝혔다.

이번 데이터 개방은 지난해부터 문재인 정부의 핵심 정책인 디지털 뉴딜의 데이터 댐구축 프로젝트의 목적으로 추진됐다. 헬스케어 데이터 등 개인정보와 민감정보가 포함될 우려가 있는 59종의 데이터는 최종 검증을 거쳐 30일 공개된다. 이에 앞서 정부는 AI 알고리즘을 보유한 20여 곳의 기업 및 연구 기관에 먼저 데이터를 제공해 테스트를 진행했다.

이번 출범식에서는 세부적으로 데이터를 구축해줬으면 한다는 의견도 나왔다. 과기정통부 관계자는 농림 분야를 예로 들면 병충해라고 하면 여러 종류의 병충해가 있는데 세부적으로 데이터를 구축해주면 좋겠고, 라벨링이 보완됐으면 한다는 의견이 있었다라고 전했다

이처럼 공공기관에는 정부의 노력과 국민의 참여로 많은 데이터가 쌓여 있는데, 이러한 데이터들이 빅데이터의 역할을 하려면 여러 비정형 데이터들과 융합된 것이 필요하다. 비정형 데이터란 쉽게 말해 정의된 구조가 없이 정형화되지 않은 데이터로서 앞서 언급한 의견처럼 다양한 분야에서 얻을 수 있는 아직 구조화 및 라벨링 되지 않은 데이터를 말한다.

현재 IT 부문 공공기관들이 지금까지 모아놓은 데이터들은 업무를 수행하는 과정에서 모은 것이나 만들어진 것들로, AI에 의해 정확한 처리가 가능한 빅데이터를 만들기 위해서는 타 산업 분야의 여러 비정형 데이터들을 적극적으로 모아 구조화해야 한다.

임혜숙 과기정통부 장관은 이번 데이터댐 정책이 인공지능 활용 격차를 좁히는 계기가 될 것이며 AI 기술 활용과 이용 저변 확대에 기여할 것이라고 말하고 있다. 이러한 목표를 달성되려면 고품질의 데이터 구조화가 필요해 보인다. 데이터는 무엇보다 품질과 신뢰성이 먼저 보장되어야 한다. 또한, 이를 활용하는 이들이 보다 쉽게 이용할 수 있어야 한다. 정부의 데이터댐 정책의 성패는 수많은 비정형 데이터들을 어떻게 실용적이고 신뢰성 있게 구조화해 나갈 것이냐에 달려있다.