[데이터넷] “데이터 활용성 높이려면 지속적인 품질 관리 뒤따라야” (1)

데이터 결합·공유 위한 선결 조건자동화된 체계 갖춰 주기적 관리 필수

 

데이터 품질이 보장되지 않으면 데이터에 대한 신뢰도가 저하되고, 잘못된 업무 처리나 의사결정으로 인해 손실이 발생할 수 있으며, 결과적으로 대외 신뢰도에도 악영향을 줄 수 있어 제대로 데이터를 활용했다고 보기 어렵다. 이에 데이터 활용 선결 조건으로 데이터 품질 관리의 중요성이 부각되고 있으며, 데이터 산업계는 인공지능(AI)을 비롯해 점차 커져가는 데이터 활용성을 높이고자 데이터 품질 관리 시장 공략을 위해 분주한 움직임을 보이고 있다. <편집자>

 

 

최근 다양해진 IT 시스템과 디바이스들로 인해 기업의 IT 환경은 급격한 변화를 맞이하고 있으며, 이를 통해 기업에서 관리되고 있는 데이터의 볼륨은 매년 급속도로 증가하고 있다. 과거에는 기업의 데이터 전략이 데이터의 확보에 전념했었다면 최근에는 기업의 경쟁력 강화를 위해 축적된 데이터를 어떻게 활용할 것인가에 초점이 맞춰지고 있으며, 기업 경영 전반에 걸쳐 이러한 데이터 활용도가 높아지면서 데이터의 정합성과 신뢰성 등 데이터 품질 수준이 기업의 의사결정에 매우 중요한 요소로 작용하고 있다.

 

데이터에 대한 신뢰도가 낮거나 정합성이 결여된다면 데이터를 기반으로 한 기업의 의사결정은 거의 불가능한 수준이 되기 때문에 고품질의 데이터를 유지하고 관리하기 위한 데이터 품질 관리가 최근 매우 중요한 요소로 부각되고 있다. 그리고 이러한 변화는 정형 데이터를 포함해 반정형 데이터 그리고 비정형 데이터에 이르기까지 점차 그 폭이 넓어지고 있다.

 

특히 데이터 활용 수요가 높은 AI 분야는 데이터 품질 관리에 더더욱 신경을 쓰고 있다. 시장조사업체 IDC가 지난해 발표한 ‘2021-2025 국내 AI 시장 전망보고서에 의하면 국내 AI 시장은 5년간 연평균 15.1%의 성장률을 기록하며 2025년에 19074억원 규모에 이를 전망이다. 디지털 전환의 가속화와 효과적인 총소유비용(TCO) 및 사용 편의성을 고려한 강점이 조직 운영에 필수 요소로 여겨지며 AI 관련 시스템 도입이 적극 이뤄지고 있기 때문이라는 분석이다.

 

이러한 성장이 현실화되기 위해서는 AI 학습데이터의 품질 역시 보장돼야 한다. 그렇지 않으면 AI 서비스가 오작동하고, 사고 또는 손실이 발생할 수 있다. 여성 지원자를 차별했던 아마존의 AI 채용 시스템과 성차별적 대화를 생성한 AI 챗봇은 유명한 AI 데이터 편향 사례다. 이와 같은 사례를 통해 AI 학습데이터의 품질이 AI 서비스 성능과 품질에 직접적인 영향을 미친다는 것을 알 수 있다. AI 모델과 서비스의 성능 향상을 위해서는 많은 양의 데이터, 즉 고품질의 학습용 데이터 확보가 필수적이다.

 

 

공공 주도 데이터 품질 관리 확대


데이터 품질 관리의 목적은 데이터를 잘 활용하기 위한 것으로, 이를 위해서는 다양한 데이터를 결합하고 분석해 공유할 수 있어야 한다. 실제로 많은 기업들이 데이터 공유 기반을 마련하기 위해 다양한 프로젝트를 진행하고 있으며, 정부에서도 양질의 공공데이터 개방을 통한 민간의 데이터 활용 증대를 위해 데이터 품질 관리에 많은 노력을 기울여왔다.

 

우리나라는 그간 공공데이터 개방, 재정 투입을 통한 데이터 구축·이용권 지원 등 정부 주도로 빠른 초기 시장 형성에 힘써왔다. 그러나 여전히 양질의 데이터는 부족하고, 민간의 시장 참여는 더디며, 맞춤형 데이터 등 데이터 활용을 촉진할 제도들은 이용이 불편하고, 전문 인력·선도 기술, 기업의 데이터 활용 저변도 더 확충이 필요한 상황이다.

 

이에 정부는 1차 데이터산업 진흥 기본계획을 토대로 정부 주도로 인해 발생했던 한계를 뛰어넘어 민관 협력을 통한 전향적 데이터 공유·개방, 과감한 제도 혁신, 선제적 투자를 추진할 계획이다.

 

우선 산업 수요·AI 기술경쟁력 등을 고려한 AI 학습용 데이터의 전략적 구축, 연구데이터 공유 기반 마련, 국제 데이터 수집·공유 등을 통해 신산업 창출에 필요한 데이터를 전략적으로 생산·제공하면서 우리 사회가 보유한 모든 데이터의 혁신적 생산·개방·공유를 추진한다.

 

공공데이터의 개방을 행정뿐 아니라 입법 분야까지 확대하고, 수요자 참여 강화로 개방의 편의성을 제고한다. 아울러 민관 협력을 기반으로 고령화 등 미래 현안 데이터를 수집하고 대응하는 각본을 논의하는 체계도 마련해 데이터 개방의 의미와 효과도 확대할 예정이다.

 

민간 중심·민간 주도의 데이터 유통·거래 생태계도 마련한다. 누구나 민간·공공의 데이터를 쉽게 검색하고 가치평가·품질인증 정보도 함께 접근할 수 있는 (ONE) 윈도우구축과 국가 표준화 맵마련 등으로 데이터를 편리하게 찾고 활용하는 국가 데이터 기반을 조성할 계획이다. 데이터 거래·분석 기업을 3500개까지 확대하고, 데이터 거래사 1000명 육성에도 나선다.

 

안전하면서도 혁신을 촉진하는 데이터 활용 기반 조성에도 나선다. 민관 합동 법제정비단 운영으로 데이터 활용을 저해하는 규제를 정비하고, 맞춤형 데이터 전송방식 표준화 확대 및 선도 서비스 확산 등으로 혁신적 데이터 활용을 촉진할 계획이다.

 

또 거대 플랫폼이 보유한 데이터 등에 대한 공정한 접근 원칙을 마련하고, 신뢰 기반 인공지능기술 개발 및 윤리교육 제공 등도 추진해 데이터에 대한 자유롭고 공정한 접근과 이용이 가능한 환경을 보장할 예정이다.

 

 

주기적인 관리 필수


데이터 품질 관리 활동은 기업과 기관 내·외부에서 발생하고 수집되는 데이터가 기업의 목적대로 생성되고 변화하고 있는지 그리고 이러한 데이터들이 얼마나 잘 유지되고 있는지에 대해 기업의 데이터 라이프 사이클에 따라 같이 움직여야 되는 것이 일반적이다. 따라서 데이터가 생성되고, 변화되고, 소멸되는 시점까지 지속적으로 고품질 데이터를 유지하고 관리하기 위한 활동이 이뤄져야 한다.

 

데이터 품질 관리를 위한 활동은 크게 데이터 값(정보의 내용)이 생성 원칙 및 의도에 맞게 구성돼 있는지를 관리하는 부분과 데이터 설계 규칙에 따라 완전하게 구성됐는지, 데이터의 구조가 설계 기준과 일치하고 있는지, 기업에서 관리되고 있는 업무 규칙에 따라 데이터가 생성되고 변화하고 있는지 등의 기준에 따라 품질 관리 활동이 이뤄지며, 이러한 일련의 활동은 데이터 라이프 사이클에 따라 주기적으로 관리돼야 한다.

 

그러나 현실은 그렇지 못하다. 그동안 모은 데이터를 활용하려 했던 많은 기업들이 번번이 실패했던 것도 바로 여기에 있다. 경영진은 회사가 많은 데이터를 보유하고 있으며, 그것들을 잘 분석하면 좋은 통찰력을 얻을 수 있다고 기대하지만, 이는 너무나 단편적인 생각일 뿐이다. 실제로 실무진에서는 필요한 데이터를 찾고, 데이터 내역과 값을 확인하고, 데이터를 추출해 가공하는 전처리 과정을 거쳐야 하며, 막상 가공한 데이터가 분석에 적합하지 않거나 부실해 다시 앞의 과정을 반복하고 있다.

 

물론 규모가 큰 곳일수록 많은 데이터 분석가가 있지만, 분석 모형을 만드는 것은 업무의 20% 정도에 불과하다. 나머지 80%는 데이터 확인, 정제 등 준비 과정에 할애한다. 상당히 비효율적인 구조다.

 

왜 이런 현상이 발생할까? 데이터가 담겨 있는 구조를 살펴보면 동일한 영문명이나 한글명으로 카테고리를 사용했다 하더라도 실제 데이터는 상품 카테고리’, ‘상담 카테고리’, ‘전시 카테고리등으로 각각 다를 수 있다. 여러 저장소에 흩어져 있기 때문에 동일한 데이터로 인식하더라도 합쳐 분석할 수 없는 것이 당연하다.

 

명재호 엔코아 부사장은 데이터 관리 체계 부재로 인해 지속적인 품질 이슈가 발생하고 있다. 불명확한 데이터를 활용하는 것은 수많은 데이터 식별과 이해를 지연시키고 오류마저 일으킬 수 있다데이터 분석 요구가 있을 때마다 매번 1회성으로 대응하는 수준에서 벗어나 지속적으로 데이터 품질을 유지할 수 있는 체계가 반드시 필요하며, 서비스 개발부터 배포, 운영이 데브옵스(DevOps)처럼 지속 이어지는 데이터옵스(DataOps)가 구현돼야 한다고 강조했다.

 

 이상적인 데이터 관리 체계(자료: 엔코아)

이상적인 데이터 관리 체계(자료: 엔코아)

 

 

시작은 데이터 자산화부터


데이터 업계에서는 데이터 품질 관리를 위해 최우선적으로 시행해야 하는 것으로 데이터 자산화를 꼽는다. 데이터 자산화는 기업에서 그간 방치돼 있던 데이터들을 보안, 전략, 표준, 프로세스, 구조 등의 틀을 씌워 관리하겠다는 것을 의미하며, 기업마다 편차가 있지만 데이터가 많으면 많을수록 해당 과정에 오랜 시간과 비용을 투입해야 한다.

 

자산화 기반을 만들려면 데이터를 식별하고 데이터를 이해할 수 있어야 한다. 또 데이터 라이프 사이클, 데이터 오너십, 데이터 관리 프로세스, 데이터 접근 등에 대한 다각적인 검토가 필요하다.

 

이어 본격적인 데이터 품질 관리에 돌입하게 되는데, 그러기 위해서는 표준을 마련해야 하고 그 표준에 따라 데이터 모델 설계도를 그리고 데이터베이스(DB)를 생성해야 한다. DB는 개발 영역, 검증 영역, 운영 영역 등으로 나뉘는데 각 DB 모두 관리될 수 있어야 한다.

 

중요한 것은 이렇게 관리된 DB에 새로운 데이터가 저장될 때도 품질을 관리할 수 있어야 한다는 것이다. 정해진 규칙에 맞지 않는 데이터가 저장되는 순간 데이터를 다시 정제해야 하기 때문이다.

 

더불어 데이터를 활용하는 애플리케이션들 역시 관리가 필요하다. 어떤 애플리케이션에서 어떤 데이터를 사용하고 쿼리를 발생시키는지 또 업데이트 하는지 등을 살피고, 데이터의 이동 흐름도 추적할 수 있어야 한다.

 

이러한 틀이 마련된 이후에야 데이터를 결합하고 공유하는 등 활용할 수 있게 되며, 데이터 보안을 비롯한 이후 단계로도 나아갈 수 있다.

 

 

자동화 체계 마련 필수


오랫동안 관리되지 않던 데이터의 품질을 관리하려면 많은 시간과 비용이 투자돼야 하며, 이를 달성했다 하더라도 앞서 언급했듯이 꾸준히 주기적으로 관리되지 않으면 도로 아미타불로 끝나는 경우도 부지기수다. 그렇기에 데이터 업계에서는 데이터 품질 관리를 주도할 담당자와 이를 도와줄 적절한 도구를 도입하는 것이 반드시 필요하다고 강조한다.

 

유진승 비투엔 솔루션사업본부장은 기업들이 최고데이터책임자(CDO)를 두듯이 공공에서도 데이터담당관이라는 보직이 생겨나 이들을 중심으로 데이터 품질 관리 활동이 이어지고 있다. 더욱이 공공에서는 매년 데이터 품질평가 사업을 진행하기에 전반적으로 공공데이터 품질이 잘 관리되고 있는 상황이라며 과거에는 데이터 품질 관리가 특정 담당자들에 달려있었으며, 이들이 퇴사하거나 업무가 바뀌면 후임자가 처음부터 다시 품질을 관리해야 하는 사태도 발생하곤 했다. 그러나 이제는 공공과 민간 모두에서 전문 도구들을 활용하면서 프로세스를 최대한 자동화하려 하고 있다. 그렇게 되면 특정 담당자들에게 의존성이 걸리지 않고 시스템적으로 구조화될 수 있어 지속적인 품질 관리에 적합하다고 설명했다.

 

서명원 위세아이텍 DM사업부 부장은 차세대 사업과 같이 처음부터 시스템을 구축하는 경우에는 데이터 품질 관리를 위한 표준을 세우고 정리하기 좋지만, 그렇지 못한 경우에는 데이터를 분류하고 수정하는 작업에 꽤 오랜 시간이 걸릴 수 있다이때 IT 담당자는 각 업무에 대한 도메인 지식이 부족하기에 현업 담당자들의 지원도 반드시 필요하다고 조언했다.

 

 

데이터 품질 관리 시장 활짝


갈수록 데이터를 활용하려는 수요가 늘어남에 따라 공공과 민간 모두에서 데이터 품질 관리에 대한 중요성을 인식했으며, 그로 인해 품질 관리 도구를 찾는 곳들도 늘어나고 있다. 아직 공식적인 집계가 있었던 것은 아니지만 관련 업계에서는 해당 시장이 해마다 커지고 있음을 체감하고 있다.

 

비투엔은 자체 개발한 품질 관리 솔루션 ‘SDQ’를 앞세워 공공과 민간 시장 모두를 공략하고 있다. 비투엔의 데이터 품질 관리 솔루션은 크게 기업의 고품질 데이터 관리를 위한 품질 관리 솔루션과 AI 학습용 데이터에 대한 품질관리를 위한 품질관리 솔루션으로 구분된다.

 

기업의 고품질 데이터 관리를 위한 품질 관리 솔루션의 경우 기존 정형 데이터 영역에 대해서는 상용 DBMS부터 오픈소스, 클라우드, 빅데이터 플랫폼에 이르기까지 국내 최다 DBMS를 지원한다. 특히 공공부문에서 지속되고 있는 공공데이터 품질 수준 평가 사업에서 수준 평가 공식 도구로 선정돼 활용되고 있으며, 520여개 정부기관 및 공공기관으로부터 데이터 품질 진단 기술력과 안정성을 입증받았다.

 

최근에는 반정형 영역의 파일 진단 및 수집되는 데이터의 변화를 머신러닝 알고리즘을 통한 다변량 분석을 통해 이상 값을 탐지하는 솔루션 등으로 점차 확대되고 있다. 따라서 이러한 솔루션 라인업을 통해 공공기관의 경우 최근 3년 동안 가장 많은 매출 계약을 이끌어내고 있어 국내 품질 시장에서의 선도적인 제품으로 자부하고 있다.

 

지난 2021년 국내 최초로 선보인 AI 학습용 데이터 품질관리 솔루션 ‘SDQ for AI’어노테이션 자동 진단 시스템기술 특허를 기반으로 구현돼 AI 학습데이터에 대한 파일 완전성, 구조 및 형식 정확성, 값의 유효성 등 구문적 정확성 검사와 데이터 편향성 예방을 위한 통계적 다양성 분석 기능을 제공한다. JSON, XML, CSV, TSV, TXT 등 다양한 포맷의 라벨링 파일에 대한 품질 검증을 지원하며, 복잡한 반정형 데이터 구조를 사용자가 인지하기 쉬운 트리와 표 구조로 시각화해 보다 직관적으로 정확하게 데이터 품질을 관리할 수 있다.

 

나아가 SDQ for AI는 노코드/로우코드를 지향하는 솔루션으로 누구나 손쉽게 데이터 품질 지표를 설정하고 측정/관리할 수 있어 고객들로부터 좋은 평가를 받았다.

 

비투엔은 올해에도 공공데이터 수준 평가 사업을 통해 SDQ 솔루션이 공공기관의 고품질 데이터를 확보하고 유지하는데 있어 핵심적인 역할을 지속적으로 수행할 수 있도록 할 계획이다. 아울러 빅데이터, 클라우드 영역으로의 확대 및 반정형 데이터 품질 관리 영역에서 민간 사업을 확장하고 이상 값 탐지 기능의 확대를 통해 기업의 데이터 활용에 있어 핵심적인 역할을 담당할 수 있도록 할 방침이다.

 

 

게시판 검색

총 게시글 216

TOP

(08506) 서울시 금천구 가산디지털1로 145, 에이스하이엔드타워3차 13층