OCR 이미지, 텍스트 데이터 분야에서 학습 데이터 구축 및 품질관리 노하우 등이 상당부분 피인용

[비지니스코리아=김은진 기자] QA 인공지능 스타트업 포티투마루(42Maru)가 한국지능정보사회진흥원(NIA)이 개발하여 공개한 ‘인공지능 학습용 데이터셋 구축 안내서’의 가이드라인을 지원한다고 밝혔다.

인공지능 학습용 데이터셋 구축 안내서와 인공지능 학습용 데이터 품질관리 가이드라인은 과학기술정보통신부가 추진하는 인공지능 학습용 데이터 구축사업의 품질 확보를 위해 제작되었으며, 올해 인공지능 학습용 데이터 구축사업부터 본격적으로 적용하여 구축사업 참여기관의 품질관리 및 사업 수행 역량을 제고하는데 기여할 것으로 기대된다. 그동안 과학기술정보통신부와 한국지능정보사회진흥원은 인공지능 학습용 데이터 구축사업을 통해 약 21종 460만건의 인공지능 학습용 데이터를 구축하여 민간에 개방을 했으나, 참여기관의 경험 부족으로 인한 시행 착오를 비롯하여 일부 데이터의 품질이 높아진 사용자의 기대 수준을 하회한다는 지적도 있었다. 이를 보완하기 위해 한국지능정보사회진흥원이 가이드라인과 안내서를 개발하였고, 인공지능 학습용 데이터 구축에 보편적으로 적용되는 절차 및 구성요소를 제시하여 데이터 구축과정에서의 오류를 줄이고 체계적인 계획 수립을 지원할 수 있게 되었다.

인공지능 학습용 데이터셋 구축안내서 및 품질관리 가이드라인

포티투마루는 사용자의 질의 의도를 의미적으로 이해하고 방대한 비정형 데이터에서 '단 하나의 정답' 만을 도출해내는 딥 시맨틱 QA(Question Answering) 플랫폼을 개발·서비스하는 인공지능 기술 기반 스타트업이다. 딥러닝 기계 독해(MRC)와 TA(Text Analytics) 기술을 바탕으로 시맨틱 KMS(기업용 지식검색시스템), DX(Digital Transformation) 및 인공지능 기반 챗봇 등의 분야에서 비즈니스 이슈와 원인을 파악하고 잠재적인 리스크 요소를 사전 감지하는 SaaS 기반의 엔터프라이즈 BA(Business Analytics) 플랫폼을 제공하고 있다.

인공지능 학습용 데이터셋 구축 안내서의 텍스트, 음성, OCR 이미지, 영상(동적/정적 이미지) 4개 분야 중 OCR 이미지, 텍스트 데이터 분야에서 포티투마루의 과제 산출물 내용과 데이터 구축 기준, 절차 등에 대한 기술이 상당 부분 참고자료로 피인용되었으며, 올해 추진되는 과제에 대해서도 타 참여기관의 요청이 있을 경우 조건없이 경험과 노하우를 공유할 계획이다.

포티투마루 김동환 대표는 “포티투마루는 2017년 일반상식 분야 AI 지식베이스 구축을 시작으로 매년 자연어 처리와 이미지 비전 분야 과제를 성공적으로 수행하였고, 현재도 디지털 뉴딜의 핵심 요소인 데이터 댐 구축을 위한 ‘인공지능 학습용 데이터 구축 사업’을 성공적으로 진행 중에 있다.”며, “다년간의 AI 데이터 핸들링 노하우와 다양한 과제, 사업을 주관한 경험을 바탕으로 데이터 구축과정에서의 시행착오를 최소화하고 체계적인 계획수립의 기준이 되는 가이드라인 역할을 통해 국내 인공지능 산업 활성화 및 발전에 기여하고자 한다.”라고 전했다.
 

저작권자 © Businesskorea 무단전재 및 재배포 금지