세계 최고 권위의 컴퓨터 언어학 학회 ACL에 논문 채택에 이어 글로벌 시장에서 기술력 입증

[비지니스코리아=김은진 기자] QA(Question Answering) 인공지능 스타트업 포티투마루(42Maru)가 마이크로소프트가 주관하는 GLGE(General Language Generation Evaluation) 벤치마크에서 텍스트 요약 부문 1위를 차지했다고 밝혔다.

MS에서 주관하는 GLGE(General Language Generation Evaluation) 벤치마크는 자연어 생성(NLG: Natural Language Generation) 모델의 종합적 능력을 시험하는 것으로, 총 8개의 언어 생성 과제로 구성된 멀티태스크 벤치마크 과제이다. 텍스트 요약 분야(Abstract Text Summarization)에서 4개의 과제(CNN/DailyMail, Gigaword, XSUM, MSNews), 답변 인식 질문생성(Answer-aware Question Generation)에서 2개 과제(SQuAD 1.1, MSQG), 대화형 질의응답(CoQA, Conversational Question Answering)과 개인화 대화(Personachat, Personalizing Dialogue)까지 총 8개의 과제를 대상으로, 보다 다각화된 난이도를 제공하기 위해 과제별로 3가지 난이도 버전(GLGE-Easy, GLGE-Medium, GLGE-Hard)을 제공한다.

포티투마루는 텍스트 요약 분야의 CNN/DailyMail 과제와 답변 인식 질문생성 분야의 SQuAD 1.1 과제에서 동시에 1위를 달성하였다. 텍스트 요약 분야의 CNN/DailyMail 과제는 영국 데일리 메일 신문의 22만여개 기사와 9만3000여개의 CNN 기사로 구성된 데이터셋에서 전처리 과정을 거쳐 정제된 31만여개의 기사를 다수의 문장을 포함하여 요약하는 성능을 평가한다. 답변 인식 질문생성 분야의 SQuAD 1.1 과제는 536개의 위키피디아 콘텐츠에 10만명 이상의 아마존 미케니컬 터크 크라우드 워커가 생성한 질의 응답 데이터셋으로 구성되어 있다. 전처리 과정을 거쳐 9만8000여개의 답변, 단락, 질문으로 구성된 위키피디아 데이터셋에서 답변 및 단락에 상응하는 질문을 찾아내는 성능을 평가한다.

GLGE 리더보드에 1위로 등록된 포티투마루의 텍스트 요약 및 질의응답 생성 모델

포티투마루는 텍스트 요약 분야와 답변 인식 질문생성 분야 2개의 과제에서 모두 최고점을 기록하여 MS주관 GLGE 리더보드에서 1위를 달성했다.

당사는 지난 2018년 미 스탠포드 대학에서 주관하고 구글, MS, IBM 등의 IT 선진기업과 CMU, 토론토대 등의 학계에서 참여하는 글로벌 기계독해(MRC) 경진대회인 SQuAD 2.0에서도 구글 AI팀과 공동 1위를 차지하며 글로벌 최고 수준의 기술력을 입증한 바 있다. 또한, 2020년에는 세계 최고 권위의 컴퓨터 언어학 학회인 ACL(Association Computational Linguistics)에 ‘다양하고 일관성 있는 문맥 기반 질의응답 생성을 위한 상호정보량 극대화 계층적 HCVAE(Hierarchical Conditional Variational AutoEncoder)’ 논문이 채택되어 질의응답 생성 관련 기술을 세계 무대에 선보였다.

포티투마루는 사용자의 질의 의도를 의미적으로 이해하고 방대한 비정형 데이터에서 '단 하나의 정답' 만을 도출해내는 딥 시맨틱 QA(Question Answering) 플랫폼을 개발·서비스하는 인공지능 기술 기반 스타트업이다. 딥러닝 기계 독해(MRC)와 TA(Text Analytics) 기술을 바탕으로 시맨틱 KMS(기업용 지식검색시스템), DX(Digital Transformation) 및 인공지능 기반 챗봇 등의 분야에서 비즈니스 이슈와 원인을 파악하고 잠재적인 리스크 요소를 사전 감지하는 SaaS 기반의 엔터프라이즈 BA(Business Analytics) 플랫폼을 제공
하고 있다.

포티투마루의 자연어생성 및 텍스트 요약 모델 ‘CTRLgen’

포티투마루는 자연어 생성과 텍스트 요약분야에서 독보적인 성능을 발휘하는 ‘CTRLgen’ 모델을 자체 개발하여, MS GLGE 리더보드를 통해 글로벌 최고수준의 성능을 입증하였다. 또한, 텍스트 요약 기술을 뉴스, 도서, 논문, 웹 문서, 기업 내 업무 매뉴얼 및 교신 문서, 대화 등의 다양한 콘텐츠에 적용 가능한 상용 수준의 솔루션도 개발 중이다.

포티투마루 김동환 대표는 “기계독해가 방대한 비정형 데이터에서 정답을 찾아내는 단답형 주관식 시험이라고 한다면, 자연어 생성 기반의 텍스트 요약 및 답변 인식 질문생성은 논술 시험의 일종이라고 할 수 있다. 즉, 인간의 사고 능력과 표현 능력이 투영되어야 하므로 그만큼 더 어렵고 진일보한 언어지능 기술이다.”며, “포티투마루가 전문 연구기관이 아닌 상용 엔진을 개발∙서비스하는 스타트업이지만 꾸준한 연구개발을 통해 글로벌 인공지능 기술을 선도해 나가겠다”고 소감을 밝혔다.
 

저작권자 © Businesskorea 무단전재 및 재배포 금지