MRC는 어떤 서비스로, 우리의 일상을 더 나아지게 만들고 있을까요? MRC 기술 서비스와 스켈터랩스의 기계 독해 기술 영상을 공개합니다.
들어가며: MRC, 어떤 서비스로 개발하면 좋을까요?
우리는 MRC(Machine Reading Comprehension, 기계독해)라는 기술에 대한 질문을 계속해왔습니다. 이번에 던질 질문은 ‘기술의 서비스화’에 관한 것으로, 일상을 나아지게 하는 서비스의 형태로 MRC라는 기술을 녹여낼 수 있는 방안에 대해 함께 이야기를 나누고자 합니다. MRC, 어떤 서비스로 개발하면 좋을까요?
다른 글에서 이미 우리는 MRC로 된 서비스를 살펴본 바 있습니다. 키워드가 아닌 질문의 형태(“How old is Elsa?”)로 검색하더라도 사용자의 질의 내용 및 의도를 정확히 이해하고 질문과 관련된 페이지(IDMb 웹사이트)를 독해한 뒤 알맞은 답변(21 years old)을 추출하여 보여주는 구글, Bing 등의 검색 기능은 MRC를 적용하여 검색 성능을 개선한 결과입니다. 이렇듯 상용화된 서비스에 적용할 수 있는 수준으로 MRC의 성능이 고도화된 것은 비교적 근래의 일이기 때문에 MRC 기반의 새로운 서비스를 기획하고 선보이는 과정은 현재 진행 중이라고 할 수 있습니다.
본 글에서는 주로 의료 및 법조계와 같은 특정 산업 군을 위한 MRC 서비스가 어떻게 개발되고 있는지 살펴봅니다. 또한 자체 개발한 고성능의 MRC 모델 및 음성인식 기술을 결합한 형태의 서비스로서 스켈터랩스에서 야심 차게 선보이는 서비스(가칭: Video QnA)도 소개합니다.
아웃브레이크 모니터링(outbreak monitoring): 전 세계의 질병 정보로부터 감염병 원천 지역 추출
2020년을 잠식한 코로나19의 극복을 위해 MRC가 적용된 사례로서 아웃브레이크 모니터링이 있습니다. 올해 안으로 질병관리본부에 구축될 예정인 아웃브레이크 모니터링은 감염병의 원천 확인과 유입 차단, 확진자 추적 및 예측의 모든 과정을 관리하는 시스템입니다. 여기서 MRC는 감염병의 원천을 특정하기 위한 리서치 과정에 활용됩니다. MRC 기술을 적용하여 방대한 양의 코로나 관련 뉴스 및 질병관리 정보로부터 감염병 원천으로 추정되는 지역을 일차 추출하고, 이에 대한 의대 교수들의 검증을 재차 거쳐 정확한 감염병 원천 지역을 특정하는 식입니다. 지금까지 세계보건기구(WHO) 및 주요 의료기관들은 전 세계에서 수집한 뉴스 및 질병관리 정보를 수작업으로 리서치하며 수 일을 소요하였는데, MRC 기술이 적용된 아웃브레이크 모니터링을 도입하면 수 분 내지는 수 시간 내로 감염병 원천을 확인하고 신속히 대응할 수 있게 됩니다.
아웃브레이크 모니터링에 MRC 기술을 적용하여 기대할 수 있는 효과를 요약하면 다음과 같습니다.
(1) 뉴스 및 정보 리서치에 소요되었던 시간을 절감합니다.
(2) 리서치의 정확도를 높일 수 있습니다.
(3) 업무의 목적, 즉 '감염병 대응' 업무를 수행하는 데 집중할 수 있습니다.
계약서 분석기: 계약상 문제가 되는 조항 탐색
MRC를 적용한 법률 서비스로는 계약서 분석기, 즉 거래 시 작성한 계약 문서를 분석하고 사용자에게 법적으로 문제가 되는 내용을 알려주는 서비스가 있습니다. 이를테면 법적으로 계약서에 필수인 조항임에도 계약서상에 현출되지 않은 누락 조항을 찾아내거나, 계약서상 명시는 되어 있으나 당사자에게 법적으로 문제가 될 수 있는 독소조항을 찾아내어 보여주는 식입니다. 이와 같은 인공지능 기반의 법률 서비스는 '리걸테크(legaltech)', 즉 ICT 기술이 적용된 법률 서비스와 그 산업을 아우르는 영역의 한 축을 차지하고 있으며, 개인 및 소규모 간의 법률 분쟁이 늘어나는 사회에서 법률 상담에 대한 개인의 접근성을 개선하고, 비교적 저렴한 가격에 개인화된 법률 정보를 제공한다는 점에서 큰 의미를 갖습니다.
법조계는 사건 해결을 위한 문서의 리서치에 시간 소요가 많은 분야로, 법적 문서를 다루는 QA 시스템을 위한 MRC 솔루션이 개발된다면 실용적으로 활용될 여지가 많습니다. 그러나 법조계에 특화된 대용량 질의응답 데이터셋이 미비하여 법조계를 위한 MRC 모델을 개발하기 어려운 상황입니다. 또한 법적 문서는 일반적으로 그 길이가 길고, 세계통계연감과 같이 구조화된 데이터 및 인터뷰 기록, 판결문과 같이 비구조화된 데이터로 동시 구성된 복잡한 구조를 가지며, 어려운 법률 용어를 포함하고 있다는 점 등에서 기계독해를 적용하기 어려운 특수성을 갖습니다. 그러므로 현시점에서 법적 문서를 다루는 QA 시스템, 즉 법조계를 위한 MRC 솔루션을 개발하고자 한다면 법조계에 특화된 양질의 대용량 질의응답 데이터셋을 구축하는 것이 우선이며, 이러한 데이터셋의 학습을 통해 법적 문서에서만 볼 수 있는 법률 용어 및 복잡한 언어를 잘 이해할 수 있도록 성능을 개선해야 할 것입니다.
영상 내 정보 검색: 답변이 포함된 영상 구간 추출
스켈터랩스는 자체 개발한 고성능의 MRC 및 음성인식 기술을 활용하여 영상에 대한 질의응답 서비스를 선보이고자 합니다. 본래 기본적인 MRC 서비스는 검색 소스로 사용자가 제공하는 문서 또는 문서가 담긴 url 주소를 이용하며, 주어진 문서 안에서 사용자의 질의에 대한 알맞은 답변 및 근거가 되는 내용을 찾아 돌려주는 식으로 제공됩니다 (MRC 데모 보러 가기). 영상 검색 서비스도 비슷한 방식으로 사용하게 되는데, 다만 검색 소스로써 영상 또는 영상이 담긴 url 주소를 이용한다는 점, 그리고 질의 내용에 대한 답변을 돌려주는 동시에 관련 설명이 나오는 영상의 특정 구간을 추출해 준다는 점에서 주요한 차이가 있습니다 (Video QnA 데모 보러 가기).
이러한 영상 검색은 구글의 검색 서비스와 같이 제너럴한 툴로써 어느 비즈니스 분야에나 상용화될 수 있으며, 영상으로 정보를 제공하거나 습득하는 데에 익숙한 요즘의 사용자 행태에 잘 들어맞는 서비스입니다. 질의응답의 소스로 유튜브 플랫폼에 업로드되어 있는 영상 데이터만 활용한다고 생각하더라도 해당 서비스의 사용자가 누릴 수 있는 효과는 굉장할 거 같지 않나요? 이를테면 구독하는 채널에 새로 올라온 영상, '몬스테라 분갈이같이 해요!'를 시청하며 문득 영상 속에 나오는 화분이 얼마일까 궁금해졌다면, 사용자는 영상의 전 구간을 시청하며 정보를 탐색할 필요 없이 "화분은 얼마야?"라고 질문하면 됩니다. 우리가 자주 보는 테크 제품, 코스메틱, 콘텐츠 리뷰 영상, 그리고 요리나 디자인 툴 다루는 법 등의 매뉴얼을 다루는 영상에서 아주 유용하게 사용할 수 있겠죠?
특히, 코로나19로 화상강의 시스템을 이용한 비대면 수업을 실시하고 있는 공공 교육기관 및 사교육 시장에서 Video QnA 서비스를 적극적으로 활용한다면, 학교가 아닌 집에서 혼자 공부해야 하는 학생들의 학습 관리에 큰 도움이 될 것으로 기대됩니다. 예를 들어 온라인 수업이 실시간으로 진행되는 동안 교수자가 미처 챙기지 못한 질문사항이 있다면 학생들은 강의가 끝난 뒤 학습관리시스템에 업로드된 녹화본을 바탕으로 질문하고 스스로 답변을 찾을 수 있으며, 그와 관련한 영상 구간만 재시청함으로써 부족했던 부분에 대해 효율적으로 학습을 수행할 수 있을 겁니다. 스켈터랩스의 새로운 영상 검색, 여러분은 어디에 활용하면 좋을 것 같으세요?
마무리하며: MRC 활용 서비스에 대한 여러분의 생각이 궁금해요.
스켈터랩스에서 발행하는 MRC 시리즈는 본 편으로 모두 마무리되었습니다. MRC라는 기술에 대한 궁금증, 이제 어느 정도 해결되셨나요? 여러분의 생각에 MRC로 꼭 개발되었으면 하는 서비스가 있다면 언제든지 귀담아들을 테니 스켈터랩스와 함께 나누어 주세요. 마지막으로 지금까지 MRC 시리즈를 구독해 주신 분들께 감사의 말씀을 드리며, 검증된 기술력을 바탕으로 스켈터랩스가 선보일 다양한 서비스에 대해 앞으로도 지속적인 관심 부탁드립니다:)
♬ 지금 바로 음성인식과 기계독해가 복합적용된 새로운 '영상 속 내용 검색 서비스' AIQ.VIDEO Q&A를 체험하세요! ♬