테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도...

10
- 1 - 테크니컬 리포트 2020년 1차 인공지능 학습용 데이터 구축 자연어 영역 시각정보기반 질의응답

Transcript of 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도...

Page 1: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 1 -

테크니컬

리포트

2020년� 1차

인공지능�

학습용�

데이터�구축

자연어�영역�

시각정보기반�질의응답

Page 2: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 2 -

1. 시각정보기반 질의응답 AI 데이터란?

◦ 시각정보기반 질의응답(Visual QA) AI데이터 구축은 객체인식, 물체검출, 행동인식, 지

식기반 추론, 상식기반 추론 등과 자연언어처리, 지식 표현 등의 AI분야들을 결합한 기술

로 이미지와 이미지에 대한 질문을 입력으로 받아 질문에 대한 답을 생성하는 AI기술연

구에 활용할 수 있는 학습용 데이터이다.

◦ VQA 시스템의 기본 구조는 일차적으로 convolutional neural network(CNN)를 이용하

여 이미지정보를 이해하고, long short term memory(LSTM) 기반의 시계열 처리 모델을

활용하여 질문을 이해한 후 정답을 예측하는 방법으로 이루어져 왔다.

◦ VQA( Visual Question Answering)는 시각정보를 활용한 질의 응답을 AI가 학습하는

시스템으로, VQA task는 이미지(Visual, 영상으로도 확장 가능)와 그 이미지에 대한 질문

(Question)이 주어졌을 때, 해당 질문에 맞는 올바른 답변(Answer)을 만들어내는 task이

다.

◦ 2016년도에 Yang. Z.이 CNN을 거친 이미지 정보를 LSTM의 입력으로 사용하는 VQA

모델을 처음으로 소개했다. 2017년 VQA 대회에서 region proposal CNN (Faster-RCNN)

을 이용해 이미지 내 객체 후보군들을 먼저 알아낸 후, 이미지의 특징점을 활용하는 방

안이 제안되었고 이후 VQA 연구는 대체로 Faster-RCNN을 사용하게 되었다. 이후 2018

년도 VQA 대회에는 각 질문 특징점과 영상 특징점 쌍이 모두 고려되도록 하는 양방향

어텐션(billinear attention) 방법이 활용되어 최고 성적을 보였다.

가장 최근에는 ELMo, BERT와 같은 사전에 학습된 언어 모델을 활용하는 사례가 늘고 있

는 추세이며, dual attention network (DAN) 기술을 활용해 질문정보와 이미지 정보간의

양방향 이해를 돕는 모델이 적용되었다.

2. 데이터셋의 구성

Page 3: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 3 -

3. 데이터셋의 설계 기준과 분포

◦ 공개 VQA 이미지를 이용한 학습데이터 구축 방안

- 국제적으로 선도하고 있는 Virginia 대학의 VQA를 참고하여 객체, 생활환경 및 장면

이해를 추론하는 내용으로 데이터셋 구축

- 인터넷 웹의 이미지 데이터를 검색 추출하고 이를 원본 이미지의 특성을 최대한 반영

하여 데이터셋으로 구축

4. 데이터구조

Page 4: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 4 -

대분류 중분류 소분류 데이터타입 한글설명

입력질의

  info      

    year int 연도 

    version str 버전

    description str 상세설명

    contributor str 기여자

    url str 주소

    date_created datetime 생성일자

  questions     질의

    question_id int 질의ID 

    image_id int 이미지ID

    question str 질의내용

  license      

    name str 명칭

    url str 주소

답변

  info      

    year int 연도 

    version str 버전

    description str 상세설명

    contributor str 기여자

    url str 주소

    date_created datetime 생성일자

  data_type   str 이미지 소스

  data_subtype   str 데이터 하위 유형

  annotations     주석

    question_id int 질의ID

    image_id int 이미지ID

    multiple_choice_answer str 가장 빈번한 답변

  license      

    name str 이름

    url str 주소

이미지

  info      

    year int 연도 

    version str 버전

    description str 상세설명

    contributor str 기여자

    url str 주소

    date_created datetime 생성일자

  data_type   str 이미지 소스

  data_subtype   str 데이터 하위 유형

  image    

    image_id int 이미지ID 

    file_name str 파일명

  license      

    name str 명칭

    url str 주소

Page 5: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 5 -

- VQA 데이터셋의 주석설명: 이미지 데이터, 데이터의 보조형태, 질문 형태, “예/아니

오”나 “숫자” 또는 “기타”로 응답되는 대답의 형태, 가장 빈도가 높은 바른 답변, 질문에

대답하는 확신정도로 구성

◦ VQA 데이터 질문 생성

- VQA 데이터의 한글 질문 생성은 한글의 언어특성을 고려하며 VQA 영어 질의 답변

생성 초기 사례를 참조하여 이미지에 대한 한글 질문을 직접 작성하는 방식을 적용

5. 데이터 예시

6. 데이터 구축 과정

◦ AI 학습용 데이터구축 규모

- 135만장 이상의 이미지 데이터와 이미지 1개당 질문·답변 5개 내외로 구성하여 750

만개 이상의 질문·답변을 구축

{

"info" : info,

"task_type" : str, --> JSON파일이 들어갈 주석형태

"data_type": str, --> 이미지 데이터

"data_subtype": str, --> 데이터 보조형태

"questions" : [question],

"license" : license

}

info {

"year" : int,

"version" : str,

"description" : str,

"contributor" : str,

"url" : str,

"date_created" : datetime

}

license{

"name" : str,

"url" : str

}

question{

"question_id" : int,

"image_id" : int,

"question" : str

}

Page 6: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 6 -

1) 데이터 수집단계

◦ 시각정보 학습용 이미지 데이터는 공개 또는 직접 촬영한 이미지를 대상으로 수집

◦ 국내외 VQA 전문기관 공개 데이터 획득

- Virgina Tech의 VQA 데이터셋을 기본으로 활용

- ImageNet, CIFAR-10 alc Open Images 데이터셋을 이용하여 객체, 환경 및 상황별로

12개 카테고리로 구분하여 적절히 배분되도록 수집

- 국내 웹서비스 검색을 통하여 시각 정보를 수집

◦ 시각장애인 장면 안내서비스 모델을 위한 데이터 수집

- 사회적약자인 시각장애인을 대상으로 실제적인 요구에 대응하여 데이터 대상을 선정,

데이터 획득, 정제과정을 거쳐 데이터셋 구축

- 10개소 이상의 특정 생활공간에 대한 시각정보 이미지 수집은 시각장애인을 최대한

활용하며, 생활공간 이미지는 직접 촬영

◦ VQA 학습과 검정, 시험을 위한 데이터의 분할

- 유효성 검정과 시험용 데이터가 각각 전체 데이터의 25%를 넘지 않도록 데이터를 분

- 이미지 데이터상의 객체분포와 질문에 나타나는 키워드의 분포 등을 고려하여 학습,

유효성 검증 및 시험 데이터에서도 비슷한 분포 위해 종류별 데이터를 분할

Page 7: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 7 -

그림 데이터 수집 및 관리 단계 저작도구 화면

2) 데이터 가공단계

◦ 가공단계에서 데이터의 정제, 크라우드 저작도구를 이용한 작업자 검증 실시

◦ VQA 학습데이터 가공 프로세스

- (질문답변 어노테이션 처리) 이미지별로 5개 내외의 한국어 기반 질문과 답변쌍을 생

성하여 어노테이션 처리

- 이미지에 대한 어노테이션은 주관기관의 저작도구를 사용하여 JSON 파일로 저장

- (질문·답변쌍 생성 및 작업자 검증) 이미지에 대한 질문은 저작도구를 이용하여 가공

작업자가 직접 질문을 작성

- (작업관리자 검수)생성된 질문과 답변은 요구조건에 적합한 지를 확인하는 검수단계

◦ VQA 학습 데이터 저작도구 특징

- (이미지에 대한 주석 정보 추가)이미지 데이터의 라벨링과 함께 주석 정보를 추가할

수 있도록 개선하며, 국제 표준의 주석 데이터 형식 준수

- (온라인 협업관리 가능한 크라우드 플랫폼으로 구축) 작업의 배정, 공정관리, 진행상태

모니터링 및 품질관리를 수행할 수 있는 협업관리체계를 구축

- (AI허브에 저작도구 공개) 학습 데이터셋 저작도구에 대한 기능과 사용방법 등 매뉴얼

을 작성하여 작업자가 용이하게 접근 활용지원

Page 8: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 8 -

그림 데이터 가공단계 저작도구 화면

◦ 데이터 구축 시 오류방지, 검수 및 개선을 고려한 저작도구 개발

- (크라우드 기반 다중 작업자의 작업을 관리) 작업결과물에 대한 검토와 확인관리를 체

계적으로 협업하여 오류발생을 최소화함

- (원격 또는 재택 작업기반의 언텍트 크라우드플랫폼 운영) 작업현장의 안전성과 건전

성을 유지하고 비상사태(코로나로 인한 작업장폐쇄 등) 발생을 최소화하고 문제점 발생

시 적절히게 대응하는 비상대응체계를 대비

- (철저한 검수프로세스를 통한 품질관리) 작업자들에게 배정한 저작작업의 적절성, 저

작 데이터의 건전성 무결성을 확인, 일반적 상식기준의 질문 및 답변의 검증

- (이상 데이터의 교차 검수) 이미지 가공, 질문/답변쌍의 다양성 보장 및 오류 수정 등

과 같은 품질관리 기법을 적용하여 균질한 품질관리

- (통계기법을 활용한 과학적인 품질관리) 객체와 단어들에 대한 통계적 분석 결과를 제

공하여 구축된 데이터셋에 대한 평가 및 개선에 활용

3) 데이터 활용단계

◦ VQA 학습데이터를 활용한 국내 서비스 개발은 시각장애자 활용 서비스 개발

- (현행) 시각장애인 안내를 위한 많은 서비스들이 나오고 있지만, 대부분 단일 객체를

식별하거나, GPS,비콘 등 IoT기반의 기 구축된 장비들이 필수적으로 필요함 --> 주변 정

황정보 기반의 안내 서비스의 실용화 부재

- (개선) 시각장애인의 생활공간, 행동반경 내 사물, 자주 마주치는 장면에 대한 VQA를

구축하여, 시각장애인 스스로 주변정보를 파악하고, 대응할 수 있는 서비스 개발을 우선

적으로 추진

Page 9: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 9 -

7. 검수와 품질확보

1) 데이터 검증단계

◦ 가공 완료한 VQA데이터의 적정성과 활용가능성에 대한 검증을 저작도구 내에서 실

◦ (경진대회 개최 유경험 기관과 적극적인 협력) 구축한 VQA 데이터셋을 활용한 AI 경

진대회 개최

- 구축한 데이터셋의 적정성과 활용도를 검증

- 구축한 VQA 데이터를 이용한 일반서비스 개발자 의견을 수렴하기 위하여 공개 경진

대회를 개최

- 경진대회는 개최 유경험 기관에 위탁하고 공정한 경쟁과 평가로 객관적인 의견 경청

- 행사결과는 통계 처리와 분석을 통해 데이터셋의 유용성 평가에 활용, 도출된 의견을

데이터셋 구축에 반영

그림 데이터 검증단계 저작도구 화면

Page 10: 테크니컬 · 2020. 12. 16. · name str 이름 url str 주소 이미지 info year int 연도 version str 버전 description str 상세설명 contributor str 기여자 url str 주소

- 10 -

◦ (시각장애인 AI 장면안내서비스 개발을 통한 사용자 실증) 시각장애자 지원용 서비스

모델의 알고리즘 개발

- 시각장애자를 대상으로 실제 생활공간, 장면 내에서 서비스 모델에 적합한 VQA 질의

답변 알고리즘 및 상용서비스 개발

- 학습용 데이터는 시각장애인 생활환경을 대상으로 하며, 시각장애자에 의한 수집, 비

장애자가 시각장애인의 생활공간에 방문 수집 또는 시각장애인과 동행하여 획득한 이미

지 데이터를 생활 VQA 이미지 데이터로 정제, 가공하여 학습

◦ TTA (한국정보통신기술협회)와 적극적인 협업을 통한 품질 검증(상세내역“3.나 인공지

능 학습용 데이터 검증 방안” 참조)

- 인공지능 데이터 품질 검증은 TTA 의 표준화 및 시험인증지침에 따라 데이터 품질을

검증하며, 표준 가이드라인과 함께 검증 세부 기준과 절차에 따른다.

- 구축 결과물 및 프로세스 등에 대한 적정성과 타당성 검증 실시

- VQA 부문 인공지능 학습용 데이터 구축 표준 가이드라인 수립, 공정단계별 중간산출

물 점검, 구축된 학습용 데이터셋의 품질점검을 위한 품질검증 등

8. 데이터 구축 담당자

수행기관(주관) : ㈜유클리드소프트 (전화: 070-5151-5581), 이메일: [email protected]