aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝...

12
테테테테 테테테 2020 테 2 테 테테테테 테테테 테테테 테테 테테테테 테테 테테테테테 테테 테테테테 테테 테테테 테테 테테/테테 테테테

Transcript of aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝...

Page 1: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

테크니컬리포트

2020 년 2 차

인공지능

학습용

데이터 구축

헬스케어 영역 신경계질환 과제

인지기능 장애 진단을 위한

음성/대화 데이터

Page 2: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

개요: 인지기능장애 데이터셋이란?기존 치매 진단 의료 프로세스는 전문 병원이나 치매 진단센터를 방문해야 하는 한계로 인해, 조기 진단 시기를 놓치는 경우가 많다. 이에 대해 비침습이고 무구속적이며 사용자가 직접 수행할 수 있는 치매 진단 솔루션 제공이 가능하다면 접근성과 사용 편의성 문제를 해결할 수 있다. 또한, 인공지능을 기반으로 한다면, 검사를 수행하는 사람의 경험과 스킬에 따른 검사 결과의 부정확성을 보완할 수 있다.

[ 출처 : 중앙치매센터 치매 가이드북 ]

따라서, 기존 치매 진단 의료 프로세스의 한계점을 보완할 수 있는 인공지능 기반 연구와 A.I 학습을 위해 인지기능장애 데이터셋을 수집한다.인지기능장애 데이터셋은 치매 환자 및 정상 대조군의 음성 데이터 및 음성 데이터에 대한 스크립트 파일을 말한다. 음성 데이터는 수집 후 치매 진단 알고리즘의 학습 및 진단 신뢰도 확인에 사용된다. 스크립트 파일은 금번 과제의 알고리즘 학습에는 사용되지 않으나, 유관 연구를 진행하는 기관에서 필요한 경우 이용할 수 있도록 음성 데이터의 발화 내용을 텍스트 스크립트로 생성한 데이터이다.

데이터셋의 구성

본 데이터셋은 두 종류의 앱을 통하여 수집된다.

첫 번째 앱은 11 개 Speech Task 로 구성된 임상용 치매 진단 앱이다. 이 앱은 문장 따라 말하기 (3 개 task), 이미지 판단하기 (2 개 task), 언어 유창성 (2 개 task), 연산 테스트 (1 개 task), 이야기하기 (3 개 task) 총 11 개 task 를 임상 대상자가 미리 설정된 지시에 따라 수행하도록 설계되어 있다. 각 수행 시마다 최대 길이 1 분의 녹음 파일이 생성되며, 완료 시 11 개의 음성 파일이 만들어진다. 이 앱은 환자의 음성만 녹음하도록 설계되어 있어 간호사 등 인스트럭터의 음성은 배제된다.

두 번째 앱은 간호사 (연구자)와 환자 (임상 대상자)가 종합신경인지 검사지 (SNSB-II, CERAD-K 중 택 1)를 수행할 때 해당 과정 전체를 녹음할 수 있도록 개발된 종합신경인지검사지 녹음 앱이다. 종합신경인지검사는 대게 30 분 ~ 두 시간 정도 진행되며, 간호사 등 인스트럭터의 음성이 포함되어 있어, 수집 후 임상 대상자를 제외한 타자 음성 제거 과정을 거친다.

이렇게 수집된 음성 파일에 대해 구글 STT API 를 이용하여 스크립트를 생성한다. 생성한 스크립트 파일은 임상 대상자의 발음이 제대로 반영되었는지, 작업자가 직접 들으며 확인, 수정한다.

Page 3: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

본 데이터셋은 환자군 500 명, 정상 대조군 500 명을 대상으로 수집한다. 한 명의 임상 대상자가 두 종류의 앱을 모두 수행할 수도 있고, 둘 중 하나의 앱만 수행할 수도 있다. 데이터에는 개인정보를 제외한 나이, 성별, 의료적 프로세스에 의한 의사의 진단 (Gold Standard)이 포함된다. 음성 데이터에서 Feature 들을 추출하여 의사의 진단을 레이블로 하여 알고리즘을 학습시키고, 의사의 진단 대비 알고리즘의 진단 정확도를 확인한다.

데이터 종류 포함 내용 제공 방식

음성 파일 임상 대상자의 음성 flac

스크립트 파일 임상 대상자 음성에 대한 스크립트 json

임상자 정보 임상자 생년월일, 성별, 진단결과 등 json

데이터셋의 설계 기준과 분포

데이터셋은 임상 대상자 1,000 명을 목표로 수집한다. 임상 대상자는 환자군과 정상 대조군을 각각 500 명씩 동수로 두어 알고리즘이 균형 있게 학습할 수 있도록 한다. 환자군은 증상의 정도에 따라 MCI (mild cognitive impairment, 경도인지장애)와 AD (Alzheimer disease, 알츠하이머)로 나누어 모집한다. 서울, 의정부, 구리, 수원, 대전 등 수도권과 지방의 6 개 도시 11 개 병원의 치매 환자를 대상으로 하였다.

축적되는 데이터는 Audio 및 Text 등 범용적인 데이터 포맷만을 사용하였으며, 음성에 대한 정제는 정보 열화나 편향이 일어나지 않도록 타자 음성 제거, 스크립트 파일 교정만 수행하였다.

데이터 구조

데이터셋에 따른 항목과 해당 값은 아래 테이블과 같다.

분류 데이터 셋 환자군 정상대조군

내용 음원 및 STT 결과 좌동 좌동

항목 포함 여부

테스트 인덱스 test_idx Y Y

생일 birth_date Y Y

성별 gender Y Y

간이진단 점수 simple_grade Y

진단 결과 subject_type Y Y

CDR 점수 cdr_score Y

파일 (array) files[n] Y Y

Page 4: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

원본 파일 (object) files.raw-file Y Y

원본 파일 중 음성 파일 files.raw-file Y Y

원본 파일 위치 files.raw-file.file_path Y Y

원본 파일 이름 files.raw-file.file_name Y Y

원본 파일 사이즈 files.raw-file.file_size Y Y

원본 파일 확장자 files.raw-file.file_ext Y Y

원본 음원 재생 시간 files.raw-file.play_time Y Y

노이즈 감소 파일 (object) files.noise-cancelling-file Y Y

파일 위치 files.noise-cancelling-file.file_path Y Y

파일 이름 files.noise-cancelling-file.file_name Y Y

파일 사이즈 files.noise-cancelling-file.file_size Y Y

파일 확장자 files.noise-cancelling-file.file_ext Y Y

음원 재생 시간 files.noise-cancelling-file.play_time Y Y

스크립트 (배열) script[n] Y Y

개별 스크립트 (배열) script.alternatives[n] Y Y

스크립트 전문 텍스트 script.alternatives.transcript Y Y

음성인식 만족도 script.alternatives.confidence Y Y

단어 (배열) script.alternatives.words[n] Y Y

해당 스크립트 시작 시간 script.alternatives.words.startTime Y Y

해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y

스크립트 단어 텍스트 script.alternatives.words.word Y Y

데이터 예시

"DATA" : {      "test_idx" : "0211938e-a545-4a0c-a0d9-e1e8b294ff0d",    "paper_type" : "SNSB-II",    "birth_date" : "19520217",    "gender" : "2",    "simple_grade" : "",

Page 5: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

    "subject_type" : "",    "cdr_score" : ""    "files": [        {            "raw-file" : {                "file_path" : "\/upload-files\/SNSB-II\/fb7b026a-af05-4ce8-b6fc-aa4d40102061",                "file_name" : "fb7b026a-af05-4ce8-b6fc-aa4d40102061_V",                "file_size" : "5885551",                "file_ext"  : "mp4",                "play_time" : 3678.0            },            "noise-cancelling-file" : {                "file_path" : "\/upload-files\/SNSB-II\/fb7b026a-af05-4ce8-b6fc-aa4d40102061",                "file_name" : "fb7b026a-af05-4ce8-b6fc-aa4d40102061_F",                "file_size" : "9412715",                "file_ext"  : "flac",                "play_time" : 3678.0            }        }        ...    ],    "script" : [        {            "alternatives" : [                {                    "transcript" : "2020년 10월 27일 26일 오늘 10월 10월 30일에 토요일 대한민국 수원시 인계동 병원 카톨릭병원 성빈센트병원 1층 비행기 연필 소나무 13, 86 79 72 6시 67 65 비행기 연필 소나무 시계 볼펜 백문이불여일견 계산하는게 갑자기 계산기로 쓰기 자본이 눈을 감으세요 그냥 채나리 도마 소스국자 생각나는게 없네 생각이 안나요."                    ,"confidence":"0.90534955"                    ,"words"     :[                        {                            "startTime":"0.0",                            "endTime":"1.400",                            "word":"2020년"                        },                        {                            "startTime":"1.400",                            "endTime":"1.700",                            "word":"10월"                        },                        ...                        {                            "startTime":"59.700",                            "endTime":"59.900",                            "word":"나요"                        }                    ]                }            ...            ]        }

Page 6: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

    ...    ]}

Page 7: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

데이터 구축 과정

데이터 구축은 11 개 임상 병원에서 치매 환자(AD, MCI) 혹은 정상 대조군을 대상으로 임상을 진행하면서 시작된다. 각 병원에서는 앞서 설명한 두 종류의 앱 모두 혹은 둘 중 하나를 사용하여 임상을 진행한다. 임상 진행자는 임상 대상자의 정보 (성별, 나이, 진단 결과 등)을 입력하고 임상을 수행한다.

환자 정보 입력

임상 대상자 정보 중 진단 결과는 추후 관리자 웹에서 입력, 수정할 수 있다. 임상이 완료되면 Audio 녹음 파일이 생성되며, 최종 단계에서 인터넷을 통해 서버로 전송된다.

관리자 웹

Page 8: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

사전 진단 결과 입력 (앱 수행 시 미입력 되었을 경우 관리자에서 입력)

첫 번째 앱에서 수집한 녹음 파일은 서버 전송 후 각각의 파일에 대해 스크립트 파일이 생성된다. 두 번째 앱에서 수집한 녹음 파일은 음성 편집 프로그램을 사용하여 간호사 등 임상 진행자의 음성을 제거하는 편집 과정을 거친 후 스크립트 파일을 생성한다. 생성된 스크립트 파일은 실제 음성을 잘 반영하고 있는지 직접 들어보고 교정하는 작업을 거친다.

음성 데이터 편집 - 타자 음성 제거

Page 9: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

스크립트 파일 확인 – 수정

음성 편집 및 스크립트 파일 수정은 작업자가 2 인 1 조로 1 차, 2 차 작업/검수를 진행한다. 2 차까지 완료된 파일에 대해 최종 검수를 진행한다.

데이터 구축 프로세스

검수와 품질 확보

대량의 음성 데이터를 목적대로 획득하기 위하여 다음과 같은 검수 프로세스를 정립하였다. 음성 편집 및 스크립트 파일 편집에 있어서 모두 1, 2 차 편집 교차 검증 및 최종 관리자 승인을 진행한다.

- 병원별 임상 진행1. Speech Task Set 앱 진행

2. 종합인지검사지 녹음 앱 진행1

- 음성 데이터 전송/수집[ 2 번 앱의 경우 ]1. 음성편집 1,2 차 작업자/검수자 배정

2. 1차 검수/편집 → 2 차 검수/편집

- 녹음 데이터의 Text Script 化1. STT 1,2 차 검수자 배정2. 1 차 검수/편집 → 2 차 검수/편집

음성 편집파일, STT 결과 검증 → 관리자 최종승인

- 알고리즘 학습

→ 진단 신뢰도 확인

Page 10: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

1. 음성 편집 프로그램 - 1,2 차 담당자 및 최종 검수자의 검수

→ 1 차 담당자가 음성 편집 및 검수. 검수 전 혹은 통과하지 못할 경우 ‘편집’ 버튼 노출. 검수 통과 시 ‘완료’ 문구 노출됨. ‘완료’ 문구 노출 시 2 차 담당자에게 ‘검수’ 버튼 제공됨

→ 2 차 담당자가 1 차 검수한 음성 편집 및 검수. 검수 전 혹은 통과하지 못할 경우 ‘검수’ 버튼 노출. 검수 후에는 ‘완료’ 문구 노출됨

→ 1, 2 차 검수가 모두 ‘완료’ 한 경우 최종 검수자가 검수 후 ‘완료’로 변경 저장함. 검수 전 혹은 통과하지 못할 경우 ‘미완료’로 노출

→ 각 단계에서 검수를 통과하지 못할 경우 검수를 통과할 때까지 작업 진행함

→ 사용 불가능한 데이터일 경우(테스트로 저장한 데이터 등) DB 에서 데이터 원천 삭제

▷음성 제거 편집 검수 절차 예시

2. STT 로 생성한 Script 의 검수 - 1,2 차 담당자 및 최종 검수자의 검수

→ STT(Speech To Text, 기계 청음)을 통해 생성한 스크립트의 정확성을 확인. 2 인 1 조로 2 차에 걸쳐 확인 및 교차 검증 후 결과를 확인하고 담당자가 최종 검수함

→ 1 차 담당자가 STT 검수. 검수 전 혹은 통과하지 못할 경우 ‘체크’ 버튼 노출. 검수 통과 시 ‘완료’ 문구 노출됨. ‘완료’ 문구 노출시 2 차 담당자에게 ‘검수’ 버튼 제공됨

→ 2 차 담당자가 1 차 검수한 STT 검수. 검수 전 혹은 통과하지 못할 경우 ‘검수’ 버튼 노출. 검수 후에는 ‘완료’ 문구 노출됨

→ 1,2 차 검수가 모두 ‘완료’ 한 경우 최종 검수자가 검수 후 ‘완료’로 변경 저장함. 검수 전 혹은 통과하지 못할 경우 ‘미완료’로 노출

→ 각 단계에서 검수를 통과하지 못할 경우 검수를 통과할 때까지 작업 진행함

Page 11: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

→ 사용 불가능한 데이터일 경우(테스트로 저장한 데이터 등) DB 에서 데이터 원천 삭제

S▷ TT 검수 절차 예시

음성 편집 및 스크립트 검수 기준은 아래와 같다.1. 종합신경인지 검사지 녹음 앱 음성 데이터

→ 검수자가 데이터를 청음하며, 임상자의 음성이 아닌 부분 (타자 음성)을 구분

→ 환자의 개인정보가 녹음되었을 경우 해당 영역 편집 제거

2. STT 로 생성한 Script 의 검수

→ 기계 (STT) 청음의 결과로 생성된 Text 가 실제 발화된 임상자의 발음과 다른 경우 임상자의 발음과

동일하도록 수정

→ 병증이 심한 환자의 경우 기계 (STT)가 정확하게 인지하기 어려운 경우가 있을 수 있으므로, 실제 발

화 음성과 최대한 부합하게 Script 텍스트를 수정

검수 조직은 아래와 같다.1. 크라우드 소싱 인력: 관리자 외 11 명, 최종 승인자

→ 관리자: 음성 편집, STT 검수 작업 배분 및 작업 참여

Page 12: aihub.or.kr · Web viewscript.alternatives.words.startTime Y Y 해당 스크립트 시작 끝 script.alternatives.words.endTime Y Y 스크립트 단어 텍스트 script.alternatives.words.word

→ 외 11 명: 음성 편집, STT 검수 작업 진행

→ 최종 승인자: 관리자외 11 명의 작업에 대한 최종 검수 승인

품질 확보를 위하여 검수 조직에 대해서는 사전에 음성 편집 및 스크립트 검수 프로그램에 대한 교육을 실시하였다.

데이터 구축 담당자

수행기관(주관): ㈜아이디어빈스 (전화: 02-6749-2226), 이메일: [email protected]