교토 대학 대학원 정보학 연구과 가와라 타츠야 교수, 방송 대학 히로세 요코 교수 등의 연구 그룹은, 강연·강의를 대상으로 한 자동 음성 인식의 연구 개발을 진행해, 최신의 심층 학습을 이용하는 것으로, 방송 대학의 강의에 대해서도 대체로 90%의 인식률을 실현했다.사람 손으로 쓰는 것보다 효율적으로 자막 부여할 수 있기 때문에 방송 대학에서는 온라인 수업의 자막 작성에 활용하고 있다.조직적으로 이 시스템이 활용되고 있는 것은 첫 사례.
2016년도부터 시행되고 있는 장애인 차별 해소법에서는 장애인의 사회적 장벽의 제거에 대해 「필요하고 합리적인 배려」를 실시하는 것이 의무화되어 있어, 청각 장애인에 대해서는 수화나 자막 부여 등의 정보보장을 할 필요가 있다.최근, 다양한 강의 컨텐츠가 인터넷 전달되고 있지만, 자막이 부여되고 있는 것은 거의 없는 것이 현상.인적·금전적인 비용도 과제가 되고 있다.
일본에서 최대의 미디어를 이용한 고등교육기관, 방송대학에서도 약 300개의 과목 강의가 텔레비전, 라디오, 인터넷으로 전달되고 있지만, 현재 자막이 부여되고 있는 것은 TV 강의 프로그램의 절반 정도에 머물고 있다.따라서 본 연구 그룹은 방송 대학의 강의를 대상으로 한 음성 인식 · 자막 부여에 관해서 연구 개발을 진행하고 대규모 강연 · 강의 데이터베이스를 이용하여 최신 심층 학습을 도입하고, 또한 교과서 텍스트에서 전문 용어 등의 표현을 자동으로 등록함으로써 대체로 90%의 인식률을 실현했다.
또한 약 30개의 강의를 대상으로 음성인식 결과를 편집하는 경우와 사람 손으로 모두 써내는 경우를 비교한 결과, 시스템의 인식률이 87% 이상을 넘으면 우위성이 보이고, 93%가 되면 1/3 이상의 작업 시간의 단축 효과를 확인할 수 있었다.개발한 시스템은 방송대학에서 2016년도부터 시작된 온라인 수업 자막 작성에 활용되고 있으며, 인터넷 배포에 의한 라디오 강의에 자막과 정지화면을 부여한 콘텐츠도 실험적으로 전달되고 있다.앞으로 다른 교육기관에서 만들어지는 다양한 강의 콘텐츠에 대한 자막 부여에도 전개될 것으로 기대된다.
연구 성과는 2016년 12월 2일에 정보 처리 학회 접근성 연구회(SIG-AAC)에서 발표되었다.