도쿄 대학의 사토 요이치 교수들의 연구 그룹은 머리 장착형 카메라에 의해 기록된 'XNUMX인칭 시점 영상'에서 사람의 시선의 움직임을 지금까지 없는 정밀도로 예측하는 수법을 개발했다.전통기능의 전승이나 의료 등 폭넓은 분야에서 활용이 기대된다.
사람의 상세한 행동을 이해하기 위해서는 사람이 언제 무엇에 주의를 돌리고 있는지를 아는 것이 중요하다.영상으로부터 사람의 시선이 어떻게 움직이는지를 예측할 수 있으면, 시선 계측 디바이스 등의 특수한 장치를 이용하지 않고 사람이 무엇을 어떻게 보고 있는지를 알 수 있다.한편, 사람의 시선의 움직임은 그 인물이 하고 있는 작업에 강하게 의존하는 것이 알려져 있었지만, 기존의 XNUMX인칭 시점 영상(두부 장착형 카메라에 의해 기록되는 영상)으로부터의 시선 예측 수법에서는 ,이 작업 의존성을 고려하지 않았다.
이번 연구에서는, 심층 학습을 이용한 화상 해석에 있어서의 어텐션 모델에 착상을 얻어, 작업에 의존하는 시선 이동의 패턴을 고려하는 것에 의해, XNUMX인칭 시점 영상으로부터 높은 정밀도로 시선 위치를 예측할 수 있는 수법을 개발 했다.이로 인해 사람이 부엌에서 요리를 하는 가운데, 어느 타이밍에 어떤 물건에서 어떤 물건으로 시선을 움직이는지를 예측하는 데 성공했다.
40인칭 시점 영상 해석의 연구에 이용되고 있는 표준 벤치마크 데이터 세트를 이용한 평가 실험을 실시한 결과, 최신의 기존의 시선 예측 수법에 비해, 제안 수법이 최대 약 XNUMX% 높은 정밀도로 시선 위치를 예측할 수 있는 것이 확인되었다.
이번에 개발한 기술은 제조 현장에서의 기능의 전승이나 자폐증 스펙트럼 장애의 조기 스크리닝, 자동차 운전시 운전자의 시인 행동 분석 등 널리 사람의 행동의 센싱과 해석에 관련된 다양한 분야에서 의 활용이 기대된다.