교토대학 대학원 생명과학연구과의 혼다 나오키 준 교수, 정보학연구과의 야마구치 마사이치로 석사과정 학생(현·주식회사 Preferred Networks), 이시이 노부 교수 등의 연구 그룹은 동물의 행동 데이터로부터 행동 전략 를 밝히는 기계 학습법을 고안함과 동시에 나고야 대학 대학원 이학연구과의 모리이에 교수 등과의 공동 연구에서 이 방법을 선충에 응용하여 유용성을 확인했다.
교토 대학에 따르면 인간과 동물은 음식, 돈 등 어떤 보상을 얻기 위해 상황에 따른 행동 전략을 취하고 있다.그러나 보상에는 실태를 수반하지 않는 것도 포함되어 있기 때문에, 자유롭게 행동하는 동물을 관찰하는 것만으로는, 무엇을 보상으로 의사결정하고 있는지를 알기가 어려웠다.
따라서 연구 그룹은 선충의 온도 주성 행동에 주목했다.선충은 일정 온도에서 먹이를 충분히 주어 성장하면, 그 성육 온도를 기억하고, 온도에 불균일이 있는 공간에서는 성육 온도를 향해 이동한다.반대로 일정 온도화로 먹이가 없는 기아 상태를 경험하면서 성장하면, 성육 온도로부터 도망치려는 성질을 가진다.
연구 그룹은 계측된 시계열 데이터로부터 미지의 보수를 추정하는 기계 학습법(역강화 학습법)을 고안.선충의 행동 시계열 데이터를 분석한 결과, 먹이가 충분히 있는 상태에서 자란 선충은 효율적으로 성육온도를 향하거나 같은 온도의 등고선을 따라 이동하는 성질을 가지는 것을 알았다.
또한, 추정된 보상에 기초하여 선충의 행동을 컴퓨터로 시뮬레이션한 결과, 선충의 온도 주성 행동이 재현되었다.연구그룹은 이 방법을 사용함으로써 지금까지 해명할 수 없었던 동물의 행동전략 연구가 진행될 것으로 기대하고 있다.