국립정보학연구소의 마츠이 유키 특임연구원들의 연구그룹은 주식회사 도완고, 도쿄대학과 공동으로 10억개 정도의 빅데이터에 대한 '클러스터링'을 적은 메모리 용량으로 고속으로 실행할 수 있는 실용성 높은 기술을 개발.이것에 의해, 일반적인 능력의 퍼스널 컴퓨터에서도 빅 데이터의 클러스터링 처리가 가능해진다.
AI의 연구에서는 거대하고 복잡한 데이터(빅데이터)를 처리한다.클러스터링은 대량의 데이터 중 비슷한 것을 정리해 그룹으로 나누는 데이터 처리의 기본적 작업이지만, 데이터가 거대해지면 종래 방법에서는 처리 속도가 저하되어 대용량 메모리가 필요하게 된다.일반 퍼스널 컴퓨터 XNUMX대에서는 클러스터링의 실행은 어렵고, 다수의 서버를 이용한 분산 병렬 처리가 필요했다.
이번, 신기술(직적 양자화)에 의해 데이터를 압축해, 종래 수법보다 적은 메모리(100~4000배의 메모리 절약화)로 표현할 수 있었다.다음으로, 이 압축 데이터에 대해서 유사 데이터의 그룹화와 그룹의 평균 계산이라고 하는 처리를 반복하지만, 과거에 제안의 기술에 더해, 이번 신고안의 효율적인 평균 계산 기술에 의한 고속 클러스터링(10~1000 배의 고속화)가 가능하게 되었다.
이 결과, 1억장의 화상을 10만 종류의 그룹으로 분류하는 처리를, PC 1대(메모리 용량 32GB, CPU 코어수 4)로, 약 300시간에 실행(종래 수법이라면 PC 약 10대 필요) . 10억 개의 화상 데이터를 12만 종류로 분류하는 처리도 약 XNUMX시간 만에 실행할 수 있었다.
이에 따라, 소셜 미디어 등의 방대한 화상 데이터를 일반적인 퍼스널 컴퓨터로 간편하게 처리할 수 있다.일반 기술자나 연구자에게도 빅데이터의 취급이 용이해지기 때문에 심층 학습을 응용한 인공지능(AI) 개발 등 넓은 분야에서의 활용이 기대된다.