쓰쿠바 대학 계산 과학 연구 센터 키타가와 히로유키 교수 등의 연구 그룹은 소셜 네트워크 (이하 SNS) 등의 네트워크의 빅 데이터 분석에서 노드 (사용자)가 가지는 연령과 성별 등의 속성 라벨에서 미지의 라벨을 추정하는 새로운 기술 개발.미국에서 개최된 2016 SIAM International Conference on Data Mining에서 발표되었다.
정보화의 진전에 따라 사회에서 날아가는 데이터량은 폭발적으로 증가하고 있다.이러한 가운데, 빅데이터의 활용이 강하게 요구되고 있고, 특히 많은 유익한 정보를 내포하는 네트워크 데이터를 어떻게 활용하는가가 중요시되고 있다.
예를 들면 SNS에서는 각 노드가 대응하는 유저의 연령이나 거주지 등을 「속성 라벨」로서 부여할 수 있지만, 그 중에는 이들이 명확하게 나타내지 않은 노드도 존재한다.노드의 내용을 묶어서 중요한 보충 정보가 되는 라벨 정보를 탐색하기 위해서는, 네트워크 데이터 중의 알려진 라벨로부터 미지의 라벨을 추정하는 「라벨 추정」이 필요해져 지금까지도 다양한 수법이 개발되어 왔다.그러나, 이들은 다른 라벨을 가지는 노드끼리가 연결되기 쉬운 네트워크 데이터에는 적용할 수 없다는 문제가 있었다.
이번에 제안된 수법은, 기본의 사고방식으로서 종래의 「비율」에 가세해 「절대수」도 고려해, 「신뢰도」에 비례한 양의 단서를 주변에 전해 넓혀, 라벨 추정을 실시한다.그 결과, 인접 노드로부터의 단서의 양(신뢰도)도 고려할 수 있고, 다른 라벨을 가지는 노드끼리가 연결되기 쉬운 네트워크 데이터도 취급할 수 있다고 하고 있다.실험 결과에서는, 제안된 수법은 지금까지의 주류의 것보다 높은 정밀도를 나타내고 있다고 한다.
종래의 추정 처리에 「신뢰도」라는 개념을 도입함으로써, 본 연구 성과에서는 보다 고정밀도의 라벨 추정이 가능해진다.향후, 실사회의 빅데이터와의 제휴 활용을 생각했을 때, 유저의 속성을 추정하는데 있어서 혁신적인 기술이 될 것이 기대되고 있다.