도쿄공업대학 연구팀과 산업기술종합연구소는 일본어 능력이 뛰어난 생성 AI의 기반인 대규모 언어 모델 'Swallow'를 공개했다. 일본어에 대응한 대규모 언어 모델로서는 최대 규모이며, 오픈으로 상용 이용이 가능하다.

 최근 OpenAI의 ChatGPT와 GPT-4, Google의 Palm 2와 Gemini 등 대규모 언어 모델의 연구 개발이 급속히 진전하고 있다. 일본어에 강한 대규모 언어 모델의 개발도 진행되고 있지만, 오픈하고 고성능인 대규모 언어 모델은 적었다.

 Meta AI가 개발한 Llama 2 시리즈는 영어로 높은 성능을 보이지만, 일본어의 읽고 쓰기는 서투른다. 거기서, 연구팀에서는 Llama 2의 몇개의 모델을 베이스로 한 대규모 언어 모델 「Swallow」를 구축. 학습이 끝난 대규모 언어 모델에 추가로 사전 학습을 실시하는 수법(계속 사전 학습)에 의해 일본어에 관해서 높은 성능이 나타났다.

 또한, Lama 2는 영어 중시 모델이기 때문에, 일본어의 주요 단어나 문자가 어휘에 포함되지 않고, 텍스트가 부자연스러운 단위(토큰)로 단락지어, 텍스트를 보다 많은 토큰으로 표현해 버려, 학습이나 생성의 효율이 저하되어 계산 비용이 증가한다. 일본어 문자나 단어 등의 어휘(언어 모델이 취급할 수 있는 토큰 집합)을 추가함으로써 일본어 텍스트의 토큰 길이를 56.2%로 줄였다.

 또한 연구팀에서는 비영리 단체 Common Crawl에서 배포되는 아카이브에서 일본어 텍스트를 독자적으로 추출·정련하여 약 3,121억 문자(약 1.73억 페이지)로 구성된 일본어 웹 코퍼스를 구축. 일본어 언어 모델의 상용 사용 가능한 학습 코퍼스 중 최대가되었다.

 일본어에 강하게 오픈한 대규모 언어 모델이 등장한 것으로 일본에서의 대규모 언어 모델의 연구 개발·활용이 더욱 촉진되어 제품 개발과 기술 혁신이 진행되고 있다.

참조 :【산업기술종합연구소】일본어에 강한 대규모 언어 모델 「Swallow」를 공개 - 영어가 특기인 대규모 언어 모델에 일본어를 가르친다 -

도쿄공업대학

시대를 만드는 지식을 다해, 기술을 닦고, 높은 뜻과 화의 마음을 가진 이공인을 계속 배출하는 이공 대학의 정점

도쿄 공업 대학은 산업의 근대화가 급무가 되고 있던 1881(메이지 14)년에 도쿄 직공 학교로서 설립되었습니다.설립 이래, 우수한 이공계 인재와 탁월한 연구 성과를 계속 창출해, 현재도 일본의 이공계 종합 대학의 톱에 있습니다.도쿄공업대학은 고도의 전문성뿐만 아니라 교양학을 필수로 한다[…]

대학 저널 온라인 편집부

대학 저널 온라인 편집부입니다.
대학이나 교육에 대한 지견・관심이 높은 편집 스탭에 의해 기사 집필하고 있습니다.