東京大学松尾研究室、日本語大規模言語モデルをオープンソースで公開

2023年08月18日 16時30分更新

文● 田口和裕

　東京大学大学院工学系研究科、松尾研究室は8月18日、日英2ヵ国語に対応した100億パラメーターサイズの大規模言語モデル（LLM）「Weblab-10B」を開発したことを発表、オープンソース（商用利用は不可）で公開した。

言語間の知識転移を活用

生成されたテキストのサンプル

　LLMは通常インターネットから収集した大量のテキストデータを使って学習をするが、多くは英語のテキストであり、それ以外（日本語など）のテキストデータを大量収集することには限界がある。

　本モデルは日本語だけではなく、英語のデータセットも学習に用いることで学習データサイズを拡張し、言語間の知識転移を行うことで日本語の精度を高めたという。

　学習に使用したデータセットは、事前学習に代表的な英語のデータセット「The Pile」および日本語のデータセット「Japanese-mC4」を使用。事後学習（ファインチューニング）には、「Alpaca（英語）」「Alpaca（日本語訳）」「Flan 2021（英語）」「Flan CoT（英語）」「Flan Dialog（英語）」の5つのデータセットを使用した。