TOP   >   情報学   >   記事詳細

情報学

2024.05.10

スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 -日本語能力に長け、研究・ビジネス利用にも期待-

東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通株式会社 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所 のMohamed Wahib(モハメド・ワヒブ)チームリーダー、名古屋大学 大学院工学研究科の西口浩司准教授、株式会社サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologies Inc. の小島熙之CEOは、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に優れた大規模言語モデル(用語1)「Fugaku-LLM」を2024年5月10日に公開した。
今回、深層学習フレームワークを「富岳」に移植してTransformer(用語2)の性能を「富岳」上で最適化するとともに、並列分散学習手法を開発し適用することで、「富岳」を用いて大規模言語モデルの学習を行う際の演算速度を6倍(参考文献1と比較)に高速化した。さらに、「富岳」向けにTofuインターコネクトD(用語3)上での集団通信の最適化を行うことにより、通信速度を3倍(参考文献2と比較)高速化することに成功した。これにより「富岳」のCPUを用いて、現実的な時間内で大規模言語モデルを学習することが可能になった。
Fugaku-LLMは国内で多く開発されている70億パラメータ(用語4)より一般に高性能、かつ現在の計算機環境下で扱いやすい130億パラメータのモデルとなっている。今回の学習では、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いているため、透明性と安全性を確保しつつ日本語性能にも優れている。国産かつ独自のデータで学習を行っているオープンなモデルの中では日本語ベンチマークJapanese MT-Bench(用語5)で最高性能を達成し、特に人文社会系のタスクでは高いベンチマーク性能を発揮する。
Fugaku-LLMは、GitHub(用語6)やHugging Face(用語7)を通じ公開しており、ライセンスに従う限りにおいては、研究および商業目的での利用が可能である。
今後、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、さらに効率的な学習方法が創出され、科学シミュレーションと生成AIの連携や、数千のAIによるバーチャルコミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスでの応用につながることが期待される。
(公開リンク)
モデル:https://huggingface.co/Fugaku-LLM/Fugaku-LLM-13B
ソースコード:https://github.com/Fugaku-LLM/DeepSpeedFugaku

 

【ポイント】

○日本の計算機技術を用いて開発した日本語能力に優れた大規模言語モデルを公開
○スーパーコンピュータ「富岳」の性能を最大限に活用した分散並列学習を実現
○AI基盤モデルを科学研究に活用する「AI for Science」など革新的な研究やビジネスにつながる

 

◆詳細(プレスリリース本文)はこちら

 

【用語説明】

(1) 大規模言語モデル:テキストの現れやすさをモデル化したもので、与えられた文脈(問いかけ)に対して続くテキスト(応答)を予測できる。
(2) Transformer:単語の系列などを変換するためのニューラルネットワークで、現在の大規模言語モデルでは最も多く用いられている。2017年6月にGoogleが発表した「Attention Is All You Need」という論文で登場した深層学習モデルであり、主に自然言語処理の分野で使用される。
(3) TofuインターコネクトD:「富岳」のノード間接続に用いられる6次元トーラスのトポロジーを持つ高速なネットワーク。Tofuとは、Torus fusionを短縮した名称であり、記号「D」は、高密度(High-density)を意味する。
(4) パラメータ:大規模言語モデルなどのニューラルネットワークの規模を表す指標の一つ。パラメータが多いほど高性能なモデルになるが、学習にはその分多くのデータが必要になる。
(5) Japanese MT-Bench:Stability AI社が提供している日本語のベンチマークテスト
(6) GitHub:世界中でオープンソースソフトウェアの公開に使われているプラットフォーム。https://github.com/
(7) Hugging Face:世界中でオープンソースソフトウェアの公開に使われているプラットフォーム。https://huggingface.co/

 

【参考文献】

(1) COOL Chips 27(2024年4月17日~19日)発表「Implementation of Batch Matrix Multiplication for Large Language Model Training on A64FX CPUs」
(2) 第193回HPC研究発表会(2024年3月18日~19日)発表「富岳上の大規模機械学習におけるAll-reduce通信の高速化」

 

【研究代表者】

大学院工学研究科 西口 浩司 准教授
https://cmod.civil.nagoya-u.ac.jp/