相手の話を聞きながら話す、まるで人間のような対話日本語で初のAI同時双方向対話モデル J-Moshiを開発

TOP > 情報学 > 記事詳細

情報学

2025.02.04

相手の話を聞きながら話す、まるで人間のような対話日本語で初のAI同時双方向対話モデル J-Moshiを開発

名古屋大学大学院情報学研究科の東中竜一郎教授の研究グループは、相手の話を聞きながら話すことのできる、世界初の日本語で利用可能なFull-duplex音声対話モデル J-Moshiを開発しました。

本研究は、人間同士の対話における発話のオーバーラップや相づちなど、同時双方向的な対話を実現します。人工知能（ＡＩ）の音声対話性能を飛躍的に高め、まるで人間のような音声対話を実現します。雑談や接客など、さまざまな場面での利用が期待されます。

J-Moshiのサンプル音声は以下でご確認いただけます。
https://nu-dialogue.github.io/j-moshi/

本研究成果は、2025年3月10日（月）-14日（金）に開催される、言語処理学会第31回年次大会(NLP2025)において発表されます。

【ポイント】

・世界初の日本語で利用可能なFull-duplex^注1）音声対話モデル J-Moshi^注2）を開発。
・発話のオーバーラップ（重なり）や相づちなど、同時双方向的な対話を実現。
・大量の日本語音声対話データを用いた学習によって構築。
　

◆詳細（プレスリリース本文）はこちら

【用語説明】

注1）Full-duplex:
対話において、発話のオーバーラップや相づちなどの同時双方向的な特徴を有すること。
注2）J-Moshi:
Moshiは、フランスのAI研究機関Kyutai が開発したFull-duplexを実現した英語の音声対話モデルで、J-Moshiはこれをベースとした日本語で利用可能なFull-duplex音声対話システム。