名古屋大学大学院情報学研究科の東中 竜一郎教授の研究グループは、相手の話を聞きながら話すことのできる、世界初の日本語で利用可能なFull-duplex音声対話モデル J-Moshiを開発しました。
本研究は、人間同士の対話における発話のオーバーラップや相づちなど、同時双方向的な対話を実現します。人工知能(AI)の音声対話性能を飛躍的に高め、まるで人間のような音声対話を実現します。雑談や接客など、さまざまな場面での利用が期待されます。
J-Moshiのサンプル音声は以下でご確認いただけます。
https://nu-dialogue.github.io/j-moshi/
本研究成果は、2025年3月10日(月)-14日(金)に開催される、言語処理学会第31回年次大会(NLP2025)において発表されます。
・世界初の日本語で利用可能なFull-duplex注1)音声対話モデル J-Moshi注2)を開発。
・発話のオーバーラップ(重なり)や相づちなど、同時双方向的な対話を実現。
・大量の日本語音声対話データを用いた学習によって構築。
◆詳細(プレスリリース本文)はこちら
注1)Full-duplex:
対話において、発話のオーバーラップや相づちなどの同時双方向的な特徴を有すること。
注2)J-Moshi:
Moshiは、フランスのAI研究機関Kyutai が開発したFull-duplexを実現した英語の音声対話モデルで、J-Moshiはこれをベースとした日本語で利用可能なFull-duplex音声対話システム。
雑誌名: 言語処理学会第31回年次大会 発表論文集
論文タイトル: 日本語Full-duplex音声対話システムの試作
著者: 大橋厚元、飯塚慎也、姜菁菁、東中竜一郎(すべて本学関係者)
大学院情報学研究科 東中 竜一郎 教授、主著者名:大橋 厚元 (博士後期課程学生)
https://www.ds.is.i.nagoya-u.ac.jp/
リサーチャーズボイス:~Researchers' VOICE~No.45 東中 竜一郎 教授に一問一答!