ニュースリリース
2023年6月1日
株式会社テクノスピーチ
「ICASSP 2023」にてテクノスピーチの論文が採択
~韻律のコントローラビリティを維持した高品質な音声合成の実現~
株式会社テクノスピーチ(所在地:名古屋市東区、代表取締役:大浦 圭一郎、以下 テクノスピーチ)は、当社の研究チームが手掛けた音声合成に関する論文が、音声・音響処理分野で世界最大の国際学会であるICASSP(International Conference on Acoustics, Speech, and Signal Processing)に採択されましたことをお知らせいたします。なお、本研究成果は国立大学法人名古屋工業大学 国際音声言語生成技術研究所(所在地:名古屋市昭和区、代表:徳田 恵一)との共同研究によるものです。
テクノスピーチでは、テクノロジーの進化により日々変化する音声関連技術のニーズに応えるべく、継続的に研究および開発に取り組んでおります。そしてこのたび、その成果がICASSPにおいて高く評価され、論文の採択を受けました。論文の概要については、以下よりご参照いただけます。
-
タイトル:EMBEDDING A DIFFERENTIABLE MEL-CEPSTRAL SYNTHESIS FILTER TO A NEURAL SPEECH SYNTHESIS SYSTEM
-
論文PDF(プレプリント):https://arxiv.org/pdf/2211.11222
女性トークコーパス
女性ソングコーパス
男性ソングコーパス
※一部に論文に記述のない改良が施されています。
※合成に必要な計算量は、Intel Core i7 10510U(2019年発売のノートパソコン用CPU)にて計測したところ実時間比で29.9%でした。
※論文の主観評価評価実験に用いたサンプルはこちらです。
https://www.sp.nitech.ac.jp/~takenori/sample_icassp2023.html
論文の内容は、最新の深層学習技術と音声信号処理の統合により、音声合成タスクにおいてトレードオフの関係になりがちな「高い自然性」と「韻律のコントローラビリティ」を両立させる手法に関するものです。論文内で、深層学習技術による合成音声の品質向上とともに、韻律制御に対する高い頑健性が示されています。また、論文内では強調していませんが、GPU駆動ではなくCPU駆動でのリアルタイム性を意識した設計になっています。本研究成果は2023年6月6日にICASSPの開催地であるギリシャのロードス島にて発表いたします。また、実験に使用したコアモジュールはGitHub上 https://github.com/sp-nitech/diffsptk で公開しており、関連研究の一助となることを願っております。
【会社概要】
テクノスピーチは、下記のようなエンタメ・教育・医療等の様々な分野において音声関連の研究開発の成果を投入することにより、総じて人々の暮らしをより豊かにする一助となることを目指しております。
-
業務用の音声合成・歌声合成プラットフォームの展開
-
オンライン授業・オンデマンド授業の電子教材の作成補助
-
アーティスト(故人を含む)の歌声の再現
-
ゲーム・アプリ・ウェブサービスへの応用
-
バーチャルユーチューバーによるオンラインコンサート
-
バーチャルアクターによるアフレコシステム
-
人工知能や音声対話システムの発声モジュールへの導入
-
外国語教育・歌唱教育における柔軟な参照音声の生成
-
ALS・喉頭がん等の患者様が用いる発声デバイス
-
介護施設用デジタルサイネージ
商号:株式会社テクノスピーチ
代表:代表取締役 大浦 圭一郎
所在地:〒461-0004名古屋市東区葵1-14-13アーク新栄ビルディング
事業内容:マルチメディアに関連したソフトウェアの研究開発
URL:https://www.techno-speech.com/
【お問い合わせ】
-
株式会社テクノスピーチ
URL:https://www.techno-speech.com/contact
-
国立大学法人名古屋工業大学 国際音声言語生成技術研究所 徳田 恵一
電話:052-735-5404
E-mail:tokuda@nitech.ac.jp