Profile
研究歴・職歴
- 2022年5月 -- 現在
- 名古屋工業大学 国際音声技術研究所 客員助教 (称号付与)
- 2022年4月 -- 現在
- rinna株式会社 正社員
- 2022年4月 -- 2022年4月
- 名古屋工業大学 ながれ領域 研究員
- 2020年1月 -- 2020年2月
- シェフィールド大学 滞在研究員
- 2019年10月 -- 2019年12月
- エジンバラ大学 滞在研究員
- 2019年7月 -- 2019年8月
- マイクロソフト ディベロップメント株式会社 インターンシップ
学歴
- 2019年4月 -- 2022年3月
- 名古屋工業大学 大学院 工学研究科 情報工学専攻 博士後期課程
- 2017年4月 -- 2019年3月
- 名古屋工業大学 大学院 工学研究科 情報工学専攻 博士前期課程
- 2013年4月 -- 2017年3月
- 名古屋工業大学 工学部 情報工学科
受賞歴
- 2024年9月5日
- 第3回 日本音響学会 音声合成研究奨励賞吉田賞
- 2023年12月9日
- IEEE名古屋支部 若手奨励賞
- 2022年12月27日
- 第16回 IEEE Signal Processing Society Japan Student Journal Paper Award
- 2022年9月15日
- 第52回 日本音響学会 粟屋 潔学術奨励賞
- 2022年3月26日
- IEEE名古屋支部 国際会議研究発表賞
- 2022年3月23日
- 名古屋工業大学 学生表彰(副学長賞)
- 2021年12月28日
- 第15回 IEEE Signal Processing Society Japan Student Conference Paper Award
- 2021年3月23日
- IEEE名古屋支部 優秀学生賞
- 2019年6月11日
- 平成30年度 電子情報通信学会東海支部 学生研究奨励賞
- 2019年3月6日
- 第18回 日本音響学会 学生優秀発表賞
- 2018年12月18日
- 2018年度 日本音響学会東海支部 優秀発表賞
- 2018年8月4日
- 第22回 東海地区音声関連研究室修士論文中間発表会 概要講演賞
- 2017年3月23日
- 名古屋工業大学電気系同窓会 電影会賞
ソフトウェア
- 2018年4月 -- 現在
- HMM/DNN歌声合成システム (Sinsy)
研究内容
- 音声合成
- 入力されたテキストをもとに,コンピュータが人間の声を作り出す技術
- 歌声合成
- 入力された楽譜をもとに,コンピュータが歌声を作り出す技術
所属学会
- Institute of Electrical and Electronics Engineers (IEEE)
- 日本音響学会 (ASJ)
Publications
学術論文
-
PeriodNet: A non-autoregressive raw waveform generative model with a structure separating periodic and aperiodic components
Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
IEEE Access, vol. 9, pp. 137599-137612, October, 2021. (DOI: 10.1109/ACCESS.2021.3118033) (IEEE Xplore) (demo page)
-
Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System
Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 2803-2815, August, 2021. (DOI: 10.1109/TASLP.2021.3104165) (IEEE SPS Japan Student Journal Paper Award) (IEEE Xplore) (demo page)
国際会議
-
PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems
Kentaro Mitsui, Koh Mitsuda, Toshiaki Wakatsuki, Yukiya Hono, and Kei Sawada
Findings of the Association for Computational Linguistics EMNLP 2024. (accepted) (arXiv preprint)
-
Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition
Yukiya Hono, Koh Mitsuda, Tianyu Zhao, Kentaro Mitsui, Toshiaki Wakatsuki, and Kei Sawada
Findings of the Association for Computational Linguistics ACL 2024, pp. 13289-13305, Bangkok, Thailand, August 2024. (ACL Anthology)
-
Release of Pre-Trained Models for the Japanese Language
Kei Sawada, Tianyu Zhao, Makoto Shing, Kentaro Mitsui, Akio Kaga, Yukiya Hono, Toshiaki Wakatsuki, and Koh Mitsuda
2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pp. 13898-13905, Torino, Italia, May, 2024. (ACL Anthology)
-
PeriodGrad: Towards Pitch-Controllable Neural Vocoder Based on a Diffusion Probabilistic Model
Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 12782-12786, Seoul, Korea, April, 2024. (IEEE Xplore)
-
UniFLG: Unified Facial Landmark Generator from Text or Speech
Kentaro Mitsui, Yukiya Hono, and Kei Sawada
Interspeech 2023, pp. 5501-5505, Dublin, Ireland, September, 2023. (ISCA Archive)
-
Singing Voice Synthesis Based on a Musical Note Position-Aware Attention Mechanism
Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, June, 2023. (IEEE Xplore)
-
Embedding a Differentiable Mel-cepstral Synthesis Filter to a Neural Speech Synthesis System
Takenori Yoshimura, Shinji Takaki Kazuhiro Nakamura, Keiichiro Oura, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, June, 2023. (IEEE Xplore)
-
End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue
Kentaro Mitsui, Tianyu Zhao, Kei Sawada, Yukiya Hono, Yoshihiko Nankaku, and Keiichi Tokuda
Interspeech 2022, pp. 2328–2332, Incheon, Korea, September, 2022. (ISCA Archive)
-
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components
Yukiya Hono, Shinji Takaki, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6049-6053, Toronto, Ontario, Canada, June, 2021. (IEEE SPS Japan Student Conference Paper Award) (IEEE Xplore)
-
Hierarchical Multi-Grained Generative Model for Expressive Speech Synthesis
Yukiya Hono, Kazuna Tsuboi, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
Interspeech 2020, pp. 3441-3445, Shanghai, China, October, 2020. (ISCA archive)
-
Singing voice synthesis based on generative adversarial networks
Yukiya Hono, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6955-6959, Brighton, UK, May, 2019.
-
Singing Voice Conversion Using Posted Waveform Data on Music Social Media
Koki Senda, Yukiya Hono, Kei Sawada, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp. 1913-1917, Honolulu, Hawaii, November, 2018.
-
Recent Development of the DNN-based Singing Voice Synthesis System -- Sinsy
Yukiya Hono, Shumma Murata, Kazuhiro Nakamura, Kei Hashimoto, Keiichiro Oura, Yoshihiko Nankaku, and Keiichi Tokuda
Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp. 1003-1009, Honolulu, Hawaii, November, 2018.
国内研究会
-
発声タイミングのずれを考慮したフレーム駆動型アテンション機構に基づく歌声合成
西原美玖, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
信学技報, vol. 122, no. 389, pp. 19-24, 沖縄, 日本, 2023年2月
-
歌声合成におけるニューラルボコーダの比較検討
和田蒼汰, 法野行哉, 高木信二, 大浦圭一郎, 橋本佳, 南角吉彦, 徳田恵一
信学技報, vol. 119, no. 321, pp. 85-90, 東京, 日本, 2019年12月
国内学会
-
ソース・フィルタ型ニューラルボコーダにおける周期励振信号に関する考察
青原光, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
日本音響学会2024年春季研究発表会, pp. 813-816, 東京, 日本, 2024年3月 (学生優秀発表賞)
-
AIエージェント間の自然な会話に向けたテキストからの音声対話生成
三井健太郎, 法野行哉, 沢田慶
日本音響学会2024年春季研究発表会, pp. 1327-1330, 東京, 日本, 2024年3月
-
自己教師あり学習に基づく音声・言語モデルを統合したEnd-to-End音声認識
法野行哉, 光田航, 趙天雨, 三井健太郎, 若月駿尭, 沢田慶
日本音響学会2024年春季研究発表会, pp. 1323-1326, 東京, 日本, 2024年3月
-
自己教師あり学習を用いた日本語事前学習モデルと音声認識・合成への応用
沢田慶, 法野行哉, 三井健太郎
日本音響学会2024年春季研究発表会, pp. 1319-1320, 東京, 日本, 2024年3月 (招待講演)
-
基本周波数の制御性を考慮したピッチ抽出器を用いたニューラルボコーダ学習法の検討
福田至音, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
日本音響学会2023年秋季研究発表会, pp. 1065-1068, 愛知, 日本, 2023年9月
-
基本周波数の制御性を考慮した特徴分離に基づくニューラルボコーダ構成法
佐藤鈴夏, 藤本崇人, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
日本音響学会2023年秋季研究発表会, pp. 1061-1064, 愛知, 日本, 2023年9月
-
PeriodGrad: 基本周波数を制御可能な拡散確率モデルに基づくニューラルボコーダ
法野行哉, 橋本佳, 南角吉彦, 徳田恵一
日本音響学会2023年秋季研究発表会, pp. 1045-1048, 愛知, 日本, 2023年9月
-
Sequence-to-sequence歌声合成のための発声タイミングのモデル化に関する検討
西原美玖, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
日本音響学会2022年秋季研究発表会, pp. 1359-1362, 北海道, 日本, 2022年9月
-
自発的対話を用いた潜在スタイル表現の抽出・予測に基づく音声合成
三井健太郎, 趙天雨, 沢田慶, 法野行哉, 南角吉彦, 徳田恵一
日本音響学会2022年秋季研究発表会, pp. 1593-1596, 北海道, 日本, 2022年9月
-
Sequence-to-sequence歌声合成のための音符位置に基づくアテンション機構の検討
法野行哉, 橋本佳, 南角吉彦, 徳田恵一
日本音響学会2022年秋季研究発表会, pp. 1589-1592, 北海道, 日本, 2022年9月
-
微分可能なメルケプストラム合成フィルタを組み込んだend-to-end音声合成システムの検討
吉村建慶, 高木信二, 中村和寛, 大浦圭一郎, 法野行哉, 橋本佳, 南角吉彦, 徳田恵一
日本音響学会2022年秋季研究発表会, pp. 1585-1588, 北海道, 日本, 2022年9月
-
非周期性指標を考慮したニューラルボコーダの学習
法野行哉, 高木信二, 橋本佳, 中村和寛, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2022年春季研究発表会, pp. 973-976, 日本, 2022年3月 (粟屋 潔学術奨励賞)
-
発声タイミングのずれを考慮したsequence-to-sequence歌声合成
法野行哉, 加藤大誠, 橋本佳, 大浦圭一郎,南角吉彦, 徳田恵一
日本音響学会2021年秋季研究発表会, pp. 911-914, 日本, 2021年9月
-
DNN歌声合成のための調子はずれ補正
法野行哉, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2021年秋季研究発表会, pp. 907-910, 日本, 2021年9月
-
周期・非周期成分の分離に基づくニューラルボコーダによる音声波形のモデル化の検討
法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2021年春季研究発表会, pp. 861-864, 日本, 2021年3月
-
階層化多重粒度生成モデルを用いた表現豊かな音声合成
法野行哉, 坪井一菜, 沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2020年秋季研究発表会, pp. 791-794, 日本, 2020年9月
-
DNNに基づく音声ボコーダにおける周期・非周期成分のモデル化の検討
法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2020年秋季研究発表会, pp. 759-760, 日本, 2020年9月
-
カスケード構造を用いた音声パラメータ予測に基づく統計的パラメトリック音声合成
三井健太郎, 法野行哉, 坪井一菜, 沢田慶
日本音響学会2020年春季研究発表会, pp. 1107-1108, 埼玉, 日本, 2020年3月
-
楽譜時間情報を用いたアテンション機構に基づく歌声合成の検討
村田舜馬, 藤本崇人, 法野行哉, 高木信二, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2019年秋季研究発表会, pp. 943-944, 滋賀, 日本, 2019年9月
-
AI歌手りんな:ユーザ歌唱や楽譜を入力とする歌声合成システム
沢田慶, 坪井一菜, Xianchao Wu, Zhan Chen, 法野行哉, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2019年春季研究発表会, pp. 1041-1044, 東京, 日本, 2019年3月
-
敵対的生成ネットワークを用いた歌声合成の検討
法野行哉, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2019年春季研究発表会, pp. 1039-1040, 東京, 日本, 2019年3月
-
Deep Neural Networkに基づく歌声合成システム -- Sinsy
法野行哉, 村田舜馬, 中村和寛, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2018年秋季研究発表会, pp. 1099-1102, 大分, 日本, 2018年9月 (学生優秀発表賞)
-
隠れセミマルコフモデルの構造を利用したニューラルネットワークに基づく歌声合成
法野行哉, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一
日本音響学会2018年春季研究発表会, pp. 247-248, 埼玉, 日本, 2018年3月
-
音楽SNSの投稿データを利用した歌唱声質変換
法野行哉, 沢田慶, 橋本佳, 大浦圭一郎, 南角吉彦, 徳田恵一, 近藤大介, 石川大輔
日本音響学会2017年秋季研究発表会, pp. 209-210, 愛媛, 日本, 2017年9月
学位論文
-
Acoustic and waveform modeling for singing voice synthesis based on deep neural networks
Yukiya Hono
博士論文, 名古屋工業大学, 2022年2月
-
Deep Neural Networkに基づく歌声合成システムの構築
法野行哉
修士論文, 名古屋工業大学, 2019年2月
-
生成モデルの構造を利用したディープニューラルネットワークに基づく歌声合成
法野行哉
卒業論文, 名古屋工業大学, 2017年2月
プレプリント
-
Towards human-like spoken dialogue generation between AI agents from written dialogue
Kentaro Mitsui, Yukiya Hono, and Kei Sawada
arXiv preprint arXiv:2310.01088, October, 2023. (arXiv)
-
Singing voice synthesis based on frame-level sequence-to-sequence models considering vocal timing deviation
Miku Nishihara, Yukiya Hono, Kei Hashimoto, Yoshihiko Nankaku, and Keiichi Tokuda
arXiv preprint arXiv:2301.02262, January, 2023. (arXiv)
Contact
〒 466-8555
愛知県名古屋市昭和区御器所町 名古屋工業大学 4号館5階 徳田・南角・橋本研究室
The 5th floor of Building No.4, Tokuda and Nankaku Laboratory
Nagoya Institute of Technology, Gokiso-Cho, Showa-Ku, Nagoya, 466-8555 Japan
E-mail : hono [at] nitech.ac.jp