Back to people
@nkzwkzs
N

nakazawa kazushi(中澤和司)

音声
@nkzwkzs

博士(工学)音声認識系の仕事をしています DNNベースで音声の品質を評価する研究していました IEEE Sendai YPとASJ若手フォーラムで活動してます

735Followers3.1KFollowing3.9KPostsView on X

Recent posts

色々大変なことがあって執筆なかなかできませんでしたがまた頑張っていきたいですね

将来的にはレファレンステキストなしで単語単位の正誤判定できるといいですね めちゃくちゃ強いASRがあると嬉しい

ピッチ・倍音知覚おじさん図鑑を流行りに乗って作ってみました

Photo 1

音は嘘をつかない(名言)

Fun-Realtime-ASR-previewすごく性能良さそうですね… https://artificialanalysis.ai/speech-to-text

ChatGPTにSTOIの概要図作らせてみたら結構わかりやすくいい感じにしてくれました 文字がおかしいところもありますが凄いですね

Photo 1

主観評価では intelligibility だけでなく、listening effort も評価しているのが興味深いです。SI が高くても、聞き取りに必要な努力は codec によって差が出る。

@ArxivSound
A
arXiv Sound@ArxivSound

Lyonel Behringer, Anna Leschanowsky, Anjana Rajasekhar, Emily Kratsch, Guillaume Fuchs, "Assessing the Impact of Noise and Speech Enhancement on the Intelligibility of Speech Codecs," https://arxiv.org/abs/2605.03776

REAL-TSE Challengeも面白そうですね 勉強になりそう

S2SND難しい… ダイアライゼーション周りをもっと勉強します

鳥コンペ出力の補正とかやっててなかなかテクニカルで難しい…

参加しています!今回も楽しみ!

Photo 1

Qwen3-Omniをさわって色々やってみたいが動かせるGPUがない

鳥コンペ、DCASE、VoiceMOS Challengeと楽しいコンペがたくさんですね

ChatGPTをplusからproにするか悩みますね GPT-Image-2は概要図とかの参考にするのに便利そう

DCASE Task6用の環境作ってみて試してみました ちょっといじくってみてベースラインより上がったのでうれしい

手に入れました! 理論と実装を学べるのうれしいですね

Photo 1