Back to people
arXiv Sound@ArxivSound
Recent posts
Fun-Realtime-ASR-previewすごく性能良さそうですね… https://artificialanalysis.ai/speech-to-text
ChatGPTにSTOIの概要図作らせてみたら結構わかりやすくいい感じにしてくれました 文字がおかしいところもありますが凄いですね

主観評価では intelligibility だけでなく、listening effort も評価しているのが興味深いです。SI が高くても、聞き取りに必要な努力は codec によって差が出る。

A
Lyonel Behringer, Anna Leschanowsky, Anjana Rajasekhar, Emily Kratsch, Guillaume Fuchs, "Assessing the Impact of Noise and Speech Enhancement on the Intelligibility of Speech Codecs," https://arxiv.org/abs/2605.03776
ChatGPTをplusからproにするか悩みますね GPT-Image-2は概要図とかの参考にするのに便利そう
DCASE Task6用の環境作ってみて試してみました ちょっといじくってみてベースラインより上がったのでうれしい




