audio processing

モデル

USM:100以上の言語に対応した最先端の音声AI(1/2)

1.USM:100以上の言語に対応した最先端の音声AI(1/2)まとめ・昨年の11月、Googleは世界で最も話されている1,000の言語をサポートする機械学習モデルの構築を目標に掲げた・ユニバーサルスピーチモデルはその実現に向けた重要な一...
基礎理論

SoundStream:ビットレート可変なニューラルオーディオコーデック(1/2)

1.SoundStream:ビットレート可変なニューラルオーディオコーデック(1/2)まとめ・SoundStreamはスマートフォンのCPUでリアルタイムに実行可能で音声と音楽を処理できる・単一モデルで可変ビットレートで高品質を実現する初の...
アプリケーション

Google Nest Hubで睡眠の質を確認(2/2)

1.Google Nest Hubで睡眠の質を確認(2/2)まとめ・睡眠を理解して改善するには睡眠が妨げられる理由も理解する必要がある・そのため動き以外にも温度や光、音など感知するセンサーをNest Hubは搭載している・これにより咳やいび...
アプリケーション

Hum to Search:鼻歌検索の背後に存在する技術(1/2)

1.Hum to Search:鼻歌検索の背後に存在する技術(1/2)まとめ・鼻歌とスタジオで録音された歌曲は使用している楽器等がかなり異なるため鼻歌検索は困難・従来手法は全ての歌曲について鼻歌版を作成し、鼻歌版に対して鼻歌で検索をしていた...