speech recognition

USM:100以上の言語に対応した最先端の音声AI(2/2)

１．USM:100以上の言語に対応した最先端の音声AI(2/2)まとめ・事前学習で得た知識によりUSMは下流タスクからのわずかな量の教師ありデータで良好な品質を達成することができる・YouTubeデータを使った検証では73言語の平均で30%...

2023.04.06

モデル

１．USM:100以上の言語に対応した最先端の音声AI(1/2)まとめ・昨年の11月、Googleは世界で最も話されている1,000の言語をサポートする機械学習モデルの構築を目標に掲げた・ユニバーサルスピーチモデルはその実現に向けた重要な一...

2023.04.05

モデル

１．SadTalker:任意の音声に合わせて口パクする動画を一枚絵から生成(Colab、Spaceあり)まとめ・任意の音声に合わせて口パクする動画を一枚絵や動画から生成するAIであるSadTalkerが誰でも動かせる形で公開された・SadT...

2023.03.31

入門／解説画像生成

１．speaker labels:誰の発言かわかるように音声データにラベルをつけるスマホアプリ(2/2)まとめ・音声をembedding化した後、複数のクラスタリング手法で話者推定を実施する・メイン処理に渡す前に予備的アルゴリズムで事前処理...

2022.12.24

AIアプリケーション

１．speaker labels:誰の発言かわかるように音声データにラベルをつけるスマホアプリ(1/2)まとめ・Pixel用の音声録音アプリRecorderは便利だが誰が何を言ったのかが不明確・録音中にリアルタイムで各発言者にユニークな匿名...

2022.12.23

アプリケーション

１．Look and Talk：視線を検知して呼び出しを認識するアシスタント(2/2)まとめ・プライバシーと応答遅延対策のため音声データはサーバに送らずデバイス上で解析している・デモ登録した音声データを利用することで個々のユーザー毎に最適化...

2022.08.01

アプリケーション

１．Teaching BERT to Wait:「え～」や「あ～」を識別して言語モデルのパフォーマンスを向上(2/2)・スマホの音声の自動書き起こしアプリなどでも非流暢性の除去は読みやすさ向上に貢献・リアルタイムに発生するストリーミングデー...

2022.07.06

学習手法

１．Teaching BERT to Wait:「え～」や「あ～」を識別して言語モデルのパフォーマンスを向上(1/2)・インタビューなどの自然なスピーチは文章にすると流暢でない箇所があり読みにくい・機械学習を使って話し言葉中の非流暢な箇所を...

2022.07.05

学習手法

１．CAP12：音声の抑揚を理解する小型で普遍的な音声特徴表現(3/3)まとめ・生徒モデルをマッチングさせる手法はグローバルとローカルの２種があるがローカルを使った・パラ言語情報の中間特徴表現は徐々に増加し、次に減少し、再び増加する二峰性分...

2022.03.20

基礎理論

１．CAP12：音声の抑揚を理解する小型で普遍的な音声特徴表現(2/3)まとめ・CAP12に基づくモデルは8つのパラ言語タスクの5つでタスク特化モデルよりも優れている・CAP12をスマートフォンで使えるようにするため知識蒸留を使用して既存モ...

2022.03.19

基礎理論

１．CAP12：音声の抑揚を理解する小型で普遍的な音声特徴表現(1/3)まとめ・機械システムは口調、感情、マスク有無など、パラ言語的な側面に苦戦している・最先端モデルは超大規模なモデルであるためモバイル機器上の実行は現実的でない・6つの超大...

2022.03.18

基礎理論

１．発声に困難を抱える人の音声コミュニケーションを支援するモデル用のデータセットの開発(2/2)まとめ・全体的にパーソナライズ手法は全重症度レベルと条件にわたって大幅な改善をもたらした・個人向けに最適化されたASRモデルの単語誤り率は人間の...

2021.09.15

データセット公平性