Kai Washizaki
機械学習エンジニアの鷲崎です。最近は、音声合成や言語処理が好きです。画像/音声/NLP/匂い x AI
Fusicで機械学習エンジニアをしている鷲崎です。画像、音声、NLPなど幅広いドメインの機械学習に関する研究開発の経験があります。また、AWSを用いた大規模な推論環境の構築なども行っています。
ドメインにこだわらず、様々なことに挑戦しています。もし、機械学習に関して困っている事がありましたら、ぜひ気軽にお問い合わせください。
スキルの紹介 #
画像処理 #
画像処理 x AIで、 サッカーの解析などを行っています。実用として、複数の画像処理の組み合わせや、データセット構築自動化などを重視してます。また、Point Cloudのモデル開発も経験があり、NeRFなど3D空間の構築や認識に興味があります。以下の動画は、iPhoneで撮影した動画から人の検出やチーム判定を行い、鳥瞰図に変換した結果です。
サッカーの鳥瞰図! pic.twitter.com/5HPwZv9z8i
— ワッシー@痩せたい! (@kwashizzz) September 10, 2023
音声/NLP #
最近は、音声やNLPのタスクを行っています。音声合成では正しい東京弁アクセントでの発音を行わせること、声質変換では、ZeroShot-VCや発話の取り違い低減に興味があります。また、ZeroShot-VCの評価手法に関する研究も始めました!下の動画は、一人の話者の声を様々な声質に変換した結果です。
その他 #
- データ作成の自動化+根性のアノテーションにより作成した日本語話者認識用データセットを用いて作成した話者特徴量抽出モデルです。
- VoiceConversionのNVCNetをpytorchで実装し直した非公式版です。