メインコンテンツへスキップ
Kai Washizaki

Kai Washizaki

機械学習エンジニアの鷲崎です。最近は、音声合成や言語処理が好きです。画像/音声/NLP/匂い x AI

Fusicで機械学習エンジニアをしている鷲崎です。画像、音声、NLPなど幅広いドメインの機械学習に関する研究開発の経験があります。また、AWSを用いた大規模な推論環境の構築なども行っています。

ドメインにこだわらず、様々なことに挑戦しています。もし、機械学習に関して困っている事がありましたら、ぜひ気軽にお問い合わせください。

[email protected]

スキルの紹介 #

画像処理 #

画像処理 x AIで、 サッカーの解析などを行っています。実用として、複数の画像処理の組み合わせや、データセット構築自動化などを重視してます。また、Point Cloudのモデル開発も経験があり、NeRFなど3D空間の構築や認識に興味があります。以下の動画は、iPhoneで撮影した動画から人の検出やチーム判定を行い、鳥瞰図に変換した結果です。

音声/NLP #

最近は、音声やNLPのタスクを行っています。音声合成では正しい東京弁アクセントでの発音を行わせること、声質変換では、ZeroShot-VCや発話の取り違い低減に興味があります。また、ZeroShot-VCの評価手法に関する研究も始めました!下の動画は、一人の話者の声を様々な声質に変換した結果です。

その他 #

  • データ作成の自動化+根性のアノテーションにより作成した日本語話者認識用データセットを用いて作成した話者特徴量抽出モデルです。
k-washi/speaker-emb-ja-ecapa-tdnn

Python
0
0
  • VoiceConversionのNVCNetをpytorchで実装し直した非公式版です。
k-washi/nvc-net

NVC-Net のpytorch version

Python
1
0

最近の記事

No.001 - 自動運転用地図の制作にAIとクラウドを!高い技術力と提案型の開発による伴走
No.002 - AI技術で人の心と体を健康に-重圧センサーから姿勢を推定!
No.003 - 81歳女性の音声AI「サヨ子コーパス」を公開
No.004 - 「日本音響学会第150回(2023年秋季)研究発表会」で当社エンジニアの鷲﨑とインターンの木内が研究発表いたします
No.005 - 彩流社出版「「浦島太郎」のアバターになって、メタバース・Web3・AIがスラスラわかる本;XR、NFT、DAO、DeFi、ChatGPT、生成AIまで」に当社納富と鷲﨑が執筆に参加いたしました