MP4動画から自動で文字起こしと議事録を作成するツールです。 M4 Pro(MPS)とRTX(CUDA)の両方に対応しています。
- MP4動画から音声を抽出
- Whisperで文字起こし(OpenAI Whisper / faster-whisper)
- LLMで要約して議事録を作成
※ Whisperは稀に存在しない文言を生成することがあるので、議事録用途は「最終チェック必須」
-
🧠 Design & Philosophy (Miyakawa Codes) https://miyakawa.codes/blog/local-ai-meeting-minutes-10-minutes
-
⚙️ Technical Guide (Qiita) https://qiita.com/miyakawa2449@github/items/be7a1e5c2a16ac934f13
transcribe.py
Apple SiliconでPyTorchを試したバージョン。Macで一番高いパフォーマンスを出します。MPSに対応しており、M4 Pro 48GBで90分の動画を10分台で議事録までまとめます。transcribe_fw.py
Apple Siliconで fast whisper を試した実験版。MPS未対応のためCPUで実行。transcribe_cuda.py
RTXなどNVIDIA GPUで OpenAI Whisper (PyTorch) をCUDA利用する場合。transcribe_fw_cuda.py
RTXなどNVIDIA GPUで faster-whisper (CTranslate2 CUDA) を利用する場合。
# 実行権限を付与
chmod +x setup.sh
# セットアップスクリプトを実行
./setup.shこれで仮想環境の作成、パッケージのインストール、設定ファイルの準備が完了します。
# 1. 仮想環境を作成
python3 -m venv whisper
# 2. 仮想環境を有効化
source whisper/bin/activate
# 3. ffmpegのインストール
brew install ffmpeg
# 4. Pythonパッケージのインストール
pip install --upgrade pip
pip install -r requirements.txt
# 5. 環境変数の設定
cp .env.example .env
# .envファイルを編集してOpenAI API Keyを設定source whisper/bin/activatepython transcribe.py meeting.mp4deactivatepython transcribe.py meeting.mp4 --model largepython transcribe.py meeting.mp4 --model smallpython transcribe.py meeting.mp4 --no-summary- faster-whisper CUDA: 2分50秒
- OpenAI Whisper CUDA: 6分30秒前後
- MPS(M4 Pro): 10分40秒前後
output/[ファイル名]_transcript.txt- 文字起こし結果output/[ファイル名]_minutes.txt- 議事録
最新のPyTorchをインストール:
pip install --upgrade torchM4 Pro 48GBでは通常発生しませんが、他のアプリを閉じてください。
- バックグラウンドアプリを閉じる: より多くのメモリをWhisperに割り当て
- 電源接続: バッテリー駆動時より高速
- 初回実行: モデルのダウンロードに時間がかかります(2回目以降は高速)