### 问题描述 | Problem Description 拖入本地视频之后尝试语音识别,然后输入Whisper后失败。最后发现视频转换后的wav只有742字节。并且测试多个视频都一样。  ### 日志信息(可选)| Logs (Optional) _No response_