我的AI工具箱Tauri版-通用音频转文本

人工智能
2025-09-13 09:12:01

本模块支持FunAsr和FasterWhisper两种模式，可批量处理音频与视频文件，自动生成txt文本与srt字幕，满足多种应用场景需求。工具内置FunAsr，无需额外参数调整，特别适用于中文语音的高质量转录，确保识别准确率与自然流畅度。而FasterWhisper作为Whisper的升级版本，不仅提升了处理速度，还支持多语言转录，用户可灵活调整参数，以适应更复杂的应用需求。

该工具支持批量处理模式，可快速转换整个目录下的多个音视频文件，大幅提升工作效率。简洁直观的界面配合强大的语音识别技术，使用户能够轻松完成转录任务，广泛适用于字幕制作、内容存档、语音笔记等场景，为多媒体创作和信息处理提供便捷支持。

文章目录操作使用文件配置参数配置应用示例开发与应用

操作使用

进入软件后可以直接搜索通用音频转文本进入该模块。

文件配置功能按钮功能类别功能描述选择音频/视频目录目录选择选择需转换的文件目录，仅支持音频和视频类型文件，执行任务前自动校验路径有效性。输出路径目录选择设置音频文件的保存位置，默认使用系统设定的统一输出路径，并自动校验路径有效性。文本转语音方式模式选择选择转录模式（FunAsr或FasterWhisper）进行音频/视频转录。

参数配置

FunAsr音频转录参数设置

选项参数选择模式说明damo模型目录默认配置需要按照《我的AI工具箱Tauri+Django环境开发，支持局域网使用》将模型下载到指定目录并解压缩icc模型目录默认配置需要按照《我的AI工具箱Tauri+Django环境开发，支持局域网使用》将模型下载到指定目录并解压缩

FasterWhisper音频转录参数设置

🚨此转换模式需要有显卡能够进行进行操作，否则会很慢。🚨

选项参数选择模式说明模型目录默认配置需要按照《我的AI工具箱Tauri+Django环境开发，支持局域网使用》将模型下载到指定目录并解压缩计算方式下拉选择选择计算精度（如 16 位整数）CPU 线程下拉选择设置用于计算的 CPU 线程数量（如 4 线程）工作线程下拉选择设置后台工作的线程数量（如 8 个）语言选择下拉选择选择识别语言（如中文简体）语音活动检测开关启用或禁用语音活动检测功能语音检测强度滑动条设置语音活动检测的敏感度（如 3%）前后填充时间滑动条设置语音处理的前后填充时间（如 56ms）最短持续时间滑动条设置语音片段的最短持续时间（如 33ms）最短静音时间滑动条设置识别过程中最短的静音间隔（如 78ms）

应用示例

这里以选择目录下有各种音频和视频文件，在选择目录后选择转录方式，这里选择FunAsr模型，在保证已经从网盘中下载好模型之后直接执行即可。

执行完成之后会在输入目录下看到生成的音频文件。

开发与应用

软件使用以及综合参考资料内容可以查阅

文章链接内容描述《我的AI工具箱Tauri+Django环境开发，支持局域网使用》图形桌面工具使用教程，详细介绍 Tauri+Django 环境的开发方法，支持局域网部署与使用。《我的AI工具箱Tauri+Django常见错误与解决办法》常见错误与解决办法，针对 Tauri+Django 环境下可能遇到的问题提供实用的解决方案。《我的AI工具箱Tauri+Django内容生产介绍和使用》包含当前主流新媒体领域常用的音频、视频剪辑，以及内容一键生产功能。《ComfyUI使用教程、开发指导、资源下载》工作流相关内容讲解，涵盖文件管理、文件汇总、软件使用教程及开发指导，附带模型下载资源。

标签：

我的AI工具箱Tauri版-通用音频转文本由讯客互联人工智能栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“我的AI工具箱Tauri版-通用音频转文本”

上一篇
养老小程序方案详解居家养老小程序系统

下一篇
UnclutterforMacv2.2.12剪贴板/文件暂存