Funasr-Subtitle:纯本地离线音视频转字幕工具,CPU也能10倍实时速度生成SRT字幕
在视频创作、课程录制、会议记录等场景中,字幕生成是刚需。传统云服务存在隐私泄露风险、网络延迟和收费问题,而Whisper等模型在中文和粤语场景下表现不佳、速度较慢。今天推荐的Funasr-Subtitle是一款基于阿里巴巴FunASR框架的纯本地、离线Windows音视频转字幕工具,它将彻底改变你对“本地语音识别”的认知——纯CPU即可达到约10倍实时速度,全程不上传任何文件,真正实现隐私安全与效率兼得。
一、Funasr-Subtitle是什么
Funasr-Subtitle是一个由开源社区“365开源计划”推出的Windows便携式音视频转写与字幕生成工具。它基于阿里巴巴达摩院开源的FunASR框架(非自回归端到端语音识别),专门针对中文、粤语等亚洲语言进行了深度优化。与传统逐token解码的Whisper模型不同,FunASR采用非自回归架构,推理速度提升数十倍——即使在没有独立显卡的普通办公电脑上,处理10秒音频也仅需约1秒,且首次下载模型后即可完全离线运行。
该工具以“纯本地、离线、极快、无隐私风险”为核心设计理念。用户只需将MP4、MKV、MP3、M4A、WAV等常见音视频文件拖入界面,即可自动完成VAD语音活动检测、ASR语音识别、标点恢复和智能字幕切分,最终导出带精确时间戳的SRT、VTT、TXT、JSON格式字幕。它对中文和粤语的识别准确率通常优于通用的Whisper模型,且支持英语、日语、韩语,是视频创作者、课程讲师、会议记录员、内容翻译工作者的理想本地工具。

二、软件功能详解
Funasr-Subtitle的功能覆盖了音视频转字幕的完整工作流,以下逐一说明:
1. 多模型支持与热词定制
SenseVoiceSmall(默认):基于FunASR的量化ONNX模型,兼顾速度与准确率,支持多语言自动识别。
Paraformer-zh:中文高精度模型,适合对中文识别准确率要求极高的场景。
Paraformer-zh热词版:支持用户自定义热词(如专业术语、人名、地名),显著提升特定领域的识别准确率。
2. 多语言自动识别与指定
软件可自动检测音频语言(中文、粤语、英语、日语、韩语),也支持手动指定。对于不同语言,标点处理策略智能适配——中文和日文按标点自然切分,英文则按语音停顿切分避免错误标点导致句子被切碎。
3. 专业级字幕切分与显示控制
生成的字幕不仅是“识别出文字”,更是符合阅读习惯的自然语句字幕:
标点/停顿切句:根据句子结束、子句边界、词边界逐级断行。
显示宽度可调:每行最大显示宽度支持0~100(中日韩字符算1,拉丁/数字算0.5),默认30≈中文30字或英文约60字。
单条字幕时长≤7秒:确保阅读体验舒适。
不拆分英文单词:切分逻辑智能,不会将一个单词分成两行。
时间戳严格单调不重叠:生成的字幕时间轴干净、专业。
4. 三种标点模式自由切换
自动(默认):中文等自带标点准确的语言自动加句末标点;英文按停顿切分,不强加可能错误的句号。
加句末标点:强制为所有句子添加标点(英文由SenseVoice自带标点处理,已照顾e.g./U.S./Inc.等缩写)。
不加:完全不加任何标点,适合需要后期手动编辑的场景。
5. 多种导出格式与一键复制
支持导出SRT、VTT、TXT、JSON四种格式,覆盖字幕播放、视频剪辑、文本存档等全部需求。同时提供“复制全文”功能,一键获取纯文本结果。
6. 说话人分离(完整版专属)
CUDA版(完整包)支持基于cam++模型的说话人分离功能,自动识别并标注不同说话人(如[spk0]、[spk1]...)。此功能需使用Paraformer模型,有N卡自动GPU加速,无卡回退CPU(速度较慢)。
三、软件特色:为什么它比Whisper更适合中文用户
| 特色维度 | Funasr-Subtitle | 传统Whisper方案 |
|---|---|---|
| 推理速度(CPU) | 10倍实时速率(非自回归架构),ASR推理本身RTF≈0.02 | 逐token解码,纯CPU速度显著较慢 |
| 中文/粤语精度 | 基于FunASR针对中文场景训练表现优异 | 中文场景准确率通常低于FunASR |
| 隐私保护 | 完全离线,不上传任何音视频文件 | 本地运行也可,但云端方案存在隐私风险 |
| 部署便捷性 | 解压即用,无需Python环境、无需管理员权限 | 需Python环境、需依赖管理、需模型下载 |
| 智能切分 | 按标点/停顿+行宽+时间多维度切分,符合阅读习惯 | 默认无/基础切分 |
| 便携包大小 | CPU版约340MB(完整版约2.6GB) | 依赖+模型通常数GB |
便携包选择对比
| 包名 | 大小 | 推理后端 | 适用人群 |
|---|---|---|---|
funasr-subtitle-win-x64.zip | ~340 MB | funasr-onnx 纯CPU | 绝大多数用户首选(轻量、快速、无需显卡) |
funasr-subtitle-cuda-win-x64.zip | ~2.6 GB | 完整funasr torch/CUDA | 有NVIDIA显卡用户(支持说话人分离、Paraformer高精度、GPU加速) |
四、使用方法
Funasr-Subtitle的使用极其简单,无需任何技术基础:
第一步:下载与解压
前往GitHub Releases页面下载对应便携包。无显卡用户下载CPU版即可(约340MB),有NVIDIA显卡用户可下载CUDA版(约2.6GB,含说话人分离等高级功能)。
注意:CUDA版超过GitHub单文件2GB上限,被拆分为
.001和.002两个分卷。下载后需运行随附的merge-cuda-parts.bat(或手动执行copy /b命令)合并出完整zip再解压。CPU版无需此步。解压到任意文件夹(无需管理员权限,无需安装)。
第二步:首次启动与模型下载
双击
funasr-subtitle.exe,程序自动在默认浏览器中打开操作界面。首次运行时会提示下载默认语音识别模型(SenseVoice约235MB)。点击确认自动下载,之后即可完全离线使用。
注意:程序未签名,Windows SmartScreen会拦截。点击“更多信息”→“仍要运行”即可。
第三步:开始转写
将音视频文件(MP4/MKV/MP3/M4A/WAV等)直接拖入浏览器页面。
配置参数:
语言:自动识别或手动指定(中文/粤语/英语/日语/韩语)。
模型:默认SenseVoiceSmall,如需更高中文精度可选Paraformer-zh(或热词版)。
热词:Paraformer热词版可填写专业术语(如“Transformer”“卷积神经网络”)。
每行最大字数:按需调整显示宽度(默认30,0=不限制)。
标点模式:推荐“自动”。
点击“开始转写”,等待处理完成(10分钟音频预计约1分钟)。
第四步:导出与后续使用
转写完成后可预览字幕内容,支持逐句检查。
点击“导出SRT/VTT/TXT/JSON”或“复制全文”。
生成的
.srt文件可直接导入视频剪辑软件(如Premiere、剪映)或投喂给翻译工具(如subtitle-translator)进行翻译——本工具本身不做翻译。
第五步:退出程序
点击浏览器页面右上角的“退出”按钮,或右下角系统托盘图标退出。
五、收费价格与许可
Funasr-Subtitle是一款完全免费的开源软件,基于MIT许可证发布。
零费用:软件本身免费,无试用期、无功能限制、无付费版本。
零订阅:所有功能离线可用,无需云服务订阅。
零增值收费:包括说话人分离在内的所有功能均免费。
唯一的“成本”是首次运行需联网下载约235MB的语音模型(之后永久离线可用)。第三方组件(FunASR、预训练模型、ffmpeg等)遵循各自的开源许可,但无需额外付费。
六、常见问题解答(FAQ)
Q1:我的电脑没有独立显卡,能运行吗?
完全可以。 默认CPU版(约340MB)专为纯CPU环境优化,使用funasr-onnx量化推理,在普通办公电脑上即可达到约10倍实时速度。处理10分钟音频约需1分钟,体验流畅。
Q2:CUDA版和CPU版差别大吗?我该怎么选?
核心差异在于GPU加速与高级功能。如果你只有CPU,请直接下载CPU版(小、快、无需额外配置)。如果你有NVIDIA显卡且需要说话人分离或Paraformer高精度模型,可下载CUDA版(约2.6GB)。CUDA版有N卡自动使用GPU,无卡回退CPU,但体积大得多。
Q3:生成的SRT字幕时间戳准吗?可以用于卡拉OK字幕吗?
时间戳为句级精度,足够制作常规字幕(如课程、会议、视频字幕),但不适合逐词高亮或卡拉OK式效果。 软件在生成时会确保时间戳严格单调不重叠,专业且规范。
Q4:处理英文音频时,为什么有些句子没有句号?
这是已知的设计权衡:SenseVoice和ct-punc模型对英文句末标点的预测不够准确,错位的句号会导致一句被切碎。因此默认“自动”模式下,英文采用“按停顿”方式切分——句子干净但不带句号。如需完整书面标点,可切换到“加句末标点”模式。
Q5:如何提高特定领域的识别准确率(如医学、法律术语)?
选择Paraformer-zh热词版模型,在“热词”输入框中输入专业术语(用空格或逗号分隔),即可显著提升这些词的识别率。
Q6:软件会上传我的音视频文件到服务器吗?
绝对不会。 软件完全离线运行。除首次下载模型需要联网外,之后全程不联网,不上传任何文件。这是其核心设计原则。
Q7:用不了,程序打不开怎么办?
SmartScreen拦截:点击“更多信息”→“仍要运行”。
端口被占用:程序会自动扫描可用端口(默认8765)。
其他问题:可设置环境变量
FUNASR_SUBTITLE_FORCE_CPU=1强制CPU模式排障。
七、总结:为什么你需要Funasr-Subtitle
Funasr-Subtitle解决了本地语音识别/字幕生成领域的核心痛点:在线服务的隐私风险被彻底消除,Whisper在中文场景的慢与不准被FunASR的非自回归架构突破,复杂的部署流程被340MB的便携包一劳永逸解决。它让“一键生成字幕”不再是云端特权,而是每位Windows用户触手可及的本地能力。
无论是需要保护商业机密的会议记录,还是需要快速生成字幕的视频创作者,亦或是需要进行多语言转写的研究者——Funasr-Subtitle都提供了速度、精度、隐私、易用性四维度的最优解。而这一切,完全免费,开源透明。
Funasr-Subtitle下载地址
版权及免责申明:本文由@李想想原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.fuwa.org/software/funasr-subtitle.html

