Funasr-Subtitle:纯本地离线音视频转字幕工具,CPU也能10倍实时速度生成SRT字幕

原创 发布日期:
35

在视频创作、课程录制、会议记录等场景中,字幕生成是刚需。传统云服务存在隐私泄露风险、网络延迟和收费问题,而Whisper等模型在中文和粤语场景下表现不佳、速度较慢。今天推荐的Funasr-Subtitle是一款基于阿里巴巴FunASR框架的纯本地、离线Windows音视频转字幕工具,它将彻底改变你对“本地语音识别”的认知——纯CPU即可达到约10倍实时速度,全程不上传任何文件,真正实现隐私安全与效率兼得。

一、Funasr-Subtitle是什么

Funasr-Subtitle是一个由开源社区“365开源计划”推出的Windows便携式音视频转写与字幕生成工具。它基于阿里巴巴达摩院开源的FunASR框架(非自回归端到端语音识别),专门针对中文、粤语等亚洲语言进行了深度优化。与传统逐token解码的Whisper模型不同,FunASR采用非自回归架构,推理速度提升数十倍——即使在没有独立显卡的普通办公电脑上,处理10秒音频也仅需约1秒,且首次下载模型后即可完全离线运行。

该工具以“纯本地、离线、极快、无隐私风险”为核心设计理念。用户只需将MP4、MKV、MP3、M4A、WAV等常见音视频文件拖入界面,即可自动完成VAD语音活动检测、ASR语音识别、标点恢复和智能字幕切分,最终导出带精确时间戳的SRT、VTT、TXT、JSON格式字幕。它对中文和粤语的识别准确率通常优于通用的Whisper模型,且支持英语、日语、韩语,是视频创作者、课程讲师、会议记录员、内容翻译工作者的理想本地工具。

Funasr-Subtitle:纯本地离线音视频转字幕工具,CPU也能10倍实时速度生成SRT字幕

二、软件功能详解

Funasr-Subtitle的功能覆盖了音视频转字幕的完整工作流,以下逐一说明:

1. 多模型支持与热词定制

  • SenseVoiceSmall(默认):基于FunASR的量化ONNX模型,兼顾速度与准确率,支持多语言自动识别。

  • Paraformer-zh:中文高精度模型,适合对中文识别准确率要求极高的场景。

  • Paraformer-zh热词版:支持用户自定义热词(如专业术语、人名、地名),显著提升特定领域的识别准确率。

2. 多语言自动识别与指定

软件可自动检测音频语言(中文、粤语、英语、日语、韩语),也支持手动指定。对于不同语言,标点处理策略智能适配——中文和日文按标点自然切分,英文则按语音停顿切分避免错误标点导致句子被切碎。

3. 专业级字幕切分与显示控制

生成的字幕不仅是“识别出文字”,更是符合阅读习惯的自然语句字幕

  • 标点/停顿切句:根据句子结束、子句边界、词边界逐级断行。

  • 显示宽度可调:每行最大显示宽度支持0~100(中日韩字符算1,拉丁/数字算0.5),默认30≈中文30字或英文约60字。

  • 单条字幕时长≤7秒:确保阅读体验舒适。

  • 不拆分英文单词:切分逻辑智能,不会将一个单词分成两行。

  • 时间戳严格单调不重叠:生成的字幕时间轴干净、专业。

4. 三种标点模式自由切换

  • 自动(默认):中文等自带标点准确的语言自动加句末标点;英文按停顿切分,不强加可能错误的句号。

  • 加句末标点:强制为所有句子添加标点(英文由SenseVoice自带标点处理,已照顾e.g./U.S./Inc.等缩写)。

  • 不加:完全不加任何标点,适合需要后期手动编辑的场景。

5. 多种导出格式与一键复制

支持导出SRT、VTT、TXT、JSON四种格式,覆盖字幕播放、视频剪辑、文本存档等全部需求。同时提供“复制全文”功能,一键获取纯文本结果。

6. 说话人分离(完整版专属)

CUDA版(完整包)支持基于cam++模型的说话人分离功能,自动识别并标注不同说话人(如[spk0]、[spk1]...)。此功能需使用Paraformer模型,有N卡自动GPU加速,无卡回退CPU(速度较慢)。

三、软件特色:为什么它比Whisper更适合中文用户

特色维度Funasr-Subtitle传统Whisper方案
推理速度(CPU)10倍实时速率(非自回归架构),ASR推理本身RTF≈0.02 逐token解码,纯CPU速度显著较慢
中文/粤语精度 基于FunASR针对中文场景训练表现优异 中文场景准确率通常低于FunASR
隐私保护 完全离线,不上传任何音视频文件 本地运行也可,但云端方案存在隐私风险
部署便捷性 解压即用,无需Python环境、无需管理员权限 需Python环境、需依赖管理、需模型下载
智能切分 按标点/停顿+行宽+时间多维度切分,符合阅读习惯 默认无/基础切分
便携包大小 CPU版约340MB(完整版约2.6GB) 依赖+模型通常数GB

便携包选择对比

包名大小推理后端适用人群
funasr-subtitle-win-x64.zip ~340 MB funasr-onnx 纯CPU绝大多数用户首选(轻量、快速、无需显卡)
funasr-subtitle-cuda-win-x64.zip ~2.6 GB 完整funasr torch/CUDA 有NVIDIA显卡用户(支持说话人分离、Paraformer高精度、GPU加速)

四、使用方法

Funasr-Subtitle的使用极其简单,无需任何技术基础:

第一步:下载与解压

  1. 前往GitHub Releases页面下载对应便携包。无显卡用户下载CPU版即可(约340MB),有NVIDIA显卡用户可下载CUDA版(约2.6GB,含说话人分离等高级功能)。

  2. 注意:CUDA版超过GitHub单文件2GB上限,被拆分为.001.002两个分卷。下载后需运行随附的merge-cuda-parts.bat(或手动执行copy /b命令)合并出完整zip再解压。CPU版无需此步。

  3. 解压到任意文件夹(无需管理员权限,无需安装)。

第二步:首次启动与模型下载

  1. 双击funasr-subtitle.exe,程序自动在默认浏览器中打开操作界面。

  2. 首次运行时会提示下载默认语音识别模型(SenseVoice约235MB)。点击确认自动下载,之后即可完全离线使用

  3. 注意:程序未签名,Windows SmartScreen会拦截。点击“更多信息”→“仍要运行”即可。

第三步:开始转写

  1. 将音视频文件(MP4/MKV/MP3/M4A/WAV等)直接拖入浏览器页面。

  2. 配置参数:

    • 语言:自动识别或手动指定(中文/粤语/英语/日语/韩语)。

    • 模型:默认SenseVoiceSmall,如需更高中文精度可选Paraformer-zh(或热词版)。

    • 热词:Paraformer热词版可填写专业术语(如“Transformer”“卷积神经网络”)。

    • 每行最大字数:按需调整显示宽度(默认30,0=不限制)。

    • 标点模式:推荐“自动”。

  3. 点击“开始转写”,等待处理完成(10分钟音频预计约1分钟)。

第四步:导出与后续使用

  1. 转写完成后可预览字幕内容,支持逐句检查。

  2. 点击“导出SRT/VTT/TXT/JSON”或“复制全文”。

  3. 生成的.srt文件可直接导入视频剪辑软件(如Premiere、剪映)或投喂给翻译工具(如subtitle-translator)进行翻译——本工具本身不做翻译。

第五步:退出程序

点击浏览器页面右上角的“退出”按钮,或右下角系统托盘图标退出。

五、收费价格与许可

Funasr-Subtitle是一款完全免费的开源软件,基于MIT许可证发布。

  • 零费用:软件本身免费,无试用期、无功能限制、无付费版本。

  • 零订阅:所有功能离线可用,无需云服务订阅。

  • 零增值收费:包括说话人分离在内的所有功能均免费。

唯一的“成本”是首次运行需联网下载约235MB的语音模型(之后永久离线可用)。第三方组件(FunASR、预训练模型、ffmpeg等)遵循各自的开源许可,但无需额外付费。

六、常见问题解答(FAQ)

Q1:我的电脑没有独立显卡,能运行吗?

完全可以。 默认CPU版(约340MB)专为纯CPU环境优化,使用funasr-onnx量化推理,在普通办公电脑上即可达到约10倍实时速度。处理10分钟音频约需1分钟,体验流畅。

Q2:CUDA版和CPU版差别大吗?我该怎么选?

核心差异在于GPU加速与高级功能。如果你只有CPU,请直接下载CPU版(小、快、无需额外配置)。如果你有NVIDIA显卡且需要说话人分离Paraformer高精度模型,可下载CUDA版(约2.6GB)。CUDA版有N卡自动使用GPU,无卡回退CPU,但体积大得多。

Q3:生成的SRT字幕时间戳准吗?可以用于卡拉OK字幕吗?

时间戳为句级精度,足够制作常规字幕(如课程、会议、视频字幕),但不适合逐词高亮或卡拉OK式效果。 软件在生成时会确保时间戳严格单调不重叠,专业且规范。

Q4:处理英文音频时,为什么有些句子没有句号?

这是已知的设计权衡:SenseVoice和ct-punc模型对英文句末标点的预测不够准确,错位的句号会导致一句被切碎。因此默认“自动”模式下,英文采用“按停顿”方式切分——句子干净但不带句号。如需完整书面标点,可切换到“加句末标点”模式。

Q5:如何提高特定领域的识别准确率(如医学、法律术语)?

选择Paraformer-zh热词版模型,在“热词”输入框中输入专业术语(用空格或逗号分隔),即可显著提升这些词的识别率。

Q6:软件会上传我的音视频文件到服务器吗?

绝对不会。 软件完全离线运行。除首次下载模型需要联网外,之后全程不联网,不上传任何文件。这是其核心设计原则。

Q7:用不了,程序打不开怎么办?

  • SmartScreen拦截:点击“更多信息”→“仍要运行”。

  • 端口被占用:程序会自动扫描可用端口(默认8765)。

  • 其他问题:可设置环境变量FUNASR_SUBTITLE_FORCE_CPU=1强制CPU模式排障。

七、总结:为什么你需要Funasr-Subtitle

Funasr-Subtitle解决了本地语音识别/字幕生成领域的核心痛点:在线服务的隐私风险被彻底消除Whisper在中文场景的慢与不准被FunASR的非自回归架构突破复杂的部署流程被340MB的便携包一劳永逸解决。它让“一键生成字幕”不再是云端特权,而是每位Windows用户触手可及的本地能力。

无论是需要保护商业机密的会议记录,还是需要快速生成字幕的视频创作者,亦或是需要进行多语言转写的研究者——Funasr-Subtitle都提供了速度、精度、隐私、易用性四维度的最优解。而这一切,完全免费,开源透明。

Funasr-Subtitle下载地址

Funasr-Subtitle
版本 0.1.0
大小 2.5 GB
语言 中文简体
系统 Windows
打赏
THE END
作者头像
李想想
只是突然觉得好像隔了很多座山,突然就不想翻山越岭了。