Funasr-Subtitle：纯本地离线音视频转字幕工具，CPU也能10倍实时速度生成SRT字幕

原创发布日期：2026-06-24

在视频创作、课程录制、会议记录等场景中，字幕生成是刚需。传统云服务存在隐私泄露风险、网络延迟和收费问题，而Whisper等模型在中文和粤语场景下表现不佳、速度较慢。今天推荐的Funasr-Subtitle是一款基于阿里巴巴FunASR框架的纯本地、离线Windows音视频转字幕工具，它将彻底改变你对“本地语音识别”的认知——纯CPU即可达到约10倍实时速度，全程不上传任何文件，真正实现隐私安全与效率兼得。

一、Funasr-Subtitle是什么

Funasr-Subtitle是一个由开源社区“365开源计划”推出的Windows便携式音视频转写与字幕生成工具。它基于阿里巴巴达摩院开源的FunASR框架（非自回归端到端语音识别），专门针对中文、粤语等亚洲语言进行了深度优化。与传统逐token解码的Whisper模型不同，FunASR采用非自回归架构，推理速度提升数十倍——即使在没有独立显卡的普通办公电脑上，处理10秒音频也仅需约1秒，且首次下载模型后即可完全离线运行。

该工具以“纯本地、离线、极快、无隐私风险”为核心设计理念。用户只需将MP4、MKV、MP3、M4A、WAV等常见音视频文件拖入界面，即可自动完成VAD语音活动检测、ASR语音识别、标点恢复和智能字幕切分，最终导出带精确时间戳的SRT、VTT、TXT、JSON格式字幕。它对中文和粤语的识别准确率通常优于通用的Whisper模型，且支持英语、日语、韩语，是视频创作者、课程讲师、会议记录员、内容翻译工作者的理想本地工具。

Funasr-Subtitle：纯本地离线音视频转字幕工具，CPU也能10倍实时速度生成SRT字幕

二、软件功能详解

Funasr-Subtitle的功能覆盖了音视频转字幕的完整工作流，以下逐一说明：

1. 多模型支持与热词定制

SenseVoiceSmall（默认）：基于FunASR的量化ONNX模型，兼顾速度与准确率，支持多语言自动识别。
Paraformer-zh：中文高精度模型，适合对中文识别准确率要求极高的场景。
Paraformer-zh热词版：支持用户自定义热词（如专业术语、人名、地名），显著提升特定领域的识别准确率。

2. 多语言自动识别与指定

软件可自动检测音频语言（中文、粤语、英语、日语、韩语），也支持手动指定。对于不同语言，标点处理策略智能适配——中文和日文按标点自然切分，英文则按语音停顿切分避免错误标点导致句子被切碎。

3. 专业级字幕切分与显示控制

生成的字幕不仅是“识别出文字”，更是符合阅读习惯的自然语句字幕：

标点/停顿切句：根据句子结束、子句边界、词边界逐级断行。
显示宽度可调：每行最大显示宽度支持0~100（中日韩字符算1，拉丁/数字算0.5），默认30≈中文30字或英文约60字。
单条字幕时长≤7秒：确保阅读体验舒适。
不拆分英文单词：切分逻辑智能，不会将一个单词分成两行。
时间戳严格单调不重叠：生成的字幕时间轴干净、专业。

4. 三种标点模式自由切换

自动（默认）：中文等自带标点准确的语言自动加句末标点；英文按停顿切分，不强加可能错误的句号。
加句末标点：强制为所有句子添加标点（英文由SenseVoice自带标点处理，已照顾e.g./U.S./Inc.等缩写）。
不加：完全不加任何标点，适合需要后期手动编辑的场景。

5. 多种导出格式与一键复制

支持导出SRT、VTT、TXT、JSON四种格式，覆盖字幕播放、视频剪辑、文本存档等全部需求。同时提供“复制全文”功能，一键获取纯文本结果。

6. 说话人分离（完整版专属）

CUDA版（完整包）支持基于cam++模型的说话人分离功能，自动识别并标注不同说话人（如[spk0]、[spk1]...）。此功能需使用Paraformer模型，有N卡自动GPU加速，无卡回退CPU（速度较慢）。

三、软件特色：为什么它比Whisper更适合中文用户

特色维度	Funasr-Subtitle	传统Whisper方案
推理速度（CPU）	10倍实时速率（非自回归架构），ASR推理本身RTF≈0.02	逐token解码，纯CPU速度显著较慢
中文/粤语精度	基于FunASR针对中文场景训练表现优异	中文场景准确率通常低于FunASR
隐私保护	完全离线，不上传任何音视频文件	本地运行也可，但云端方案存在隐私风险
部署便捷性	解压即用，无需Python环境、无需管理员权限	需Python环境、需依赖管理、需模型下载
智能切分	按标点/停顿+行宽+时间多维度切分，符合阅读习惯	默认无/基础切分
便携包大小	CPU版约340MB（完整版约2.6GB）	依赖+模型通常数GB

便携包选择对比

包名	大小	推理后端	适用人群
`funasr-subtitle-win-x64.zip`	~340 MB	funasr-onnx 纯CPU	绝大多数用户首选（轻量、快速、无需显卡）
`funasr-subtitle-cuda-win-x64.zip`	~2.6 GB	完整funasr torch/CUDA	有NVIDIA显卡用户（支持说话人分离、Paraformer高精度、GPU加速）

四、使用方法

Funasr-Subtitle的使用极其简单，无需任何技术基础：

第一步：下载与解压

前往GitHub Releases页面下载对应便携包。无显卡用户下载CPU版即可（约340MB），有NVIDIA显卡用户可下载CUDA版（约2.6GB，含说话人分离等高级功能）。
注意：CUDA版超过GitHub单文件2GB上限，被拆分为.001和.002两个分卷。下载后需运行随附的merge-cuda-parts.bat（或手动执行copy /b命令）合并出完整zip再解压。CPU版无需此步。
解压到任意文件夹（无需管理员权限，无需安装）。

第二步：首次启动与模型下载

双击funasr-subtitle.exe，程序自动在默认浏览器中打开操作界面。
首次运行时会提示下载默认语音识别模型（SenseVoice约235MB）。点击确认自动下载，之后即可完全离线使用。
注意：程序未签名，Windows SmartScreen会拦截。点击“更多信息”→“仍要运行”即可。

第三步：开始转写

将音视频文件（MP4/MKV/MP3/M4A/WAV等）直接拖入浏览器页面。
配置参数：

语言：自动识别或手动指定（中文/粤语/英语/日语/韩语）。
模型：默认SenseVoiceSmall，如需更高中文精度可选Paraformer-zh（或热词版）。
热词：Paraformer热词版可填写专业术语（如“Transformer”“卷积神经网络”）。
每行最大字数：按需调整显示宽度（默认30，0=不限制）。
标点模式：推荐“自动”。

点击“开始转写”，等待处理完成（10分钟音频预计约1分钟）。

第四步：导出与后续使用

转写完成后可预览字幕内容，支持逐句检查。
点击“导出SRT/VTT/TXT/JSON”或“复制全文”。
生成的.srt文件可直接导入视频剪辑软件（如Premiere、剪映）或投喂给翻译工具（如subtitle-translator）进行翻译——本工具本身不做翻译。

第五步：退出程序

点击浏览器页面右上角的“退出”按钮，或右下角系统托盘图标退出。

五、收费价格与许可

Funasr-Subtitle是一款完全免费的开源软件，基于MIT许可证发布。

零费用：软件本身免费，无试用期、无功能限制、无付费版本。
零订阅：所有功能离线可用，无需云服务订阅。
零增值收费：包括说话人分离在内的所有功能均免费。

唯一的“成本”是首次运行需联网下载约235MB的语音模型（之后永久离线可用）。第三方组件（FunASR、预训练模型、ffmpeg等）遵循各自的开源许可，但无需额外付费。

六、常见问题解答（FAQ）

Q1：我的电脑没有独立显卡，能运行吗？

完全可以。 默认CPU版（约340MB）专为纯CPU环境优化，使用funasr-onnx量化推理，在普通办公电脑上即可达到约10倍实时速度。处理10分钟音频约需1分钟，体验流畅。

Q2：CUDA版和CPU版差别大吗？我该怎么选？

核心差异在于GPU加速与高级功能。如果你只有CPU，请直接下载CPU版（小、快、无需额外配置）。如果你有NVIDIA显卡且需要说话人分离或Paraformer高精度模型，可下载CUDA版（约2.6GB）。CUDA版有N卡自动使用GPU，无卡回退CPU，但体积大得多。

Q3：生成的SRT字幕时间戳准吗？可以用于卡拉OK字幕吗？

时间戳为句级精度，足够制作常规字幕（如课程、会议、视频字幕），但不适合逐词高亮或卡拉OK式效果。 软件在生成时会确保时间戳严格单调不重叠，专业且规范。

Q4：处理英文音频时，为什么有些句子没有句号？

这是已知的设计权衡：SenseVoice和ct-punc模型对英文句末标点的预测不够准确，错位的句号会导致一句被切碎。因此默认“自动”模式下，英文采用“按停顿”方式切分——句子干净但不带句号。如需完整书面标点，可切换到“加句末标点”模式。

Q5：如何提高特定领域的识别准确率（如医学、法律术语）？

选择Paraformer-zh热词版模型，在“热词”输入框中输入专业术语（用空格或逗号分隔），即可显著提升这些词的识别率。

Q6：软件会上传我的音视频文件到服务器吗？

绝对不会。 软件完全离线运行。除首次下载模型需要联网外，之后全程不联网，不上传任何文件。这是其核心设计原则。

Q7：用不了，程序打不开怎么办？

SmartScreen拦截：点击“更多信息”→“仍要运行”。
端口被占用：程序会自动扫描可用端口（默认8765）。
其他问题：可设置环境变量FUNASR_SUBTITLE_FORCE_CPU=1强制CPU模式排障。

七、总结：为什么你需要Funasr-Subtitle

Funasr-Subtitle解决了本地语音识别/字幕生成领域的核心痛点：在线服务的隐私风险被彻底消除，Whisper在中文场景的慢与不准被FunASR的非自回归架构突破，复杂的部署流程被340MB的便携包一劳永逸解决。它让“一键生成字幕”不再是云端特权，而是每位Windows用户触手可及的本地能力。

无论是需要保护商业机密的会议记录，还是需要快速生成字幕的视频创作者，亦或是需要进行多语言转写的研究者——Funasr-Subtitle都提供了速度、精度、隐私、易用性四维度的最优解。而这一切，完全免费，开源透明。