2025年 AI工具试用笔记整理

【语音输入法】

搜狗语音输入法：实现语音实时转文字功能，可直接将识别结果填入TXT文件；技术限制：当光标离开TXT文件编辑区域时，语音输入功能自动停止
豆包网页版（www.doubao.com）：

操作流程：需先在浏览器中授权麦克风访问权限，点击界面麦克风图标启动语音输入
优势特性：即使离开Edge浏览器界面，语音输入功能仍可继续工作
待验证项：单次语音输入支持的最大汉字数量尚未明确

豆包会议记录（Windows安装版）：

核心功能：除基础语音转文字外，具备多角色区分功能，可自动整理结构化会议记录

【文生图/图生视频】

豆包（www.doubao.com）：文生图效果优良，综合表现突出
即梦AI（jimeng.jianying.com/ai-tool/home）：

技术特点：AI生成效果优质
服务模式：收费制

可灵AI（app.klingai.com/cn/text-to-video/new）：

功能限制：图生视频功能可用，文生视频功能暂不支持
服务问题：收费标准较高

Liblib.art（B站旗下）：

功能覆盖：支持文生图与图生视频
服务模式：收费制，效果良好
登录方式：支持微信账号登录

阿里通义万相（tongyi.aliyun.com/wan/）：

服务特点：提供免费版本
性能问题：免费版处理速度太慢了

【图生视频-开源】

Stable Diffusion：

技术定位：早期权威AI生成工具，核心功能为文生图片
扩展能力：支持视频生成、图像修复等高级功能
资源渠道：www.stablediffusion.cn（中文社区论坛，无需天梯访问）

FramePack：

开发背景：斯坦福大学开源项目
状态说明：图生视频功能待实际测试

【文生视频】

即梦AI：

技术路径：采用”文生图→图生视频”的两步生成流程
效果评估：自测效果最佳
访问地址：https://jimeng.jianying.com/ai-tool/video/generate

阿里通义万相：

功能特点：支持中文汉字（很多AI生成的作品不支持汉字）
性能问题：免费版本处理速度很慢
访问地址：https://tongyi.aliyun.com/wan/

【文转音频工具选型】

https://ttsmaker.cn/

核心优势：免费使用，功能实用
特色功能：提供多语音选项
综合评价：当前自测最佳

http://www.text-to-speech.cn/

服务特点：免费使用，功能实用

剪映：

功能路径：文本→朗读（插入音频轨道）
特色功能：支持本人音色克隆
限制说明：有限免费

迈恩配音小程序：

效果评价：表现良好
服务状态：暂时提供免费使用

【声音克隆】

剪映

功能流程：文本-朗读(插入音频轨道)，需预先提交本人音色样本文件
性能表现：合成效果尚可，有限免费使用额度
功能局限：不适合制作有声故事类作品
应用场景：简单语音合成需求，不建议用于专业级有声内容创作

GPT-SoVITS v4

基础信息：开源可以自建平台，软件包大小约7G，轻量级应用(v4版本稳定性较v3提升)
技术要求：需VisualC++环境支持，依赖ffmpeg解码器(需将ffmpeg.exe和ffprobe.exe放置于根目录)
硬件配置：相对较低，需6GB显存以上GPU，模型训练需NVIDIA显卡支持
功能局限：合成语音自然度不足，长文本会出现吞字现象，单次合成限制在30秒以内
部署资源：https://github.com/RVC-Boss/GPT-SoVITS
扩展探索：研究在移动设备上通过conda环境安装部署的可行性方案

F5-TTS

基础信息：上海交通大学开源项目，支持长文本合成，处理速度较慢(约1分钟处理5个字)
项目地址：https://github.com/SWivid/F5-TTS
项目版本：B站月下项目版本，较王知风版本生成的语音更有原味
部署注意事项：
- 解压过程可能出现报错但不影响运行
- 界面为原版未修改样式
- 需确保合成前参考语音与参考文本内容完全匹配，否则将延长文本生成时间
- 参考文本必须使用中文标点符号
- 参考音频支持wav、flac格式
使用规范：
- 合成效果与参考语音及文本质量高度相关
- 情绪表达能力有限，主要表现为平淡宣读风格
- 文本中的数字需进行特殊预处理，否则会被合成为英文发音
- 合成过程需要保持网络连接
版本对比：
- B站王知风项目：提供F5.bat(速度快，适合个人使用)和E2.bat(精度高，适合学术研究)，添加了较多个人定制内容
- V6.5文抑青年整合包：体积较大，界面整洁，支持本地API调用，速度和效果略有提升

ViiTor在线声音克隆（账号sandal@jh1999.cn）

访问地址：www.viitor.com
性能评估：合成效果一般，适合简单使用

【字幕工具使用指南】
*剪映(抖音)

版本说明：剪映2.3及更早版本的字幕功能已失效，且不支持输出srt格式文件；新版剪映每月提供5次免费字幕生成额度。
功能特点：可通过”智能文本–文稿匹配”功能生成字幕，操作流程相对繁琐但功能可用。

*必剪(B站出品)

功能对比：剪辑功能略逊于剪映，但完全免费使用。
字幕处理：不支持直接导出字幕文件，字幕以json格式存储于自定义草稿目录中。
格式转换：可用在线工具将json格式转换为srt字幕文件：https://ganlvtech.github.io/bcut-srt-ass/
版本建议：BCut必剪3.3.9版本运行速度明显优于3.5.0版本；生成的srt字幕文件可直接导入剪映使用。

*FunClip阿里音视频裁剪与提取字幕工具

性能说明：启动速度较慢，建议选用v1版本。
官方地址：https://github.com/modelscope/FunClip
环境要求：必须按默认路径安装ImageMagick.exe才能正常启动；程序内置ffmpeg组件。
硬件要求：v1版本需要CUDA11.8+支持，v2版本则需要更高版本的CUDA支持；若无CUDA环境，程序运行会非常缓慢。
优化设置：为防止自动检查升级，需修改文件 auto_model.py，将check_for_update(disable=kwargs.get(“disable_update”, True))
文件管理：v2版本中\cache\hub目录下的文件请勿删除，否则下次启动会重新下载；临时文件会大量生成在C:\Users\Administrator\AppData\Local\Temp\gradio目录。
功能特点：视频分离字幕效果良好，支持区分说话人；支持wav格式音频，mp3格式存在兼容性问题。
版本对比：V1版整合度更高，运行更稳定，但仍mp3还是不能分离出字幕。

*SubtitleEdit 开源字幕程序

功能特点：功能强大但处理速度较慢，建议仅在制作双语字幕时使用。
使用说明：详细操作指南参见【说明SubtitleEdit.txt】文件。

优选推荐：必剪适用于常规剪辑，SubtitleEdit适用于双语字幕制作，产量较少时选用剪映。

【换脸工具-开源方案】
*FaceFusion

硬件适配：A卡与N卡需使用不同的整合包（待测试）。
项目地址：https://github.com/facefusion/facefusion

*Rope珍珠版(Pearl)

硬件要求：相比欧泊版(Opal)对硬件配置要求更高（待测试）。

【换脸与照片合成-在线免费工具】

https://www.deepswapper.com/zh：
效果最佳但处理速度较慢，多脸处理需付费，经自测为最优选择。
https://aifacesswap.com/zh：表现良好
https://www.pica-ai.com/：需天梯访部，提供限量免费额度。
https://www.flexclip.com/：需天梯访问，适用于AI企业宣传片制作。

【视频去水印-在线工具】

https://tools.kalvinbg.cn/media/video_rmwatermark：自测效果良好。

【AI翻译工具】
*沉浸式翻译(在线免费)

推荐指数：自测最佳。
官方地址：https://immersivetranslate.com/zh-Hans/
功能特点：支持PDF文件翻译且完全免费，提供Edge浏览器插件。

【AI编程辅助工具】
*Trae CN

功能模式：提供IDE集成和SOLO独立两种使用模式。
费用说明：目前完全免费。
开发主体：字节跳动出品。
使用体验：表现优秀，推荐使用。

*Cursor

适用人群：适合习惯VS Code的独立开发者，老美的产品。
费用模式：按月订阅收费，价格较高。

【AI在线应用平台】

https://www.doubao.com/chat/
推荐指数：自测目前最佳。
功能特点：功能全面，回答质量高且切合实际需求。
使用优势：支持对话置顶和收藏功能，重要对话可作为笔记使用。
https://yuanbao.tencent.com/
推荐指数：自测排名第二。
特色功能：对基金的分析和建议相对实用。
使用优势：支持对话置顶，方便作为笔记使用。
功能局限：可删除整篇对话，但不支持删除对话中的特定段落。
https://chat.baidu.com/
使用历史：最早使用的AI平台，自测排名第三。
功能特点：功能齐全，图片编辑、抠图、去水印等功能比专业网站更好用。
主要缺点：信息收集太高，对话历史管理稍显杂乱。
https://www.qianwen.com/
使用评价：广告说的很神，但实在没有发现什么优点。

【AI开发环境支持】
*Anaconda/miniconda 虚拟环境

下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
下载注意：会检测线路是否在进行大量下载。
应用场景：适用于将GitHub开源项目打包为Windows整合包。
安装建议：软件体积较大，建议不要安装在系统C盘。
与venv Python虚拟环境的区别：
1. 环境依赖：venv必须依赖系统Python环境，而conda可创建包含不同Python版本的独立环境。
2. 安装效率：conda安装包与依赖时速度更快，采用预编译二进制包；venv则需要从源码编译安装。
3. 包管理范围：conda环境包含数据科学/机器学习等非Python包。

*CUDA下载

重要性：大多数AI应用需要N卡的CUDA支持。
下载地址：https://developer.nvidia.com/cuda-downloads

===决定放弃的软件详细评估报告===
*EchoMimic（蚂蚁集团开源AI数字人）

评估结论：无需要，不测试

*PDFMathTranslate（PDF-AI翻译工具）

评估结论：质量太差，决定放弃
基础信息：开源项目：github.com/Byaidu/PDFMathTranslate/blob/main/docs/README zh-CN.md 介绍
运行要求：解压后运行 build\pdf2zh.exe；若出现闪退需补充安装vc_redist.x64.exe；
必须文件：offline_assets_41a6453e2a1d7a6d1ad49f39979aa61960fcdc206a7962f655a8642b66b730cf.zip
技术特点：运行时在C:\Users\Administrator.cache产生大量临时文件；输出目录在build\pdf2zh_fiels，生成三个文件（原文件、_dual双语版、_mono译文版）
对比评估：与沉浸式翻译(immersivetranslate.com)相比质量差距显著，功能体验不佳

*ChatTTSPlus（ChatTTS扩展版）

评估结论：运行失败，决定放弃
功能描述：支持语音克隆、TensorRT加速和移动模型部署等功能
资源信息：https://github.com/warmshao/ChatTTSPlus；
整合版：https://drive.usercontent.google.com/download?id=1yOnU5dRTJvFnc4wyw02nAeJH5_FgNod2&export=download
放弃理由：B站缺乏相关介绍文档，实际运行测试失败

*Fish Speech（FishAudio开源语音合成）

评估结论：测试后决定放弃
基础信息：FishAudio开发，支持中、英、日多语言；
项目地址：https://github.com/fishaudio/fish-speech
环境要求：Windows系统需Python 3.8及以上版本和Git；Linux环境性能更优；CUDA支持为可选推荐配置
测试情况：

声音质量：个人声音克隆效果尚可，但语音语调较为平铺直叙
整合包问题：(王知风)整合包解压时出现.exe错误，但仍可启动运行
功能对比：运行方案与F5-TTS类似，输出结果均为audio.wav格式
性能问题：生成速度比F5-TTS更慢，且生成过程需要联网

部署流程：

创建并激活虚拟环境：conda create -n fish_py310_env python=3.10 -y；conda activate fish_py310_env
获取代码：git clone https://github.com/fishaudio/fish-speech.git；cd fish-speech
安装依赖：pip install -e .
准备模型：mkdir checkpoints & cd checkpoints；git clone https://www.modelscope.cn/fishaudio/fish-speech-1.5.git
启动应用：python tools/run_webui.py

*Real-Time Voice Cloning（微软实时语音克隆）

评估结论：无法获取Windows整合包，决定放弃
功能特点：支持情感韵律控制
环境要求：Windows系统需Python 3.7+、ffmpeg和PyTorch；CUDA支持为可选推荐配置
项目地址：https://github.com/CorentinJ/Real-Time-Voice-Cloning
额外说明：支持中文需寻找其他项目，不测试
放弃理由：未找到适用于Windows系统的整合包，部署门槛过高

*IndexTTS（B站开源语音克隆）

评估结论：本机硬件性能不足，无法测试，决定放弃
功能特点：支持纯文本、带拼音的混合文本输入；支持实时语音合成；注重准确发音
项目地址：https://github.com/index-tts/index-tts
环境要求：需要GPU支持(CUDA)
放弃理由：本机N卡版本过旧，无法满足运行要求

*CosyVoice V2（阿里通义带情绪人声克隆）

评估结论：硬件不支持，决定不测试
产品定位：企业级解决方案，模型大小5.9G
功能特点：与微软Azure并列行业标杆；适合客服系统；支持四川话、上海话、粤语等方言；强调情感的自然表达
项目地址：github.com/FunAudioLLM/CosyVoice
放弃理由：必须使用N卡支持，本机硬件不满足要求

【其它类似软件】

CrazyTalk

照片动画化工具，不是AI方案
定位：目前最佳的静态照片人脸活动处理软件
配置要求：破解版需修改系统HOST文件以规避官网验证检查
官网地址：https://www.reallusion.com/ 账号关联Facebook账号
使用优先级：推荐使用

Cartoon Animator4

定位：卡通设计专业软件，同属Reallusion公司产品体系
当前状态：未进行功能测试

Clipchamp视频编辑器(Windows 10/11平台)

在线应用：https://www.microsoft365.com/，需使用 sandalxiao@sp.com.hk账号登录
功能特点：
- 优势功能：
- 免费生成字幕效果优良；
- 支持特定软件窗口录屏；
- 可导入摄像头视频；
- 提供文字转语音功能(录像和创建菜单场景)
- 限制条件：
- 必须具备稳定海外网络连接，无海外线路不建议使用
- 录屏功能运行速度缓慢
- 文字转语音功能，好像不支持克隆自已的音色
- 加载与导出处理速度较慢，存在程序崩溃风险
- 全部操作需在线完成，无本地处理能力
- 中文字体选择受限，仅支持OpenSans/NotoSansTC字体
使用建议：根据网络条件选择性使用，优先推荐其字幕生成功能

BG-removal图片背景清除

功能评估：背景清除效果一般，性能不及百度抠图工具
处理建议：放弃使用，建议优先选择百度抠图工具

绘美声音

访问地址：https://clonevoice.net
功能优势：语音合成效果优良，支持个人音色克隆
服务模式：付费服务，公共音色推荐”晓筱”，逼真度高

亚马逊AWS

地址：https://aws.amazon.com
限制条件：需Visa卡注册验证
处理建议：暂不进行测试评估

VideoSrt音频转字幕

综合评估：性价比不足，不值得投入使用

工作原理：需配合阿里云或百度AI服务使用

服务条款：提供免费三个月试用期

发表评论 取消回复

发表评论取消回复