2025年 AI工具试用笔记整理

【语音输入法】

  1. 搜狗语音输入法:实现语音实时转文字功能,可直接将识别结果填入TXT文件;技术限制:当光标离开TXT文件编辑区域时,语音输入功能自动停止
  2. 豆包网页版(www.doubao.com):
  • 操作流程:需先在浏览器中授权麦克风访问权限,点击界面麦克风图标启动语音输入
  • 优势特性:即使离开Edge浏览器界面,语音输入功能仍可继续工作
  • 待验证项:单次语音输入支持的最大汉字数量尚未明确
  1. 豆包会议记录(Windows安装版):
  • 核心功能:除基础语音转文字外,具备多角色区分功能,可自动整理结构化会议记录

【文生图/图生视频】

  1. 豆包(www.doubao.com):文生图效果优良,综合表现突出
  2. 即梦AI(jimeng.jianying.com/ai-tool/home):
  • 技术特点:AI生成效果优质
  • 服务模式:收费制
  1. 可灵AI(app.klingai.com/cn/text-to-video/new):
  • 功能限制:图生视频功能可用,文生视频功能暂不支持
  • 服务问题:收费标准较高
  1. Liblib.art(B站旗下):
  • 功能覆盖:支持文生图与图生视频
  • 服务模式:收费制,效果良好
  • 登录方式:支持微信账号登录
  1. 阿里通义万相(tongyi.aliyun.com/wan/):
  • 服务特点:提供免费版本
  • 性能问题:免费版处理速度太慢了

【图生视频-开源】

  1. Stable Diffusion:
  • 技术定位:早期权威AI生成工具,核心功能为文生图片
  • 扩展能力:支持视频生成、图像修复等高级功能
  • 资源渠道:www.stablediffusion.cn(中文社区论坛,无需天梯访问)
  1. FramePack:
  • 开发背景:斯坦福大学开源项目
  • 状态说明:图生视频功能待实际测试

【文生视频】

  1. 即梦AI:
  • 技术路径:采用”文生图→图生视频”的两步生成流程
  • 效果评估:自测效果最佳
  • 访问地址:https://jimeng.jianying.com/ai-tool/video/generate
  1. 阿里通义万相:
  • 功能特点:支持中文汉字(很多AI生成的作品不支持汉字)
  • 性能问题:免费版本处理速度很慢
  • 访问地址:https://tongyi.aliyun.com/wan/

【文转音频工具选型】

  1. https://ttsmaker.cn/
  • 核心优势:免费使用,功能实用
  • 特色功能:提供多语音选项
  • 综合评价:当前自测最佳
  1. http://www.text-to-speech.cn/
  • 服务特点:免费使用,功能实用
  1. 剪映:
  • 功能路径:文本→朗读(插入音频轨道)
  • 特色功能:支持本人音色克隆
  • 限制说明:有限免费
  1. 迈恩配音小程序:
  • 效果评价:表现良好
  • 服务状态:暂时提供免费使用

【声音克隆】

  1. 剪映
  • 功能流程:文本-朗读(插入音频轨道),需预先提交本人音色样本文件
  • 性能表现:合成效果尚可,有限免费使用额度
  • 功能局限:不适合制作有声故事类作品
  • 应用场景:简单语音合成需求,不建议用于专业级有声内容创作
  1. GPT-SoVITS v4
  • 基础信息:开源可以自建平台,软件包大小约7G,轻量级应用(v4版本稳定性较v3提升)
  • 技术要求:需VisualC++环境支持,依赖ffmpeg解码器(需将ffmpeg.exe和ffprobe.exe放置于根目录)
  • 硬件配置:相对较低,需6GB显存以上GPU,模型训练需NVIDIA显卡支持
  • 功能局限:合成语音自然度不足,长文本会出现吞字现象,单次合成限制在30秒以内
  • 部署资源:https://github.com/RVC-Boss/GPT-SoVITS
  • 扩展探索:研究在移动设备上通过conda环境安装部署的可行性方案
  1. F5-TTS
  • 基础信息:上海交通大学开源项目,支持长文本合成,处理速度较慢(约1分钟处理5个字)
  • 项目地址:https://github.com/SWivid/F5-TTS
  • 项目版本:B站月下项目版本,较王知风版本生成的语音更有原味
  • 部署注意事项:
    • 解压过程可能出现报错但不影响运行
    • 界面为原版未修改样式
    • 需确保合成前参考语音与参考文本内容完全匹配,否则将延长文本生成时间
    • 参考文本必须使用中文标点符号
    • 参考音频支持wav、flac格式
  • 使用规范:
    • 合成效果与参考语音及文本质量高度相关
    • 情绪表达能力有限,主要表现为平淡宣读风格
    • 文本中的数字需进行特殊预处理,否则会被合成为英文发音
    • 合成过程需要保持网络连接
  • 版本对比:
    • B站王知风项目:提供F5.bat(速度快,适合个人使用)和E2.bat(精度高,适合学术研究),添加了较多个人定制内容
    • V6.5文抑青年整合包:体积较大,界面整洁,支持本地API调用,速度和效果略有提升
  1. ViiTor在线声音克隆(账号sandal@jh1999.cn)
  • 访问地址:www.viitor.com
  • 性能评估:合成效果一般,适合简单使用

【字幕工具使用指南】
*剪映(抖音)

  • 版本说明:剪映2.3及更早版本的字幕功能已失效,且不支持输出srt格式文件;新版剪映每月提供5次免费字幕生成额度。
  • 功能特点:可通过”智能文本–文稿匹配”功能生成字幕,操作流程相对繁琐但功能可用。

*必剪(B站出品)

  • 功能对比:剪辑功能略逊于剪映,但完全免费使用。
  • 字幕处理:不支持直接导出字幕文件,字幕以json格式存储于自定义草稿目录中。
  • 格式转换:可用在线工具将json格式转换为srt字幕文件:https://ganlvtech.github.io/bcut-srt-ass/
  • 版本建议:BCut必剪3.3.9版本运行速度明显优于3.5.0版本;生成的srt字幕文件可直接导入剪映使用。

*FunClip阿里音视频裁剪与提取字幕工具

  • 性能说明:启动速度较慢,建议选用v1版本。
  • 官方地址:https://github.com/modelscope/FunClip
  • 环境要求:必须按默认路径安装ImageMagick.exe才能正常启动;程序内置ffmpeg组件。
  • 硬件要求:v1版本需要CUDA11.8+支持,v2版本则需要更高版本的CUDA支持;若无CUDA环境,程序运行会非常缓慢。
  • 优化设置:为防止自动检查升级,需修改文件 auto_model.py,将check_for_update(disable=kwargs.get(“disable_update”, True))
  • 文件管理:v2版本中\cache\hub目录下的文件请勿删除,否则下次启动会重新下载;临时文件会大量生成在C:\Users\Administrator\AppData\Local\Temp\gradio目录。
  • 功能特点:视频分离字幕效果良好,支持区分说话人;支持wav格式音频,mp3格式存在兼容性问题。
  • 版本对比:V1版整合度更高,运行更稳定,但仍mp3还是不能分离出字幕。

*SubtitleEdit 开源字幕程序

  • 功能特点:功能强大但处理速度较慢,建议仅在制作双语字幕时使用。
  • 使用说明:详细操作指南参见【说明SubtitleEdit.txt】文件。

优选推荐:必剪适用于常规剪辑,SubtitleEdit适用于双语字幕制作,产量较少时选用剪映。

【换脸工具-开源方案】
*FaceFusion

  • 硬件适配:A卡与N卡需使用不同的整合包(待测试)。
  • 项目地址:https://github.com/facefusion/facefusion

*Rope珍珠版(Pearl)

  • 硬件要求:相比欧泊版(Opal)对硬件配置要求更高(待测试)。

【换脸与照片合成-在线免费工具】

  • https://www.deepswapper.com/zh:
    效果最佳但处理速度较慢,多脸处理需付费,经自测为最优选择。
  • https://aifacesswap.com/zh:表现良好
  • https://www.pica-ai.com/:需天梯访部,提供限量免费额度。
  • https://www.flexclip.com/:需天梯访问,适用于AI企业宣传片制作。

【视频去水印-在线工具】

  • https://tools.kalvinbg.cn/media/video_rmwatermark:自测效果良好。

【AI翻译工具】
*沉浸式翻译(在线免费)

  • 推荐指数:自测最佳。
  • 官方地址:https://immersivetranslate.com/zh-Hans/
  • 功能特点:支持PDF文件翻译且完全免费,提供Edge浏览器插件。

【AI编程辅助工具】
*Trae CN

  • 功能模式:提供IDE集成和SOLO独立两种使用模式。
  • 费用说明:目前完全免费。
  • 开发主体:字节跳动出品。
  • 使用体验:表现优秀,推荐使用。

*Cursor

  • 适用人群:适合习惯VS Code的独立开发者,老美的产品。
  • 费用模式:按月订阅收费,价格较高。

【AI在线应用平台】

  • https://www.doubao.com/chat/
  • 推荐指数:自测目前最佳。
  • 功能特点:功能全面,回答质量高且切合实际需求。
  • 使用优势:支持对话置顶和收藏功能,重要对话可作为笔记使用。
  • https://yuanbao.tencent.com/
  • 推荐指数:自测排名第二。
  • 特色功能:对基金的分析和建议相对实用。
  • 使用优势:支持对话置顶,方便作为笔记使用。
  • 功能局限:可删除整篇对话,但不支持删除对话中的特定段落。
  • https://chat.baidu.com/
  • 使用历史:最早使用的AI平台,自测排名第三。
  • 功能特点:功能齐全,图片编辑、抠图、去水印等功能比专业网站更好用。
  • 主要缺点:信息收集太高,对话历史管理稍显杂乱。
  • https://www.qianwen.com/
  • 使用评价:广告说的很神,但实在没有发现什么优点。

【AI开发环境支持】
*Anaconda/miniconda 虚拟环境

  • 下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
  • 下载注意:会检测线路是否在进行大量下载。
  • 应用场景:适用于将GitHub开源项目打包为Windows整合包。
  • 安装建议:软件体积较大,建议不要安装在系统C盘。
  • 与venv Python虚拟环境的区别:
    1. 环境依赖:venv必须依赖系统Python环境,而conda可创建包含不同Python版本的独立环境。
    2. 安装效率:conda安装包与依赖时速度更快,采用预编译二进制包;venv则需要从源码编译安装。
    3. 包管理范围:conda环境包含数据科学/机器学习等非Python包。

*CUDA下载

  • 重要性:大多数AI应用需要N卡的CUDA支持。
  • 下载地址:https://developer.nvidia.com/cuda-downloads

===决定放弃的软件详细评估报告===
*EchoMimic(蚂蚁集团开源AI数字人)

  • 评估结论:无需要,不测试

*PDFMathTranslate(PDF-AI翻译工具)

  • 评估结论:质量太差,决定放弃
  • 基础信息:开源项目:github.com/Byaidu/PDFMathTranslate/blob/main/docs/README zh-CN.md 介绍
  • 运行要求:解压后运行 build\pdf2zh.exe;若出现闪退需补充安装vc_redist.x64.exe;
  • 必须文件:offline_assets_41a6453e2a1d7a6d1ad49f39979aa61960fcdc206a7962f655a8642b66b730cf.zip
  • 技术特点:运行时在C:\Users\Administrator.cache产生大量临时文件;输出目录在build\pdf2zh_fiels,生成三个文件(原文件、_dual双语版、_mono译文版)
  • 对比评估:与沉浸式翻译(immersivetranslate.com)相比质量差距显著,功能体验不佳

*ChatTTSPlus(ChatTTS扩展版)

  • 评估结论:运行失败,决定放弃
  • 功能描述:支持语音克隆、TensorRT加速和移动模型部署等功能
  • 资源信息:https://github.com/warmshao/ChatTTSPlus;
  • 整合版:https://drive.usercontent.google.com/download?id=1yOnU5dRTJvFnc4wyw02nAeJH5_FgNod2&export=download
  • 放弃理由:B站缺乏相关介绍文档,实际运行测试失败

*Fish Speech(FishAudio开源语音合成)

  • 评估结论:测试后决定放弃
  • 基础信息:FishAudio开发,支持中、英、日多语言;
  • 项目地址:https://github.com/fishaudio/fish-speech
  • 环境要求:Windows系统需Python 3.8及以上版本和Git;Linux环境性能更优;CUDA支持为可选推荐配置
  • 测试情况:
  1. 声音质量:个人声音克隆效果尚可,但语音语调较为平铺直叙
  2. 整合包问题:(王知风)整合包解压时出现.exe错误,但仍可启动运行
  3. 功能对比:运行方案与F5-TTS类似,输出结果均为audio.wav格式
  4. 性能问题:生成速度比F5-TTS更慢,且生成过程需要联网
  • 部署流程:
  1. 创建并激活虚拟环境:conda create -n fish_py310_env python=3.10 -y;conda activate fish_py310_env
  2. 获取代码:git clone https://github.com/fishaudio/fish-speech.git;cd fish-speech
  3. 安装依赖:pip install -e .
  4. 准备模型:mkdir checkpoints & cd checkpoints;git clone https://www.modelscope.cn/fishaudio/fish-speech-1.5.git
  5. 启动应用:python tools/run_webui.py

*Real-Time Voice Cloning(微软实时语音克隆)

  • 评估结论:无法获取Windows整合包,决定放弃
  • 功能特点:支持情感韵律控制
  • 环境要求:Windows系统需Python 3.7+、ffmpeg和PyTorch;CUDA支持为可选推荐配置
  • 项目地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
  • 额外说明:支持中文需寻找其他项目,不测试
  • 放弃理由:未找到适用于Windows系统的整合包,部署门槛过高

*IndexTTS(B站开源语音克隆)

  • 评估结论:本机硬件性能不足,无法测试,决定放弃
  • 功能特点:支持纯文本、带拼音的混合文本输入;支持实时语音合成;注重准确发音
  • 项目地址:https://github.com/index-tts/index-tts
  • 环境要求:需要GPU支持(CUDA)
  • 放弃理由:本机N卡版本过旧,无法满足运行要求

*CosyVoice V2(阿里通义带情绪人声克隆)

  • 评估结论:硬件不支持,决定不测试
  • 产品定位:企业级解决方案,模型大小5.9G
  • 功能特点:与微软Azure并列行业标杆;适合客服系统;支持四川话、上海话、粤语等方言;强调情感的自然表达
  • 项目地址:github.com/FunAudioLLM/CosyVoice
  • 放弃理由:必须使用N卡支持,本机硬件不满足要求

【其它类似软件】

  1. CrazyTalk
  • 照片动画化工具,不是AI方案
  • 定位:目前最佳的静态照片人脸活动处理软件
  • 配置要求:破解版需修改系统HOST文件以规避官网验证检查
  • 官网地址:https://www.reallusion.com/ 账号关联Facebook账号
  • 使用优先级:推荐使用
  1. Cartoon Animator4
  • 定位:卡通设计专业软件,同属Reallusion公司产品体系
  • 当前状态:未进行功能测试
  1. Clipchamp视频编辑器(Windows 10/11平台)
  • 在线应用:https://www.microsoft365.com/,需使用 sandalxiao@sp.com.hk账号登录
  • 功能特点:
    • 优势功能:
    • 免费生成字幕效果优良;
    • 支持特定软件窗口录屏;
    • 可导入摄像头视频;
    • 提供文字转语音功能(录像和创建菜单场景)
    • 限制条件:
    • 必须具备稳定海外网络连接,无海外线路不建议使用
    • 录屏功能运行速度缓慢
    • 文字转语音功能,好像不支持克隆自已的音色
    • 加载与导出处理速度较慢,存在程序崩溃风险
    • 全部操作需在线完成,无本地处理能力
    • 中文字体选择受限,仅支持OpenSans/NotoSansTC字体
  • 使用建议:根据网络条件选择性使用,优先推荐其字幕生成功能
  1. BG-removal图片背景清除
  • 功能评估:背景清除效果一般,性能不及百度抠图工具
  • 处理建议:放弃使用,建议优先选择百度抠图工具
  1. 绘美声音
  • 访问地址:https://clonevoice.net
  • 功能优势:语音合成效果优良,支持个人音色克隆
  • 服务模式:付费服务,公共音色推荐”晓筱”,逼真度高
  1. 亚马逊AWS
  • 地址:https://aws.amazon.com
  • 限制条件:需Visa卡注册验证
  • 处理建议:暂不进行测试评估
  1. VideoSrt音频转字幕

综合评估:性价比不足,不值得投入使用

工作原理:需配合阿里云或百度AI服务使用

服务条款:提供免费三个月试用期

发表评论