KittenTTS|25MB超轻量文本转语音模型:CPU跑高质量语音
- AIGC
- 6小时前
- 7热度
- 0评论
模型简介
KittenTTS是一款开源的轻量级文本转语音(TTS)模型,以“小体积+高性能”为核心优势,模型大小仅25MB,参数量1500万,专为资源受限环境设计。它突破传统TTS模型对GPU的依赖,支持在CPU设备上流畅运行,同时提供媲美专业级的高质量语音合成,是开发者实现轻量化语音交互的理想选择。
核心功能特性
- 超轻量级架构:
- 模型体积不足25MB,远低于同类开源TTS模型(如Tacotron2的500MB+),适配嵌入式设备、低配服务器等场景;
- 参数优化技术降低内存占用,1GB内存设备即可运行。
- CPU友好型设计:
- 通过量化压缩与算法优化,无需GPU加速,在Intel/AMD CPU上实现实时语音合成;
- 支持树莓派等单板计算机,拓展物联网场景应用。
- 多音色高质量输出:
- 提供男声、女声、童声等多样音色选项,满足不同场景需求(如故事朗读、客服语音);
- 语音自然度达4.5/5(MOS评分),接近真人发音水平。
- 低延迟实时合成:
- 针对实时交互优化,端到端延迟低于500ms,适合智能音箱、在线客服等需要即时响应的场景。
- 开源可定制:
- 提供完整源代码与预训练模型,支持开发者微调音色、调整语速或集成至自有系统。
使用教程(Python环境)
- 开源地址:
- 最新下载链接:https://github.com/KittenML/KittenTTS/releases
前提条件:Python 3.7+,已安装pip包管理工具。
安装模型库:
bash
pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl
基本用法
from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-nano-0.1")
audio = m.generate("This high quality TTS model works without a GPU", voice='expr-voice-2-f' )
# available_voices : [ 'expr-voice-2-m', 'expr-voice-2-f', 'expr-voice-3-m', 'expr-voice-3-f', 'expr-voice-4-m', 'expr-voice-4-f', 'expr-voice-5-m', 'expr-voice-5-f' ]
# Save the audio
import soundfile as sf
sf.write('output.wav', audio, 24000)