KittenTTS｜25MB超轻量文本转语音模型：CPU跑高质量语音

admin
AIGC
2025-08-16
408热度
0评论

模型简介

KittenTTS是一款开源的轻量级文本转语音（TTS）模型，以“小体积+高性能”为核心优势，模型大小仅25MB，参数量1500万，专为资源受限环境设计。它突破传统TTS模型对GPU的依赖，支持在CPU设备上流畅运行，同时提供媲美专业级的高质量语音合成，是开发者实现轻量化语音交互的理想选择。

核心功能特性

超轻量级架构：
- 模型体积不足25MB，远低于同类开源TTS模型（如Tacotron2的500MB+），适配嵌入式设备、低配服务器等场景；
- 参数优化技术降低内存占用，1GB内存设备即可运行。
CPU友好型设计：
- 通过量化压缩与算法优化，无需GPU加速，在Intel/AMD CPU上实现实时语音合成；
- 支持树莓派等单板计算机，拓展物联网场景应用。
多音色高质量输出：
- 提供男声、女声、童声等多样音色选项，满足不同场景需求（如故事朗读、客服语音）；
- 语音自然度达4.5/5（MOS评分），接近真人发音水平。
低延迟实时合成：
- 针对实时交互优化，端到端延迟低于500ms，适合智能音箱、在线客服等需要即时响应的场景。
开源可定制：
- 提供完整源代码与预训练模型，支持开发者微调音色、调整语速或集成至自有系统。

使用教程（Python环境）

开源地址：https://github.com/KittenML/KittenTTS
最新下载链接：https://github.com/KittenML/KittenTTS/releases

前提条件：Python 3.7+，已安装pip包管理工具。

安装模型库：

bash

pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl

基本用法

from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-nano-0.1")

audio = m.generate("This high quality TTS model works without a GPU", voice='expr-voice-2-f' )

# available_voices : [  'expr-voice-2-m', 'expr-voice-2-f', 'expr-voice-3-m', 'expr-voice-3-f',  'expr-voice-4-m', 'expr-voice-4-f', 'expr-voice-5-m', 'expr-voice-5-f' ]

# Save the audio
import soundfile as sf
sf.write('output.wav', audio, 24000)