KittenTTS|25MB超轻量文本转语音模型:CPU跑高质量语音

模型简介

KittenTTS是一款开源的轻量级文本转语音(TTS)模型,以“小体积+高性能”为核心优势,模型大小仅25MB,参数量1500万,专为资源受限环境设计。它突破传统TTS模型对GPU的依赖,支持在CPU设备上流畅运行,同时提供媲美专业级的高质量语音合成,是开发者实现轻量化语音交互的理想选择。

核心功能特性

  1. 超轻量级架构
    • 模型体积不足25MB,远低于同类开源TTS模型(如Tacotron2的500MB+),适配嵌入式设备、低配服务器等场景;
    • 参数优化技术降低内存占用,1GB内存设备即可运行。
  2. CPU友好型设计
    • 通过量化压缩与算法优化,无需GPU加速,在Intel/AMD CPU上实现实时语音合成;
    • 支持树莓派等单板计算机,拓展物联网场景应用。
  3. 多音色高质量输出
    • 提供男声、女声、童声等多样音色选项,满足不同场景需求(如故事朗读、客服语音);
    • 语音自然度达4.5/5(MOS评分),接近真人发音水平。
  4. 低延迟实时合成
    • 针对实时交互优化,端到端延迟低于500ms,适合智能音箱、在线客服等需要即时响应的场景。
  5. 开源可定制
    • 提供完整源代码与预训练模型,支持开发者微调音色、调整语速或集成至自有系统。

使用教程(Python环境)

前提条件:Python 3.7+,已安装pip包管理工具。

安装模型库

bash
pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl

基本用法

 

from kittentts import KittenTTS
m = KittenTTS("KittenML/kitten-tts-nano-0.1")

audio = m.generate("This high quality TTS model works without a GPU", voice='expr-voice-2-f' )

# available_voices : [  'expr-voice-2-m', 'expr-voice-2-f', 'expr-voice-3-m', 'expr-voice-3-f',  'expr-voice-4-m', 'expr-voice-4-f', 'expr-voice-5-m', 'expr-voice-5-f' ]

# Save the audio
import soundfile as sf
sf.write('output.wav', audio, 24000)