新Stable Diffuison - 最新版
深度学习文本到图像生成模型
GPT-SoVITS是一个开源的声音克隆项目,结合了GPT(生成预训练变换器)模型和SoVITS(语音到视频声音转换系统)技术。它能够通过少量的样本数据实现高质量的语音克隆和文本到语音转换(TTS)。其核心功能包括音色克隆,支持多种语言的合成,如中文、英文、日文等。GPT-SoVITS于2024年发布,利用深度学习框架,实现了文本与个性化声音的高保真映射。