audio-generation

Here are 205 public repositories matching this topic...

mudler / LocalAI

LocalAI is the open-source AI engine. Run any model - LLMs, vision, voice, image, video - on any hardware. No GPU required.

api ai mcp decentralized text-generation distributed tts image-generation llama object-detection agents mamba libp2p audio-generation llm stable-diffusion musicgen rerank

Updated Mar 25, 2026
Go

FunAudioLLM / CosyVoice

Star

Multi-lingual large voice generation model, providing inference, training and deployment full-stack ability.

python text-to-speech japanese chatbot multi-lingual tts english chinese korean cantonese natural-language-generation cross-lingual fine-grained fine-tuning voice-cloning audio-generation chatgpt gpt-4o cosyvoice

Updated Mar 16, 2026
Python

Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development.

text-to-speech audit speech-synthesis audio-synthesis music-generation voice-conversion vocoder emilia text-to-audio fastspeech2 vits audio-generation singing-voice-conversion vall-e audioldm naturalspeech2 maskgct

Updated Mar 25, 2026
Python

multimodal-art-projection / YuE

Star

YuE: Open Full-song Music Generation Foundation Model, something similar to Suno.ai but open

ai deep-learning llama gpt music-generation voice-cloning huggingface style-transfers audio-generation foundation-models llms

Updated Jun 4, 2025
Python

vllm-project / vllm-omni

Sponsor

Star

A framework for efficient model inference with omni-modality models

inference pytorch transformer image-generation diffusion model-serving multimodal video-generation audio-generation

Updated Mar 26, 2026
Python

rsxdalv / TTS-WebUI

Star

A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice, XTTSv2, DIA, Kokoro, OpenVoice, ParlerTTS, Stable Audio, MMS, StyleTTS2, MAGNet, AudioGen, MusicGen, Tortoise, RVC, Vocos, Demucs, SeamlessM4T, and Bark!

music text-to-speech ai generator tts rvc gradio openvoice openai-api audio-generation generative-ai tortoise-tts musicgen vocos styletts2 cosyvoice ace-step

Updated Mar 21, 2026
TypeScript

haoheliu / AudioLDM

Sponsor

Star

AudioLDM: Generate speech, sound effects, music and beyond, with text.

audio-generation

Updated Jun 25, 2025
Python

haoheliu / AudioLDM2

Sponsor

Star

Text-to-Audio/Music Generation

audio-generation

Updated Sep 29, 2024
Python

archinetai / audio-diffusion-pytorch

Sponsor

Star

Audio generation using diffusion models, in PyTorch.

deep-learning artificial-intelligence denoising-diffusion audio-generation

Updated Jun 12, 2023
Python

archinetai / audio-ai-timeline

Sponsor

Star

A timeline of the latest AI models for audio generation, starting in 2023!

machine-learning artificial-intelligence audio-generation

Updated Jan 4, 2024

lucidrains / soundstorm-pytorch

Star

Implementation of SoundStorm, Efficient Parallel Audio Generation from Google Deepmind, in Pytorch

deep-learning transformers artificial-intelligence attention-mechanism non-autoregressive audio-generation

Updated Apr 24, 2025
Python

FunAudioLLM / FunMusic

Star

A fundamental toolkit designed for music, song, and audio generation

pytorch music-generation audio-processing audio-generation

Updated May 20, 2025
Python

declare-lab / tango

Star

A family of diffusion models for text-to-audio generation.

language-models diffusion diffusion-models text-to-audio audio-generation large-language-models

Updated Jul 29, 2025
Python

NVIDIA / BigVGAN

Star

Official PyTorch implementation of BigVGAN (ICLR 2023)

speech-synthesis audio-synthesis music-synthesis neural-vocoder singing-voice-synthesis audio-generation

Updated Sep 5, 2024
Python

devnen / Chatterbox-TTS-Server

Star

Self-host the powerful Chatterbox TTS model. This server offers a user-friendly Web UI, flexible API endpoints (incl. OpenAI compatible), predefined voices, voice cloning, and large audiobook-scale text processing. Runs accelerated on NVIDIA (CUDA), AMD (ROCm), and CPU.

python text-to-speech ai cuda web-ui api-server pytorch tts speech-synthesis rocm chatterbox speech-synthesis-api tts-api voice-cloning fastapi huggingface openai-api audio-generation chatterbox-tts

Updated Feb 12, 2026
Python

Yuan-ManX / ai-audio-datasets

Star

AI Audio Datasets (AI-ADS) 🎵, including Speech, Music, and Sound Effects, which can provide training data for Generative AI, AIGC, AI model training, intelligent audio tool development, and audio applications.

audio machine-learning deep-learning audio-effect artificial-intelligence datasets music-generation audio-generation aigc

Updated Jul 8, 2025

diodiogod / TTS-Audio-Suite

Star

A ComfyUI custom node integration for multi-engine multi-language Text-to-Speech and Voice Conversion. Supports: RVC, Echo-TTS, Qwen3-TTS, Cozy Voice 3, Step Audio EditX, IndexTTS-2, Chatterbox (classic and multilingual 23-lang), F5-TTS, Higgs Audio 2 and VibeVoice with unlimited text length, SRT timing, Character support, and many audio tools

Updated Mar 21, 2026
Python

fluxions-ai / vui

Star

100M parameter lightweight conversational text-to-speech model with breaths, laughter, multi-speaker dialogue, voice cloning, and streaming. Llama-based, on-device.

lightweight text-to-speech streaming pytorch tts speech-synthesis llama multi-speaker conversational-ai on-device voice-cloning edge-ai voice-ai audio-generation

Updated Feb 25, 2026
Python

researchmm / MM-Diffusion

Star

[CVPR'23] MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

video-generation multi-modality diffusion-models content-creation audio-generation

Updated Jun 5, 2024
Python

Yuan-ManX / audio-development-tools

Star

Audio Development Tools (ADT) is a project for advancing sound, speech, and music technologies, featuring components for machine learning, sound synthesis, speech and music generation, signal processing, game audio, digital audio workstations (DAWs), and more.

audio music machine-learning deep-learning signal-processing dsp speech artificial-intelligence speech-synthesis music-generation speech-processing audio-processing audio-generation

Updated Jul 11, 2025

Improve this page

Add a description, image, and links to the audio-generation topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the audio-generation topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

audio-generation

Here are 205 public repositories matching this topic...

mudler / LocalAI

FunAudioLLM / CosyVoice

open-mmlab / Amphion

multimodal-art-projection / YuE

vllm-project / vllm-omni

rsxdalv / TTS-WebUI

haoheliu / AudioLDM

haoheliu / AudioLDM2

archinetai / audio-diffusion-pytorch

archinetai / audio-ai-timeline

lucidrains / soundstorm-pytorch

FunAudioLLM / FunMusic

declare-lab / tango

NVIDIA / BigVGAN

devnen / Chatterbox-TTS-Server

Yuan-ManX / ai-audio-datasets

diodiogod / TTS-Audio-Suite

fluxions-ai / vui

researchmm / MM-Diffusion

Yuan-ManX / audio-development-tools

Improve this page

Add this topic to your repo