Tools/Music & Audio Generation/AudioLDM

AudioLDM

Original latent diffusion model for text-to-audio generation.

Open SourceSelf HostedOffline CapableGPU Required (8GB+ VRAM)

0.0 (0)

Visit Website View on GitHub

About

AudioLDM is a text-to-audio latent diffusion model from the University of Surrey's CVSSP group that generates sound effects, environmental audio, and short music from text descriptions. It works in a latent space learned from audio and is the foundation that AudioLDM 2 later built on. Pretrained checkpoints, a Hugging Face demo, and Colab notebooks are provided, and generation quality varies with the random seed.

Reviews (0)

Leave a Review

No reviews yet. Be the first to review!

Details

Category: Music & Audio Generation
Price: Free
Platform: Local/Desktop
Difficulty: Intermediate (3/5)
Minimum VRAM: 8 GB
Added: Apr 3, 2026

Tags

audio text-to-audio diffusion sound-effects latent

Related Tools

Featured

AudioCraft / MusicGen

Music & Audio Generation

Audio generation framework by Meta including MusicGen for text-to-music.

Open SourceSelf HostedOfflineGPU 8GB+

Intermediate

0.0 (0)

AudioLDM 2

Music & Audio Generation

Latent diffusion model for text-to-audio, music, and speech generation.

Open SourceSelf HostedOfflineGPU 8GB+

Intermediate

0.0 (0)

AudioSR

Music & Audio Generation

Audio super-resolution model for upsampling audio to higher sample rates.

Open SourceSelf HostedOfflineGPU 6GB+

Intermediate

0.0 (0)

Featured

Demucs

Music & Audio Generation

State-of-the-art music source separation model by Meta for splitting tracks.

Open SourceSelf HostedOffline

Easy

0.0 (0)

ACE-Step

Music & Audio Generation

Fast music generation model producing full songs with lyrics in seconds.

Open SourceSelf HostedOfflineGPU 8GB+

Intermediate

0.0 (0)

AudioCraft

Music & Audio Generation

PyTorch library for deep learning research on audio generation including MusicGen and AudioGen.

Open SourceSelf HostedOfflineGPU

Intermediate

0.0 (0)

Browse all Music & Audio Generation tools