↓Skip to main content

Audio Generation

HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

17 January 2025·1883 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Speech and Audio Audio Generation 🏢 Alibaba Group

HiFi-SR: A unified generative network achieves high-fidelity speech super-resolution, outperforming existing methods by seamlessly integrating transformer and convolutional components for end-to-end a…

Whisper-GPT: A Hybrid Representation Audio Large Language Model

16 December 2024·1640 words·8 mins· loading · loading

AI Generated 🤗 Daily Papers Speech and Audio Audio Generation 🏢 Stanford University

Whisper-GPT, a hybrid audio LLM, improves music/speech generation by combining audio waveforms and text.