↓Skip to main content

🏢 Northwestern Polytechnical University

DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion

3 March 2025·1645 words·8 mins· loading · loading

AI Generated 🤗 Daily Papers Speech and Audio Music Generation 🏢 Northwestern Polytechnical University

DiffRhythm: Fast & Simple End-to-End Song Generation via Latent Diffusion, creating full songs (4+ mins) with vocal & accompaniment in seconds!

Exploring the Potential of Encoder-free Architectures in 3D LMMs

13 February 2025·3414 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Vision-Language Models 🏢 Northwestern Polytechnical University

Encoder-free 3D LMMs outperform state-of-the-art, achieving comparable results to significantly larger models.

Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

26 November 2024·3716 words·18 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Vision-Language Models 🏢 Northwestern Polytechnical University

FiCoCo: A unified paradigm accelerates Multimodal Large Language Model (MLLM) inference by up to 82.4% with minimal performance loss, surpassing state-of-the-art training-free methods.

Material Anything: Generating Materials for Any 3D Object via Diffusion

22 November 2024·4056 words·20 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Northwestern Polytechnical University

Material Anything: Generate realistic materials for ANY 3D object via diffusion!