↓Skip to main content

🏢 Rutgers University

The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering

5 February 2025·4880 words·23 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Vision-Language Models 🏢 Rutgers University

VISTA steers LVLMs away from hallucinations by cleverly adjusting token rankings during inference, improving visual grounding and semantic coherence.

Improved Training Technique for Latent Consistency Models

3 February 2025·3409 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Rutgers University

Researchers significantly enhance latent consistency models’ performance by introducing Cauchy loss, mitigating outlier effects, and employing novel training strategies, thus bridging the gap with dif…