Computer Vision

CoSTA$st$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

13 March 2025·5298 words·25 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 University of Maryland, College Park

COSTA*: A cost-effective agent that smartly navigates AI tools to edit images with high quality and low cost, balancing user preferences!

CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance

13 March 2025·1806 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 ByteDance Intelligent Creation

CINEMA: MLLM-guided coherent multi-subject video generation for consistent and controllable content creation.

Autoregressive Image Generation with Randomized Parallel Decoding

13 March 2025·3693 words·18 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Westlake University

ARPG: Randomly generate high-quality images by parallel decoding, outperforming existing methods in efficiency, memory, and quality.

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

13 March 2025·2631 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Harvard University

4D LangSplat learns 4D language fields for dynamic scenes using multimodal large language models, enabling time-sensitive open-vocabulary queries.

TPDiff: Temporal Pyramid Video Diffusion Model

12 March 2025·2081 words·10 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 National University of Singapore

TPDiff accelerates video diffusion by progressively increasing frame rates during diffusion, optimizing computational efficiency with a novel stage-wise training strategy.

Silent Branding Attack: Trigger-free Data Poisoning Attack on Text-to-Image Diffusion Models

12 March 2025·410 words·2 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 KAIST

New ‘Silent Branding Attack’ poisons text-to-image models, embedding brand logos without text prompts, raising ethical issues for image generation tools.

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

12 March 2025·3137 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 NVIDIA

SANA-Sprint: An efficient diffusion model for ultra-fast text-to-image generation with continuous-time consistency distillation, achieving state-of-the-art performance in speed and quality.

Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

12 March 2025·2533 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 KAIST AI

Reangle-A-Video generates synchronized multi-view videos from a single video via video-to-video translation, surpassing existing methods without specialized 4D training.

PerCoV2: Improved Ultra-Low Bit-Rate Perceptual Image Compression with Implicit Hierarchical Masked Image Modeling

12 March 2025·2966 words·14 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Technical University of Munich

PerCoV2: Open ultra-low bit-rate perceptual image compression using implicit hierarchical masked image modeling, built on Stable Diffusion 3 for bandwidth-constrained applications.

Open-Sora 2.0: Training a Commercial-Level Video Generation Model in $200k

12 March 2025·2200 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 HPC-AI Tech

Open-Sora 2.0: A commercial-level video generation model trained for only $200k, achieving comparable results to state-of-the-art models.

On the Limitations of Vision-Language Models in Understanding Image Transforms

12 March 2025·2360 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Vision-Language Models 🏢 Cohere for AI Community

VLMs struggle with basic image transforms! This paper reveals their limitations in understanding image-level changes, impacting downstream tasks.

Neighboring Autoregressive Modeling for Efficient Visual Generation

12 March 2025·3102 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Zhejiang University, China

NAR: Neighboring Autoregressive Modeling for efficient visual generation by locality-preserved, parallel decoding.

Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework

12 March 2025·3325 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Sea AI Lab

Unified framework reveals and mitigates error sources in autoregressive video diffusion models.

Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

11 March 2025·3192 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 KAIST

SynCoS: Synchronized sampling generates high-quality & coherent long videos from text, without extra training!

QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

11 March 2025·3039 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Xiamen University

QuoTA: Task-aware token assignment boosts long video comprehension in LVLMs via query-decoupled processing, without extra training!

Open-World Skill Discovery from Unsegmented Demonstrations

11 March 2025·3148 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Peking University

SBD: Self-supervised skill discovery from unsegmented videos!

NullFace: Training-Free Localized Face Anonymization

11 March 2025·2015 words·10 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Face Recognition 🏢 University of Trento

NullFace: A training-free face anonymization method preserving non-identity attributes with localized control using latent diffusion inversion.

MaRI: Material Retrieval Integration across Domains

11 March 2025·2119 words·10 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 University of Electronic Science and Technology of China

MaRI: Accurately retrieves textures from images by bridging the gap between visual representations and material properties across diverse domains.

LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization

11 March 2025·2300 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Hong Kong University of Science and Technology

LightGen: Efficient image generation via knowledge distillation and direct preference optimization.

AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models

11 March 2025·2590 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 KAIST, Visual Media Lab

AnyMoLe: Generate character motion in-between frames for diverse characters by video diffusion models without external data. Code: project page.