Computer Vision

Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

26 March 2025·4642 words·22 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 UCLA

Feature4X: 4D Agentic AI from Monocular Video w/ Gaussian Feature Fields

DINeMo: Learning Neural Mesh Models with no 3D Annotations

26 March 2025·1595 words·8 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Johns Hopkins University

DINeMo: Learns 3D models with no 3D annotations, leveraging pseudo-correspondence from visual foundation models for enhanced pose estimation.

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

26 March 2025·10790 words·51 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Tsinghua University

BIZGEN: Article-level Visual Text Rendering for Infographics Generation

Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models

26 March 2025·2885 words·14 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Central South University

LongTextAR advances long-text image generation via a novel tokenizer, enabling accurate, controllable, and high-fidelity text rendering in images.

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

25 March 2025·3042 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Shanghai AI Laboratory

TokenHSI: Unified Transformer for Physical Human-Scene Interactions through Task Tokenization.

Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals

25 March 2025·4505 words·22 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Stanford University

Opt-CWM: Self-supervised motion learning via counterfactual optimization, achieving state-of-the-art without labels!

Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing

25 March 2025·2020 words·10 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 KAIST

Inference-time scaling for flow models enhances alignment with user preferences via stochastic generation and budget allocation.

GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

25 March 2025·3412 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 ARC Lab, Tencent PCG

Visually perfect generations aren’t always optimal! GenHancer finds that subtly imperfect generations can greatly improve vision-centric tasks.

Attention IoU: Examining Biases in CelebA using Attention Maps

25 March 2025·3919 words·19 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Classification 🏢 Princeton University

Attention-IoU reveals model biases by analyzing attention maps, offering insights beyond dataset labels and improving debiasing techniques.

AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset

25 March 2025·2413 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Beihang University

AccVideo accelerates video diffusion by 8.5x with a synthetic dataset and trajectory-based distillation, maintaining quality and enabling higher resolution video generation.

Video-T1: Test-Time Scaling for Video Generation

24 March 2025·3231 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Tsinghua University

Video-T1 enhances video generation through test-time scaling, improving quality and consistency by viewing generation as a search for optimal video trajectories.

Training-free Diffusion Acceleration with Bottleneck Sampling

24 March 2025·3305 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Peking University

Bottleneck Sampling: Accelerate diffusion models without retraining by cleverly using low-resolution priors for efficient inference!

Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models

24 March 2025·1777 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Yonsei University

LSRNA: Super-resolution in latent space enhances image generation with diffusion models, achieving faster speeds and improved detail.

FRESA:Feedforward Reconstruction of Personalized Skinned Avatars from Few Images

24 March 2025·3848 words·19 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Australian National University

FRESA: fast feedforward 3D personalized avatar creation from few images.

Frequency Dynamic Convolution for Dense Image Prediction

24 March 2025·1612 words·8 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Segmentation 🏢 Beijing Institute of Technology

FDConv: Adaptable convolution via frequency domain learning, enhancing performance without heavy parameter cost.

Equivariant Image Modeling

24 March 2025·3413 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 University of Science and Technology of China

Aligning image generation subtasks: Equivariant modeling boosts efficiency and generalization by leveraging natural visual signal invariance.

Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models

24 March 2025·3661 words·18 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Beihang University

Diffusion-4K: Synthesizing ultra-high-resolution images with a new benchmark dataset and wavelet-based fine-tuning that makes 4K image creation more detailed and accessible!

CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models

24 March 2025·3380 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 S-Lab, Nanyang Technological University

CFG-Zero*: A better Classifier-Free Guidance to improve the image quality and text alignment in Flow Matching models.

AMD-Hummingbird: Towards an Efficient Text-to-Video Model

24 March 2025·739 words·4 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Advanced Micro Devices, Inc.

Hummingbird: An efficient text-to-video model that balances quality and computational efficiency via pruning and visual feedback learning.

Aether: Geometric-Aware Unified World Modeling

24 March 2025·2472 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Shanghai AI Laboratory

AETHER: a unified framework enabling geometry-aware reasoning in world models, achieving zero-shot generalization from synthetic to real-world data.