🏢 Nanjing University

TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes

30 March 2025·1952 words·10 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Nanjing University

TextCrafter: Precisely renders multiple texts in complex scenes, overcoming distortion and omission issues in existing visual text generation models.

Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning

17 March 2025·2607 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Multimodal Reasoning 🏢 Nanjing University

TVC mitigates visual forgetting in multimodal LLMs, enhancing reasoning by strategically re-introducing and compressing visual information.

Process-based Self-Rewarding Language Models

5 March 2025·3066 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Nanjing University

Process-based Self-Rewarding advances LLMs, surpassing human reasoning in math by step-wise self-evaluation.

AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

19 February 2025·4758 words·23 mins· loading · loading

AI Generated 🤗 Daily Papers Machine Learning Reinforcement Learning 🏢 Nanjing University

AdaptiveStep: Divides reasoning steps automatically through model confidence, enhancing PRM training & performance.

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

6 January 2025·3762 words·18 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Nanjing University

STAR: A novel approach uses text-to-video models for realistic, temporally consistent real-world video super-resolution, improving image quality and detail.

Token-Budget-Aware LLM Reasoning

24 December 2024·3147 words·15 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Nanjing University

TALE: A novel framework dynamically adjusts token budgets in LLM reasoning prompts, slashing costs by ~70% with minimal accuracy loss.

StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors

16 December 2024·2185 words·11 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Nanjing University

Create realistic 3D heads with specific hairstyles from text, no 3D hair data needed!

InstanceCap: Improving Text-to-Video Generation via Instance-aware Structured Caption

12 December 2024·4018 words·19 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Video Understanding 🏢 Nanjing University

InstanceCap improves text-to-video generation through detailed, instance-aware captions.

MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

22 November 2024·2416 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Vision-Language Models 🏢 Nanjing University

This survey paper offers a comprehensive overview of Multimodal Large Language Model (MLLM) evaluation, systematically categorizing benchmarks and methods, and identifying gaps for future research, th…