↓Skip to main content

🏢 Hong Kong Polytechnic University

Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data

27 March 2025·2618 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision 3D Vision 🏢 Hong Kong Polytechnic University

Adapting Stable Diffusion for faster Text-to-Mesh Generation, PRD efficiently creates high-quality 3D models without needing extensive 3D training data.

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making

21 March 2025·1218 words·6 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Vision-Language Models 🏢 Hong Kong Polytechnic University

VLMs self-improve with text-only training, outperforming vision for human-centered decisions, opening efficient enhancement avenues.

Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

19 February 2025·2482 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers AI Theory Safety 🏢 Hong Kong Polytechnic University

Aligned LLMs’ safety often anchors in the template region, creating vulnerabilities. Detaching safety mechanisms shows promise in mitigation.

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

15 January 2025·3561 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Vision-Language Models 🏢 Hong Kong Polytechnic University

Multimodal LLMs can now evaluate art aesthetics with human-level accuracy using a novel dataset (MM-StyleBench) and prompt method (ArtCoT), significantly improving AI alignment in artistic evaluation.

MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

22 November 2024·4779 words·23 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Hong Kong Polytechnic University

MolReFlect achieves state-of-the-art molecule-text alignment by using a teacher-student LLM framework that generates fine-grained alignments, improving accuracy and explainability.