↓Skip to main content

🏢 Tencent AI Lab

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models

21 November 2024·2697 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Multimodal Learning Vision-Language Models 🏢 Tencent AI Lab

Insight-V: A multi-agent system enhances multi-modal LLMs’ visual reasoning by generating high-quality long-chain reasoning data and employing a two-stage training pipeline, achieving significant perf…

StdGEN: Semantic-Decomposed 3D Character Generation from Single Images

8 November 2024·2454 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Computer Vision Image Generation 🏢 Tencent AI Lab

StdGEN: Generate high-quality, semantically decomposed 3D characters from a single image in minutes, enabling flexible customization for various applications.

Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent

4 November 2024·1756 words·9 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tencent AI Lab

Tencent unveils Hunyuan-Large, a groundbreaking open-source MoE LLM boasting 389B parameters and 52B activated parameters, surpassing existing models in performance across various benchmarks.