Large Language Models

RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation

15 January 2025·5724 words·27 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Princeton University

RLHS, a novel alignment algorithm, leverages simulated hindsight feedback to mitigate misalignment in RLHF, significantly improving AI’s alignment with human values and goals.

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

8 January 2025·5517 words·26 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

URSA-7B: A new multimodal model significantly improves chain-of-thought reasoning in mathematics!

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

8 January 2025·3910 words·19 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Microsoft Research

Small language models can master complex math reasoning using self-evolved deep thinking via Monte Carlo Tree Search, surpassing larger models in performance.

LLM4SR: A Survey on Large Language Models for Scientific Research

8 January 2025·2870 words·14 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Texas at Dallas

LLMs revolutionize scientific research! This survey reveals their transformative potential across hypothesis discovery, experiment planning, writing, and peer review, guiding future research.

EpiCoder: Encompassing Diversity and Complexity in Code Generation

8 January 2025·5051 words·24 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

EpiCoder revolutionizes code generation by using feature trees to create diverse and complex training data, resulting in state-of-the-art performance on various benchmarks.

Entropy-Guided Attention for Private LLMs

7 January 2025·5203 words·25 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 New York University

Boosting private LLMs’ efficiency and security, this research introduces an entropy-guided attention mechanism and PI-friendly layer normalization to mitigate the overheads of nonlinear operations.

BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

6 January 2025·2687 words·13 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Shanghai AI Laboratory

BoostStep enhances large language models’ mathematical abilities by refining single-step reasoning through a novel step-level in-context learning strategy, achieving significant improvements on variou…

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

5 January 2025·3646 words·18 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 ByteDance

ToolHop: New benchmark dataset rigorously evaluates LLMs’ multi-hop tool use, revealing significant challenges and variations across different LLM families.

Test-time Computing: from System-1 Thinking to System-2 Thinking

5 January 2025·658 words·4 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Soochow University

Unlocking LLM potential: This paper surveys test-time computing, showing how it boosts reasoning abilities by shifting from reactive System-1 to deliberate System-2 thinking, paving the way for more p…

Scaling Laws for Floating Point Quantization Training

5 January 2025·6363 words·30 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tencent AI Lab

New scaling laws for efficient floating-point quantization training in LLMs are presented, showing optimal bit allocation and critical data size.

REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

4 January 2025·1374 words·7 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 String

REINFORCE++, a novel RLHF algorithm, achieves superior training stability and computational efficiency compared to existing methods like PPO and GRPO, while maintaining comparable performance.

Personalized Graph-Based Retrieval for Large Language Models

4 January 2025·3633 words·18 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of California Santa Cruz

Personalized Graph-based Retrieval-Augmented Generation (PGraphRAG) significantly improves personalized text generation by leveraging user-centric knowledge graphs, especially in cold-start scenarios …

METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

3 January 2025·3440 words·17 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Southern California

METAGENE-1, a 7-billion parameter language model, achieves state-of-the-art results in pathogen detection and genomic embedding by leveraging a massive wastewater metagenomic dataset.

Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

3 January 2025·3986 words·19 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Ant Group

AUTO-RT automates LLM vulnerability discovery by using reinforcement learning to optimize complex attack strategies, achieving faster detection and higher success rates than existing methods.

Dynamic Scaling of Unit Tests for Code Reward Modeling

2 January 2025·3208 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

Boosting code generation accuracy with more unit tests! This research shows that increasing the number of unit tests used to evaluate code generated by LLMs significantly improves accuracy, especially…

CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

2 January 2025·2397 words·12 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Alibaba Group

CODEELO benchmark uses CodeForces to fairly evaluate LLMs’ coding abilities, providing human-comparable Elo ratings and addressing limitations of existing benchmarks.

BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery

2 January 2025·4247 words·20 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Stanford University

BoxingGym: A new benchmark rigorously evaluates AI agents’ ability to design experiments and discover scientific models, revealing current LLMs’ limitations and highlighting fertile research avenues.

LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models

1 January 2025·4898 words·23 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Oregon

LUSIFER: a novel zero-shot approach empowers English-centric LLM embedding models for multilingual tasks without explicit multilingual training data, significantly enhancing performance, especially fo…

Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

31 December 2024·3334 words·16 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 University of Texas at Austin

Polarizing SSMs’ state transition matrices enhances long-range dependency modeling by mitigating recency bias and over-smoothing.

HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

30 December 2024·3981 words·19 mins· loading · loading

AI Generated 🤗 Daily Papers Natural Language Processing Large Language Models 🏢 Tsinghua University

New benchmarks, HumanEval Pro and MBPP Pro, reveal LLMs struggle with self-invoking code generation, highlighting a critical gap in current code reasoning capabilities.