Recent AI Reading [25 October 2025]

Authors:

|| Published: 2025-10-25T23:38:00 || Updated: 2025-10-25T23:38:00 || 4 min read

Categories:

|| Tags:

Artificial Intelligence

Large Language Models

Machine Learning

Model Context Protocol

Model Evaluation

Papers I Read Recently Series

Retrieval-Augmented Generation

|| Post-format: link

Recent AI Reading [25 October 2025]

Papers

Agentic AI

AI Alignment (with Human Preferences, and other methods)

Large Language Models

Training Paradigms

Understanding Reinforcement Learning for Model Training, and future directions with GRAPE
Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models
- Website
- Code
RL’s Razor: Why Online Reinforcement Learning Forgets Less
zELO: ELO-inspired Training Method for Rerankers and Embedding Models
In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners
Tree Search for LLM Agent Reinforcement Learning
- Cross Topics: Agentic AI
CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning
FlowRL: Matching Reward Distributions for LLM Reasoning
Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
- Cross Topics: AI Alignment
A Survey of Reinforcement Learning for Large Reasoning Models
RewardDance: Reward Scaling in Visual Generation
- Cross Topics: AI Alignment
Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning
- Cross Topics: AI Alignment
TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling
- Cross Topics: AI Alignment
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search
- Cross Topics: AI Alignment
ExGRPO: Learning to Reason from Experience
- Cross Topics: AI Alignment
RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
- Cross Topics: AI Alignment
Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity
- Cross Topics: AI Alignment
RLP: Reinforcement as a Pretraining Objective
Is In-Context Learning Learning?
The Art of Scaling Reinforcement Learning Compute for LLMs
Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model
Training-Free Group Relative Policy Optimization
- Cross Topics: AI Alignment

Model Evaluation

From Scores to Skills: A Cognitive Diagnosis Framework for Evaluating Financial Large Language Models

Retrieval-Augmented Generation

End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
- Cross Topics: Agentic AI, Training Paradigms
On-Premise AI for the Newsroom: Evaluating Small Language Models for Investigative Document Search
- Cross Topics: Model Evaluation
ModernVBERT: Towards Smaller Visual Document Retrievers

Embodied AI

Books

Technical Reports

rStar2-Agent: Agentic Reasoning Technical Report
- Cross Topics: Agentic AI

Articles and Blog Posts

Defeating Nondeterminism in LLM Inference - Thinking Machines Lab
- Cross Topics: Large Language Models
Improving Cursor Tab with online RL
- Cross Topics: Training Paradigms
Building LangGraph: Designing an Agent Runtime from first principles
- Cross Topics: Agentic AI
A Definition of AGI
- X Post
- Paper

Miscellaneous

Previous Post

Next Post