2025 年最值得读的 AI 论文

2026-02-14 21:37
分类: 投资研报 · 标签: 待分类
源文件: finews/Best-AI-Papers-2025.md
返回新闻列表

2025 年最值得读的 AI 论文

记录时间:2026-02-10


📊 核心摘要

论文 亮点 热度
DeepSeek mHC 超连接重构 Transformer 278K
DeepSeek-R1 推理模型完整版(86页) 239K
MIT CSAIL RLM 递归语言模型突破 token 限制 1.4K
NeurIPS 多智能体 14 种失败模式分类

🔥 Top 1: DeepSeek mHC - Manifold-Constrained Hyper-Connections

@alphaXiv(1月1日,278K 热度):

"DeepSeek just dropped a banger paper to wrap up 2025 'mHC: Manifold-Constrained Hyper-Connections'"

核心创新

传统 Transformer mHC 架构
单一路由残差连接 n 条平行车道
固定信息流 每层学习信号混洗与共享
梯度瓶颈 更灵活的信息流动

技术要点

意义

"If each layer..." (突破层间信息传递限制)

一句话总结:重新定义 Transformer 的信息流动方式,是架构层面的重要突破。


🔥 Top 2: DeepSeek-R1 完整论文

@jiqizhixin(1月7日,239K 热度):

"DeepSeek-R1's paper was updated 2 days ago, expanding from 22 pages to 86 pages"

论文演变

版本 页数 内容
初版 22 页 核心方法
更新版 86 页 完整细节

新增内容

  1. DeepSeek-R1-Zero 自进化分析
  2. DeepSeek-R1 评估报告
  3. 进一步分析
  4. DeepSeek-R1 蒸馏技术

关键贡献


🔥 Top 3: MIT CSAIL RLM - 递归语言模型

News(1天前,1.4K 热度):

"Recursive Language Models (RLMs), from a December 2025 MIT CSAIL paper by Alex L. Zhang, Tim Kraska, and Omar Khattab"

核心创新

问题 RLM 解决方案
Token 限制 管理 1000万+ tokens
上下文处理 外部化到 REPL 环境
长序列任务 模型编写和执行代码

技术实现

  1. REPL 环境:让模型在外部环境中处理上下文
  2. 符号递归:真正的可扩展性
  3. Lazy Loading:从存储延迟加载
  4. 可视化 UI:企业级监控

工业应用

专家评价

Ethan Mollick

"Pairing it with organizational structures for effective agent coordination."


🎯 NeurIPS 2025: 多智能体系统失败模式

@readsail

"At NeurIPS 2025, UC Berkeley researchers break down the 'Agent Collapse' phenomenon and their new taxonomy of 14 failure modes"

14 种失败模式分类

核心问题:为什么多智能体 AI 系统会失败?

研究价值


📚 其他重要论文

Maximum Likelihood Reinforcement Learning

@Aryan

"Paper: Maximum Likelihood Reinforcement Learning" arxiv.org/pdf/2602.02710

方向:强化学习与最大似然方法结合

AI Agent 记忆基准

@tylbar

"LongMemEval: Long context memory benchmark" 密集观察优于原始答案对话(+2%)


📈 2025 年 AI 研究主题分布

主题 热度 代表作
推理模型 ⭐⭐⭐⭐⭐ DeepSeek-R1, OpenAI o1
架构创新 ⭐⭐⭐⭐⭐ DeepSeek mHC, RLM
多智能体 ⭐⭐⭐⭐ NeurIPS 14 failure modes
长上下文 ⭐⭐⭐ LongMemEval, RLM
强化学习 ⭐⭐⭐ MLE-RL

🎓 论文阅读优先级

必读(Must Read)

  1. DeepSeek mHC 论文 - 架构创新,理论扎实 - 代码已开源

  2. DeepSeek-R1 完整版 - 推理模型实践指南 - 86页详细内容

  3. MIT CSAIL RLM 论文 - Agent 扩展性问题解决方案 - 企业级应用参考

建议读(Recommended)

  1. NeurIPS 多智能体失败模式 - 避免常见陷阱 - 系统设计参考

  2. Maximum Likelihood RL - 新方法论探索


🔮 2025 年研究趋势总结

核心转变

2024 2025
单一模型 模型组合与编排
增加参数 架构创新
简单提示 外部化计算
单智能体 多智能体协作

技术演进线

[参数扩展] → [架构优化] → [外部计算] → [多智能体]

关键洞察

  1. DeepSeek 崛起:架构创新 + 开源策略
  2. 推理模型爆发:从 o1 到 R1
  3. Token 限制突破:RLM + 外部计算
  4. 多智能体成熟:从实验到生产

📌 结论

一句话总结

2025 年是 AI 架构创新年:DeepSeek mHC 重构 Transformer,RLM 突破 token 限制,推理模型方法论趋于成熟。

学习建议: - 先读 DeepSeek-R1 理解推理模型 - 再读 mHC 学习架构创新 - 最后读 RLM 探索前沿


标签:#AIPapers #DeepSeek #RLM #Transformer #ReasoningModel #NeurIPS