AI资讯日报 - 2025/12/24

👨‍🔬 Seijin Kobayashi, Yanick Schimpf, Maximilian Schlegel, Angelika Steger, Maciej Wolczyk, Johannes von Oswald, Nino Scherre, Kaitlin Maile, Guillaume Lajoie, Blake A. Richards, Rif A. Saurous, James Manyika, Blaise Agüera y Arcas, Alexander Meulemans, João Sacramento

Automated stereotactic radiosurgery planning using a human-in-the-loop reasoning large language model agent

学术论文 ArXiv 重要度: 8

开发基于LLM的推理代理SAGE，用于自动立体定向放射外科治疗规划，在保持剂量学指标的同时提升可解释性和审计追踪能力。

👨‍🔬 Humza Nusrat, Luke Francisco, Bing Luo, Hassan Bagher-Ebadian, Joshua Kim, Karen Chin-Snyder, Salim Siddiqui, Mira Shah, Eric Mellon, Mohammad Ghassemi, Anthony Doemer, Benjamin Movsas, Kundan Thind

Performative Policy Gradient: Optimality in Performative Reinforcement Learning

学术论文 ArXiv 重要度: 8

提出Performative Policy Gradient算法，首次在强化学习中考虑策略部署后引发的环境分布变化，实现Performative最优策略。

👨‍🔬 Debabrota Basu, Udvas Das, Brahim Driss, Uddalak Mukherjee

Cube Bench: A Benchmark for Spatial Visual Reasoning in MLLMs

学术论文 ArXiv 重要度: 7

引入魔方基准Cube Bench，系统评估多模态大语言模型在空间和序列推理上的五项技能，揭示模型在复杂任务中的性能局限。

👨‍🔬 Dhruv Anand, Ehsan Shareghi

Leveraging High-Fidelity Digital Models and Reinforcement Learning for Mission Engineering: A Case Study of Aerial Firefighting Under Perfect Information

学术论文 ArXiv 重要度: 7

结合高保真数字任务模型与强化学习，提出智能任务协调方法，以空中灭火为例展示自适应任务分配与重构能力。

👨‍🔬 İbrahim Oğuz Çetinkaya, Sajad Khodadadian, Taylan G. Topçu

Fail Fast, Win Big: Rethinking the Drafting Strategy in Speculative Decoding via Diffusion LLMs

学术论文 ArXiv 重要度: 7

利用扩散大语言模型并行生成特性，提出FailFast推测解码框架，动态调整推测长度，实现无损加速并显著提升解码速度。

👨‍🔬 Rui Pan, Zhuofu Chen, Ravi Netravali

LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving

学术论文 ArXiv 重要度: 7

研究并减少模仿学习中专家与学生间的信息不对称，通过改进模型在CARLA驾驶基准上达到新的最先进性能。

👨‍🔬 Long Nguyen, Micha Fauth, Bernhard Jaeger, Daniel Dauner, Maximilian Igl, Andreas Geiger, Kashyap Chitta

Benchmarking LLMs for Predictive Applications in the Intensive Care Units

学术论文 ArXiv 重要度: 7

在重症监护预测任务中对比LLMs与传统模型，发现LLMs在预测临床事件上并无固有优势，呼吁未来开发更关注临床轨迹预测的模型。

👨‍🔬 Chehak Malhotra, Mehak Gopal, Akshaya Devadiga, Pradeep Singh, Ridam Pal, Ritwik Kashyap, Tavpritesh Sethi

Distilling to Hybrid Attention Models via KL-Guided Layer Selection

学术论文 ArXiv 重要度: 6

提出基于KL散度指导的层选择方法，将预训练Transformer蒸馏为混合注意力架构，提升推理效率且无需从头预训练。

👨‍🔬 Yanhong Li, Songlin Yang, Shawn Tan, Mayank Mishra, Rameswar Panda, Jiawei Zhou, Yoon Kim

Advancing Multimodal Teacher Sentiment Analysis:The Large-Scale T-MED Dataset & The Effective AAM-TSA Model

学术论文 ArXiv 重要度: 6

构建大规模教师多模态情感分析数据集T-MED，并提出非对称注意力模型AAM-TSA，显著提升情感分类准确性和可解释性。

👨‍🔬 Zhiyi Duan, Xiangren Wang, Hongyu Yuan, Qianli Xing

SweRank+: Multilingual, Multi-Turn Code Ranking for Software Issue Localization

学术论文 ArXiv 重要度: 6

提出SweRank+框架，结合跨语言代码排序工具与智能体搜索循环，实现多轮推理的软件问题定位，在多语言基准上达到最先进性能。

👨‍🔬 Revanth Gangi Reddy, Ye Liu, Wenting Zhao, JaeHyeok Doo, Tarun Suresh, Daniel Lee, Caiming Xiong, Yingbo Zhou, Semih Yavuz, Shafiq Joty

🤖 AI资讯日报

📊 今日趋势总结

Ask HN: What's the pain using current AI algorithms?

Ask HN: Is the rate of progress in AI exponential?

NLP, AI, ML, bots – a passing trend or much more? What's your take on this?

Why Boring Businesses Outlast AI Hype Cycles

Ask HN: Anyone concerned about NYC Local Law 144?

Ask HN: What would you read to learn about "artificial intelligence"?

Ask HN: Dipping my toes with artificial intelligence and what to expect? (CS)

The AI Crackpot Index

Common Lisp + Machine Learning Internship at Google (Mountain View, CA)

The Next Bill Gates or Albert Einstein in AI “Chris Clark” – Yourobot

Bioinformatician

Show HN: Startup Raising capital through Book Sales

LongVideoAgent: Multi-Agent Reasoning with Long Videos

Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning

Automated stereotactic radiosurgery planning using a human-in-the-loop reasoning large language model agent

Performative Policy Gradient: Optimality in Performative Reinforcement Learning

Cube Bench: A Benchmark for Spatial Visual Reasoning in MLLMs

Leveraging High-Fidelity Digital Models and Reinforcement Learning for Mission Engineering: A Case Study of Aerial Firefighting Under Perfect Information

Fail Fast, Win Big: Rethinking the Drafting Strategy in Speculative Decoding via Diffusion LLMs

LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving

Benchmarking LLMs for Predictive Applications in the Intensive Care Units

Distilling to Hybrid Attention Models via KL-Guided Layer Selection

Advancing Multimodal Teacher Sentiment Analysis:The Large-Scale T-MED Dataset & The Effective AAM-TSA Model

SweRank+: Multilingual, Multi-Turn Code Ranking for Software Issue Localization

📅 历史日报目录