AI资讯日报 - 2025/12/30

👨‍🔬 LearnLM Team, Eedi, :, Albert Wang, Aliya Rysbek, Andrea Huber, Anjali Nambiar, Anna Kenolty, Ben Caulfield, Beth Lilley-Draper, Bibi Groot, Brian Veprek, Chelsea Burdett, Claire Willis, Craig Barton, Digory Smith, George Mu, Harriet Walters, Irina Jurenka, Iris Hulls, James Stalley-Moores, Jonathan Caton, Julia Wilkowski, Kaiz Alarakyia, Kevin R. McKee, Liam McCafferty, Lucy Dalton, Markus Kunesch, Pauline Malubay, Rachel Kidson, Rich Wells, Sam Wheeler, Sara Wiltberger, Shakir Mohamed, Simon Woodhead, Vasco Brazão

Web World Models

学术论文 ArXiv 重要度: 7

提出Web世界模型，将世界状态和物理规则用普通Web代码实现，LLM在此基础上生成内容和决策，实现可控的开放环境。

👨‍🔬 Jichen Feng, Yifan Zhang, Chenggong Zhang, Yifu Lu, Shilong Liu, Mengdi Wang

RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature

学术论文 ArXiv 重要度: 7

提出RxnBench多模态基准，评估MLLM从科学文献理解化学反应的能力，发现模型在深层化学逻辑和结构识别方面存在显著差距。

👨‍🔬 Hanzheng Li, Xi Fang, Yixuan Li, Chaozheng Huang, Junjie Wang, Xi Wang, Hongzhe Bai, Bojun Hao, Shenyu Lin, Huiqi Liang, Linfeng Zhang, Guolin Ke

Nested Browser-Use Learning for Agentic Information Seeking

学术论文 ArXiv 重要度: 7

提出NestBrowse框架，通过嵌套结构解耦浏览器交互控制和页面探索，简化智能体推理并实现深度网络信息获取。

👨‍🔬 Baixuan Li, Jialong Wu, Wenbiao Yin, Kuan Li, Zhongwang Zhang, Huifeng Yin, Zhengwei Tao, Liwen Zhang, Pengjun Xie, Jingren Zhou, Yong Jiang

VL-RouterBench: A Benchmark for Vision-Language Model Routing

学术论文 ArXiv 重要度: 6

提出VL-RouterBench基准，系统评估VLM路由系统的整体能力，涵盖大量样本和模型，促进多模态路由研究的可比性和可复现性。

👨‍🔬 Zhehao Huang, Baijiong Lin, Jingyuan Zhang, Jingying Wang, Yuhang Liu, Ning Lu, Tao Li, Xiaolin Huang

Divergent-Convergent Thinking in Large Language Models for Creative Problem Generation

学术论文 ArXiv 重要度: 6

提出CreativeDC两阶段提示方法，通过发散-收敛思维分离，提升LLM生成教育问题的多样性和新颖性，同时保持实用性。

👨‍🔬 Manh Hung Nguyen, Adish Singla

Regret-Based Federated Causal Discovery with Unknown Interventions

学术论文 ArXiv 重要度: 6

提出I-PERI联邦因果发现算法，在未知客户端干预下恢复更紧的等价类，提供理论保证和隐私保护特性。

👨‍🔬 Federico Baldo, Charles K. Assaad

Physics-Informed Neural Networks for Device and Circuit Modeling: A Case Study of NeuroSPICE

学术论文 ArXiv 重要度: 5

提出NeuroSPICE框架，利用物理信息神经网络求解电路微分代数方程，为设计优化和新兴器件仿真提供灵活工具。

👨‍🔬 Chien-Ting Tung, Chenming Hu

🤖 AI资讯日报

📊 今日趋势总结

Why Boring Businesses Outlast AI Hype Cycles

Ask HN: What's the pain using current AI algorithms?

Ask HN: Anyone concerned about NYC Local Law 144?

NLP, AI, ML, bots – a passing trend or much more? What's your take on this?

Ask HN: Is the rate of progress in AI exponential?

The AI Crackpot Index

Ask HN: What would you read to learn about "artificial intelligence"?

Common Lisp + Machine Learning Internship at Google (Mountain View, CA)

Bioinformatician

Ask HN: Dipping my toes with artificial intelligence and what to expect? (CS)

The Next Bill Gates or Albert Einstein in AI “Chris Clark” – Yourobot

Show HN: Startup Raising capital through Book Sales

Multilingual Hidden Prompt Injection Attacks on LLM-Based Academic Reviewing

Toward Trustworthy Agentic AI: A Multimodal Framework for Preventing Prompt Injection Attacks

Le Cam Distortion: A Decision-Theoretic Framework for Robust Transfer Learning

BOAD: Discovering Hierarchical Software Engineering Agents via Bandit Optimization

AI tutoring can safely and effectively support students: An exploratory RCT in UK classrooms

Web World Models

RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature

Nested Browser-Use Learning for Agentic Information Seeking

VL-RouterBench: A Benchmark for Vision-Language Model Routing

Divergent-Convergent Thinking in Large Language Models for Creative Problem Generation

Regret-Based Federated Causal Discovery with Unknown Interventions

Physics-Informed Neural Networks for Device and Circuit Modeling: A Case Study of NeuroSPICE

📅 历史日报目录