行业动态
Hacker News
重要度: 9
探讨务实业务如何比AI炒作周期更持久,强调可持续商业模式的重要性。
行业动态
Hacker News
重要度: 8
讨论当前AI算法在实际应用中的痛点、局限性和挑战。
行业动态
Hacker News
重要度: 8
讨论纽约地方法律144对AI行业可能产生的影响和合规挑战。
行业动态
Hacker News
重要度: 7
探讨NLP、AI、ML和机器人技术是短暂趋势还是具有深远影响的变革。
行业动态
Hacker News
重要度: 7
探讨AI技术进步速度是否呈指数级增长及其对行业的影响。
行业动态
Hacker News
重要度: 6
征集学习人工智能的推荐阅读材料和资源建议。
行业动态
Hacker News
重要度: 6
Google招聘Common Lisp与机器学习结合的实习岗位,反映技术栈多样性。
行业动态
Hacker News
重要度: 6
生物信息学岗位招聘,体现AI在生命科学领域的交叉应用需求。
行业动态
Hacker News
重要度: 5
建立AI领域夸大言论和伪科学主张的识别指标。
行业动态
Hacker News
重要度: 5
讨论MIT许可证在AI时代的新变体及其开源许可影响。
行业动态
Hacker News
重要度: 4
初创公司通过书籍销售筹集资金,展示AI领域创新融资模式。
行业动态
Hacker News
重要度: 3
介绍被称为AI领域下一个比尔·盖茨或爱因斯坦的人物Chris Clark。
学术论文
ArXiv
重要度: 9
提出CoVer验证框架,通过测试时扩展重述指令和生成动作,显著缩小意图-动作差距,在机器人任务中超越策略预训练效果。
👨🔬 Jacky Kwok, Xilun Zhang, Mengdi Xu, Yuejiang Liu, Azalia Mirhoseini, Chelsea Finn, Marco Pavone
学术论文
ArXiv
重要度: 8
提出UniT框架,实现多模态统一模型的链式思维测试时扩展,通过迭代推理和验证提升复杂空间组合任务的性能。
👨🔬 Leon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu
学术论文
ArXiv
重要度: 8
提出CATTS技术,基于投票不确定性动态分配多步智能体的计算资源,在Web任务中实现性能提升和效率优化。
👨🔬 Nicholas Lee, Lutfi Eren Erdogan, Chris Joseph John, Surya Krishnapillai, Michael W. Mahoney, Kurt Keutzer, Amir Gholami
学术论文
ArXiv
重要度: 7
提出AttentionRetriever模型,利用注意力机制和实体检索构建上下文感知的长文档嵌入,显著提升长文档检索性能。
👨🔬 David Jiahao Fu, Lam Thanh Do, Jiayu Li, Kevin Chen-Chuan Chang
学术论文
ArXiv
重要度: 7
提出CM2强化学习框架,使用清单奖励替代可验证结果奖励,优化多轮多步工具使用智能体,在模拟环境中显著提升性能。
👨🔬 Zhen Zhang, Kaiqiang Song, Xun Wang, Yebowen Hu, Weixiang Yan, Chenyang Zhao, Henry Peng Zou, Haoyun Deng, Sathish Reddy Indurthi, Shujian Liu, Simin Ma, Xiaoyang Wang, Xin Eric Wang, Song Wang
学术论文
ArXiv
重要度: 7
提出KeplerAgent框架,引导LLM像科学家一样推理:先推断物理属性,再约束符号回归空间,提升方程发现的准确性和鲁棒性。
👨🔬 Jianke Yang, Ohm Venkatachalam, Mohammad Kianezhad, Sharvaree Vadgama, Rose Yu
学术论文
ArXiv
重要度: 7
揭示语音识别系统在真实高风险任务(如街道名称转录)中错误率高达44%,提出合成数据微调方法,显著提升非英语母语者的准确性。
👨🔬 Kaitlyn Zhou, Martijn Bartelds, Federico Bianchi, James Zou
学术论文
ArXiv
重要度: 6
提出生成AI版权侵权新标准:若输出依赖训练数据中的特定作品则构成侵权,分析了有机创作分布对AI监管的长期影响。
👨🔬 Annie Liang, Jay Lu
学术论文
ArXiv
重要度: 6
Unstructured documents like PDFs contain valuable structured information, but downstream systems require this data in reliable, standardized formats. LLMs are increasingly deployed to automate this extraction, making accuracy and reliability paramount. However, progress is bottlenecked by two gaps. First, no end-to-end benchmark evaluates PDF-to-JSON extraction under enterprise-scale schema breadth. Second, no principled methodology captures the semantics of nested extraction, where fields demand different notions of correctness (exact match for identifiers, tolerance for quantities, semantic equivalence for names), arrays require alignment, and omission must be distinguished from hallucination. We address both gaps with ExtractBench, an open-source benchmark and evaluation framework for PDF-to-JSON structured extraction. The benchmark pairs 35 PDF documents with JSON Schemas and human-annotated gold labels across economically valuable domains, yielding 12,867 evaluatable fields spanning schema complexities from tens to hundreds of fields. The evaluation framework treats the schema as an executable specification: each field declares its scoring metric. Baseline evaluations reveal that frontier models (GPT-5/5.2, Gemini-3 Flash/Pro, Claude 4.5 Opus/Sonnet) remain unreliable on realistic schemas. Performance degrades sharply with schema breadth, culminating in 0% valid output on a 369-field financial reporting schema across all tested models. We release ExtractBench at https://github.com/ContextualAI/extract-bench.
👨🔬 Nick Ferguson, Josh Pennington, Narek Beghian, Aravind Mohan, Douwe Kiela, Sheshansh Agrawal, Thien Hang Nguyen
学术论文
ArXiv
重要度: 5
研究等距群作用下投影噪声的朗之万动力学,发现其产生与轨道平均曲率相关的隐式正则化,为过参数化模型训练提供新见解。
👨🔬 Govind Menon, Austin J. Stromme, Adrien Vacher
学术论文
ArXiv
重要度: 5
证明内在能量联合嵌入预测架构(JEPA)诱导拟度量空间,连接表示学习与目标条件控制,为不对称动力学下的可达性提供理论框架。
👨🔬 Anthony Kobanda, Waris Radji
学术论文
ArXiv
重要度: 4
提出面向翻译和专门通信领域的语言AI技术课程,涵盖向量嵌入、神经网络基础等核心内容,培养领域特定的AI素养。
👨🔬 Ralph Krüger