行业动态
Hacker News
重要度: 9
探讨枯燥业务如何比AI炒作周期更持久,强调务实商业实践的价值。
行业动态
Hacker News
重要度: 8
讨论当前AI算法在实际应用中的痛点与挑战。
行业动态
Hacker News
重要度: 8
探讨NLP、AI、ML和机器人技术是短暂趋势还是具有深远影响。
行业动态
Hacker News
重要度: 7
询问社区对纽约市Local Law 144法案的关注与担忧。
行业动态
Hacker News
重要度: 7
探讨AI领域技术进步速度是否呈指数级增长。
行业动态
Hacker News
重要度: 6
介绍MIT非AI许可证的相关内容。
行业动态
Hacker News
重要度: 6
介绍AI领域“伪科学”或夸大宣传的指数评估。
行业动态
Hacker News
重要度: 6
征集学习人工智能领域的推荐阅读材料。
行业动态
Hacker News
重要度: 5
谷歌招聘Common Lisp与机器学习结合的实习岗位。
行业动态
Hacker News
重要度: 5
展示初创公司通过书籍销售筹集资金的创新方式。
行业动态
Hacker News
重要度: 4
介绍被誉为AI领域下一个比尔·盖茨或爱因斯坦的Chris Clark。
行业动态
Hacker News
重要度: 4
生物信息学相关岗位或讨论。
学术论文
ArXiv
重要度: 9
提出ASMR-Bench基准,用于评估审计员检测机器学习研究代码中恶意篡改的能力,发现前沿LLMs和人类审计员均难以可靠检测此类破坏。
👨🔬 Eric Gan, Aryan Bhatt, Buck Shlegeris, Julian Stastny, Vivek Hebbar
学术论文
ArXiv
重要度: 8
通过实验比较分布锐化与基于任务奖励的学习,证明后者能带来更稳健的性能提升和稳定学习,揭示了任务奖励信号在强化学习中的关键作用。
👨🔬 Sarthak Mittal, Leo Gagnon, Guillaume Lajoie
学术论文
ArXiv
重要度: 8
提出双方面评估框架,对LLMs在越南法律文本简化任务上进行性能基准测试和大规模错误分析,揭示了准确性与可读性之间的权衡及核心推理错误。
👨🔬 Van-Truong Le
学术论文
ArXiv
重要度: 7
发布大规模人工标注视频编辑数据集VEFX-Dataset、专用奖励模型VEFX-Reward及基准VEFX-Bench,用于标准化评估和比较视频编辑系统。
👨🔬 Xiangbo Gao, Sicong Jiang, Bangya Liu, Xinghao Chen, Minglai Yang, Siyuan Yang, Mingyang Wu, Jiongze Yu, Qi Zheng, Haozhi Wang, Jiayi Zhang, Jared Yang, Jie Yang, Zihan Wang, Qing Yin, Zhengzhong Tu
学术论文
ArXiv
重要度: 7
提出DeepInsightTheorem数据集和渐进式微调策略,旨在培养LLMs识别核心证明技巧的洞察力,从而显著提升其非形式定理证明的数学推理能力。
👨🔬 Yunhe Li, Hao Shi, Bowen Deng, Wei Wang, Mengzhe Ruan, Hanxu Hou, Zhongxiang Dai, Siyang Gao, Chao Wang, Shuang Qiu, Linqi Song
学术论文
ArXiv
重要度: 7
提出结合知识图谱和LLMs的方法,为制造业中的机器学习结果生成用户友好的解释,并通过评估验证了其在真实环境中的有效性。
👨🔬 Thomas Bayer, Alexander Lohr, Sarah Weiß, Bernd Michelberger, Wolfram Höpken
学术论文
ArXiv
重要度: 6
推出BAGEL基准,用于在闭卷设置下评估语言模型在动物专业知识(如分类、形态、行为等)方面的掌握程度,支持细粒度分析。
👨🔬 Jiacheng Shen, Masato Hagiwara, Milad Alizadeh, Ellen Gilsenan-McMahon, Marius Miron, David Robinson, Emmanuel Chemla, Sara Keen, Gagan Narula, Mathieu Laurière, Matthieu Geist, Olivier Pietquin
学术论文
ArXiv
重要度: 6
提出HILBERT框架,通过互惠双对比目标和对齐正则化器,在低资源设置下学习长序列音频-文本的文档级表征,并在不平衡多分类任务上表现优异。
👨🔬 Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin
学术论文
ArXiv
重要度: 6
通过定量指标系统分析开源和闭源LLMs生成的能力问题(CQs)的特性(如可读性、相关性、结构复杂性),发现其生成性能受用例影响显著。
👨🔬 Reham Alharbi, Valentina Tamma, Terry R. Payne, Jacopo de Berardinis
学术论文
ArXiv
重要度: 6
提出一个两阶段目标检测与行为分析框架用于考试作弊检测,在大型数据集上实现高精度与快速推理,并考虑了结果私密传递的伦理设计。
👨🔬 Van-Truong Le, Le-Khanh Nguyen, Trong-Doanh Nguyen
学术论文
ArXiv
重要度: 5
提出潜在语法流(LGF)神经符号生成框架,用于从数据中发现常微分方程,将方程嵌入离散潜在空间并通过流模型递归生成候选方程。
👨🔬 Karin Yu, Eleni Chatzi, Georgios Kissas
学术论文
ArXiv
重要度: 5
报告在ACM FAccT会议上进行的大规模参与式设计过程,通过线上线下结合的方式共同塑造会议议程,为AI伦理社区的治理提供了可扩展的协同设计案例。
👨🔬 Shiran Dudy, Jan Simson, Yanan Long