行业动态
Hacker News
重要度: 8
探讨当前AI算法使用中的痛点。
行业动态
Hacker News
重要度: 7
讨论AI进步速度是否呈指数级增长。
行业动态
Hacker News
重要度: 7
探讨NLP、AI、ML和机器人技术是短暂趋势还是更深远的变革。
行业动态
Hacker News
重要度: 6
询问对纽约市地方法律144条的关注。
行业动态
Hacker News
重要度: 5
AI狂热指数。
行业动态
Hacker News
重要度: 5
谷歌Common Lisp与机器学习实习机会。
行业动态
Hacker News
重要度: 4
AI领域的下一个比尔·盖茨或爱因斯坦——Chris Clark。
行业动态
Hacker News
重要度: 4
云计算GPU成本降低50%,相比AWS节省开发者50%费用。
行业动态
Hacker News
重要度: 3
初探人工智能及其预期。
行业动态
Hacker News
重要度: 3
关于研究生院(CS博士)的看法。
行业动态
Hacker News
重要度: 2
生物信息学家。
行业动态
Hacker News
重要度: 2
初创公司通过书籍销售筹集资金。
开源项目
GitHub
重要度: 10
组织有序的最先进深度学习脚本,易于训练和部署。
⭐ 14375 stars
开源项目
GitHub
重要度: 9
自动化机器学习生命周期的开源工具包。
⭐ 14219 stars
开源项目
GitHub
重要度: 8
TensorFlow、Keras、PyTorch和Apache MXNet的分布式训练框架。
⭐ 14526 stars
开源项目
GitHub
重要度: 7
一个非常简单的框架,用于最先进的自然语言处理(NLP)。
⭐ 14213 stars
开源项目
GitHub
重要度: 6
在机器学习框架之间转换代码。
⭐ 14227 stars
开源项目
GitHub
重要度: 5
所有命名GANs的列表!
⭐ 14576 stars
开源项目
GitHub
重要度: 4
数据版本控制和ML实验。
⭐ 14613 stars
开源项目
GitHub
重要度: 3
用于机器学习实验的图像增强。
⭐ 14614 stars
开源项目
GitHub
重要度: 2
深度学习中的卷积算术技术报告。
⭐ 14384 stars
开源项目
GitHub
重要度: 1
用于创建聊天机器的机器学习对话引擎。
⭐ 14360 stars
学术论文
ArXiv
重要度: 9
提出Point3R,一种在线密集流式3D重建框架,通过显式空间指针记忆提升性能。
👨🔬 Yuqi Wu, Wenzhao Zheng, Jie Zhou, Jiwen Lu
学术论文
ArXiv
重要度: 9
探讨AI的道德责任与服从性,呼吁评估框架转向伦理判断。
👨🔬 Joseph Boland
学术论文
ArXiv
重要度: 8
LiteReality从RGB-D扫描中重建紧凑、真实的3D虚拟副本,支持图形管道关键特性。
👨🔬 Zhening Huang, Xiaoyang Wu, Fangcheng Zhong, Hengshuang Zhao, Matthias Nießner, Joan Lasenby
学术论文
ArXiv
重要度: 8
提出MOTIF,一种通过强化微调在LLMs中实现模块化思维的RL训练方法。
👨🔬 Purbesh Mitra, Sennur Ulukus
学术论文
ArXiv
重要度: 8
SynapseRoute通过动态路由框架优化LLMs的准确性和成本效率。
👨🔬 Wencheng Zhang, Shiqin Qiao, Lingjie Luo, Yinfeng Li, Chuanyang Zheng, Qian Xu, Meng Li, Yong Gui, Yijun He, Jianing Qiu, Jindong Hong, Jiankai Sun
学术论文
ArXiv
重要度: 8
揭示LLMs中的自我纠正盲点,提出通过简单干预显著减少盲点的方法。
👨🔬 Ken Tsui
学术论文
ArXiv
重要度: 7
Multiple choice benchmarks have long been the workhorse of language model
evaluation because grading multiple choice is objective and easy to automate.
However, we show multiple choice questions from popular benchmarks can often be
answered without even seeing the question. These shortcuts arise from a
fundamental limitation of discriminative evaluation not shared by evaluations
of the model's free-form, generative answers. Until recently, there appeared to
be no viable, scalable alternative to multiple choice--but, we show that this
has changed. We consider generative evaluation via what we call answer
matching: Give the candidate model the question without the options, have it
generate a free-form response, then use a modern language model with the
reference answer to determine if the response matches the reference. To compare
the validity of different evaluation strategies, we annotate MMLU-Pro and
GPQA-Diamond to obtain human grading data, and measure the agreement of each
evaluation approach. We find answer matching using recent models--even small
ones--achieves near-perfect agreement, in the range of inter-annotator
agreement. In contrast, both multiple choice evaluation and using
LLM-as-a-judge without reference answers aligns poorly with human grading.
Improving evaluations via answer matching is not merely a conceptual concern:
the rankings of several models change significantly when evaluating their
free-form responses with answer matching. In light of these findings, we
discuss how to move the evaluation ecosystem from multiple choice to answer
matching.
👨🔬 Nikhil Chandak, Shashwat Goel, Ameya Prabhu, Moritz Hardt, Jonas Geiping
学术论文
ArXiv
重要度: 7
StepHint通过多级逐步提示增强强化学习的推理能力,解决近失奖励和探索停滞问题。
👨🔬 Kaiyi Zhang, Ang Lv, Jinpeng Li, Yongbo Wang, Feng Wang, Haoyuan Hu, Rui Yan
学术论文
ArXiv
重要度: 7
USAD通过无监督数据增强和时空注意力扩散网络提升人类活动识别性能。
👨🔬 Ying Yu, Hang Xiao, Siyao Li, Jiarui Li, Haotian Tang, Hanyu Liu, Chao Li
学术论文
ArXiv
重要度: 7
研究RIS辅助的mmWave MIMO系统中基于DNN的预编码设计,提升系统吞吐量。
👨🔬 Po-Heng Chou, Ching-Wen Chen, Wan-Jen Huang, Walid Saad, Yu Tsao, Ronald Y. Chang
学术论文
ArXiv
重要度: 6
扩展DHOL,增加精化和商类型作为子类型的特殊情况,提升表达能力和自动化支持。
👨🔬 Colin Rothgang, Florian Rabe
学术论文
ArXiv
重要度: 6
提出Agentic Benchmark Checklist (ABC),为构建严格的代理基准提供指南。
👨🔬 Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpre, Kevin Meng, Rebecca Weiss, Fazl Barez, Rahul Gupta, Jwala Dhamala, Jacob Merizian, Mario Giulianelli, Harry Coppock, Cozmin Ududec, Jasjeet Sekhon, Jacob Steinhardt, Antony Kellerman, Sarah Schwettmann, Matei Zaharia, Ion Stoica, Percy Liang, Daniel Kang