行业动态
Hacker News
重要度: 9
AI领域的下一个比尔·盖茨或爱因斯坦。
行业动态
Hacker News
重要度: 8
探讨AI进步速度是否呈指数级增长。
行业动态
Hacker News
重要度: 7
探讨当前AI算法的使用痛点。
行业动态
Hacker News
重要度: 7
探讨NLP、AI、ML及机器人技术是否仅为过眼云烟。
行业动态
Hacker News
重要度: 6
谷歌提供Common Lisp与机器学习实习机会。
行业动态
Hacker News
重要度: 6
初探人工智能领域及其预期。
行业动态
Hacker News
重要度: 5
AI领域的非主流观点索引。
行业动态
Hacker News
重要度: 5
关于研究生院(CS博士)的思考。
行业动态
Hacker News
重要度: 4
询问对纽约市地方法律144的关注。
行业动态
Hacker News
重要度: 4
云计算GPU成本降低50%,相比AWS节省开发者50%费用。
行业动态
Hacker News
重要度: 3
初创公司通过书籍销售筹集资金。
行业动态
Hacker News
重要度: 2
生物信息学家的讨论。
开源项目
GitHub
重要度: 10
连接大型语言模型与机器学习社区的系统。
⭐ 24202 stars
开源项目
GitHub
重要度: 9
高性能、大规模向量数据库和向量搜索引擎。
⭐ 24353 stars
开源项目
GitHub
重要度: 9
工业实践中的机器学习框架,支持高性能单机和分布式训练。
⭐ 22910 stars
开源项目
GitHub
重要度: 8
视觉Transformer实现,简单方法实现视觉分类SOTA。
⭐ 23223 stars
开源项目
GitHub
重要度: 8
解释任何机器学习模型输出的游戏理论方法。
⭐ 24044 stars
开源项目
GitHub
重要度: 7
PyTorch中的图像到图像转换技术。
⭐ 24162 stars
开源项目
GitHub
重要度: 7
500个AI、机器学习、深度学习、计算机视觉和NLP项目带代码。
⭐ 24290 stars
开源项目
GitHub
重要度: 6
模块化平台,包括MAX和Mojo。
⭐ 24379 stars
开源项目
GitHub
重要度: 6
利用量子力学思想从单一示例生成位图和瓦片地图。
⭐ 24093 stars
开源项目
GitHub
重要度: 5
fastai书籍,以Jupyter Notebooks形式发布。
⭐ 23270 stars
开源项目
GitHub
重要度: 5
流行机器学习算法的Python示例,带有交互式Jupyter演示和数学解释。
⭐ 23547 stars
开源项目
GitHub
重要度: 4
流行的图像标注工具,现为Label Studio社区的一部分。
⭐ 23913 stars
学术论文
ArXiv
重要度: 9
提出mTSBench,大规模评估多元时间序列异常检测方法,强调模型选择的重要性。
👨🔬 Xiaona Zhou, Constantin Brif, Ismini Lourentzou
学术论文
ArXiv
重要度: 8
研究通过人体动作预测第一人称视频,利用条件扩散变换器模拟人类行为对环境的影响。
👨🔬 Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik
学术论文
ArXiv
重要度: 8
WorldVLA模型统一动作与图像理解生成,通过自回归预测未来图像提升动作生成。
👨🔬 Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen
学术论文
ArXiv
重要度: 8
Mind2Web 2基准评估代理搜索系统,提出代理作为评委的自动评估框架。
👨🔬 Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su
学术论文
ArXiv
重要度: 8
TITAN通过查询令牌对抗学习,提升无源域自适应目标检测的性能。
👨🔬 Tajamul Ashraf, Janibul Bashir
学术论文
ArXiv
重要度: 7
引入HalluSegBench,首个通过反事实视觉推理评估视觉基础分割幻觉的基准。
👨🔬 Xinzhuo Li, Adheesh Juvekar, Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou
学术论文
ArXiv
重要度: 7
PsyLite轻量级心理辅导模型,通过两阶段训练提升对话安全和专业性。
👨🔬 Fangjun Ding, Renyu Zhang, Xinyu Feng, Chengye Xie, Zheng Zhang, Yanting Zhang
学术论文
ArXiv
重要度: 7
Large language models (LLMs) are regularly evaluated using benchmark
datasets. But what justifies making inferences about an LLM's capabilities
based on its answers to a curated set of questions? This paper first introduces
a formal framework to address this question. The key is to note that the
benchmarks used to test LLMs -- such as AP exams -- are also those used to test
people. However, this raises an implication: these benchmarks are only valid
tests if LLMs misunderstand concepts in ways that mirror human
misunderstandings. Otherwise, success on benchmarks only demonstrates potemkin
understanding: the illusion of understanding driven by answers irreconcilable
with how any human would interpret a concept. We present two procedures for
quantifying the existence of potemkins: one using a specially designed
benchmark in three domains, the other using a general procedure that provides a
lower-bound on their prevalence. We find that potemkins are ubiquitous across
models, tasks, and domains. We also find that these failures reflect not just
incorrect understanding, but deeper internal incoherence in concept
representations.
👨🔬 Marina Mancoridis, Bec Weeks, Keyon Vafa, Sendhil Mullainathan
学术论文
ArXiv
重要度: 7
结合过程挖掘和随机模拟,提升网络物理系统中的故障诊断能力。
👨🔬 Francesco Vitale, Nicola Dall'Ora, Sebastiano Gaiardelli, Enrico Fraccaroli, Nicola Mazzocca, Franco Fummi
学术论文
ArXiv
重要度: 6
分析用户如何通过对话AI寻求健康信息,揭示现有模型的局限和改进方向。
👨🔬 Akshay Paruchuri, Maryam Aziz, Rohit Vartak, Ayman Ali, Best Uchehara, Xin Liu, Ishan Chatterjee, Monica Agrawal
学术论文
ArXiv
重要度: 6
提出AH2AC2挑战,促进人类与AI在不确定信息下的协调合作研究。
👨🔬 Tin Dizdarević, Ravi Hammond, Tobias Gessler, Anisoara Calinescu, Jonathan Cook, Matteo Gallici, Andrei Lupu, Jakob Nicolaus Foerster
学术论文
ArXiv
重要度: 5
推出skLEP,首个全面评估斯洛伐克自然语言理解模型的基准。
👨🔬 Marek Šuppa, Andrej Ridzik, Daniel Hládek, Tomáš Javůrek, Viktória Ondrejová, Kristína Sásiková, Martin Tamajka, Marián Šimko