行业动态
Hacker News
重要度: 9
讨论当前AI算法的实际应用痛点和局限性。
行业动态
Hacker News
重要度: 8
探讨AI技术进步是否呈指数级增长及其影响。
行业动态
Hacker News
重要度: 8
分析务实企业如何超越AI炒作周期,强调可持续性。
行业动态
Hacker News
重要度: 7
讨论NLP、AI、ML和机器人技术是短暂趋势还是长期变革。
行业动态
Hacker News
重要度: 7
Ask HN: Anyone concerned about NYC Local Law 144?
行业动态
Hacker News
重要度: 6
社区推荐学习AI的阅读材料和资源。
行业动态
Hacker News
重要度: 6
计算机科学初学者询问入门AI的期望和建议。
行业动态
Hacker News
重要度: 5
可能涉及对AI领域夸大或不实言论的指数化评估。
行业动态
Hacker News
重要度: 5
谷歌招聘结合Common Lisp和机器学习的实习职位。
行业动态
Hacker News
重要度: 5
生物信息学相关职位或讨论,涉及AI在生物领域的应用。
行业动态
Hacker News
重要度: 4
初创公司通过书籍销售筹集资金,可能与AI主题相关。
行业动态
Hacker News
重要度: 3
宣传个人在AI领域的潜力,类比比尔·盖茨或爱因斯坦。
学术论文
ArXiv
重要度: 9
提出Astra通用交互世界模型,通过自回归去噪架构实现多场景长时程视频预测,支持精确动作控制。
👨🔬 Yixuan Zhu, Jiaqi Feng, Wenzhao Zheng, Yuan Gao, Xin Tao, Pengfei Wan, Jie Zhou, Jiwen Lu
学术论文
ArXiv
重要度: 8
提出REST基准系统评估多模态大模型的跨模态不一致性,发现现有模型无法在不同模态间保持一致性推理。
👨🔬 Angela van Sprang, Laurens Samson, Ana Lucic, Erman Acar, Sennay Ghebreab, Yuki M. Asano
学术论文
ArXiv
重要度: 8
提出SAQ解码器框架,结合Transformer学习和约束感知后处理,实现近最大似然精度和线性计算复杂度的量子纠错。
👨🔬 David Zenati, Eliya Nachmani
学术论文
ArXiv
重要度: 7
While scaling laws for Large Language Models (LLMs) traditionally focus on proxy metrics like pretraining loss, predicting downstream task performance has been considered unreliable. This paper challenges that view by proposing a direct framework to model the scaling of benchmark performance from the training budget. We find that for a fixed token-to-parameter ratio, a simple power law can accurately describe the scaling behavior of log accuracy on multiple popular downstream tasks. Our results show that the direct approach extrapolates better than the previously proposed two-stage procedure, which is prone to compounding errors. Furthermore, we introduce functional forms that predict accuracy across token-to-parameter ratios and account for inference compute under repeated sampling. We validate our findings on models with up to 17B parameters trained on up to 350B tokens across two dataset mixtures. To support reproducibility and encourage future research, we release the complete set of pretraining losses and downstream evaluation results.
👨🔬 Jakub Krajewski, Amitis Shidani, Dan Busbridge, Sam Wiseman, Jason Ramapuram
学术论文
ArXiv
重要度: 7
利用稀疏自编码器解耦LLM内部激活,开发RAGLens轻量级幻觉检测器,准确识别不忠实的RAG输出。
👨🔬 Guangzhi Xiong, Zhenghao He, Bohan Liu, Sanchit Sinha, Aidong Zhang
学术论文
ArXiv
重要度: 7
提出无标注视觉推理训练框架,结合LLM和VLM验证器通过强化学习和困难负样本挖掘提升推理与定位能力。
👨🔬 Damiano Marsili, Georgia Gkioxari
学术论文
ArXiv
重要度: 7
揭示LLM表格数据生成的隐私风险,提出LevAtt成员推断攻击,展示数字序列记忆导致显著隐私泄露。
👨🔬 Joshua Ward, Bochao Gu, Chi-Hua Wang, Guang Cheng
学术论文
ArXiv
重要度: 6
提出Fed-SE联邦自进化框架,通过局部进化-全局聚合范式实现隐私约束下多环境LLM智能体的稳健知识迁移。
👨🔬 Xiang Chen, Yuling Shi, Qizhen Lan, Yuchao Qiu, Xiaodong Gu
学术论文
ArXiv
重要度: 6
提出ContextGAN上下文感知差分隐私GAN,通过约束矩阵整合领域规则,生成既保护隐私又符合领域约束的合成数据。
👨🔬 Anantaa Kotal, Anupam Joshi
学术论文
ArXiv
重要度: 6
提出DAO-GP漂移感知在线高斯过程模型,具备内置漂移检测与适应机制,实现完全自适应、无超参数的非线性回归。
👨🔬 Mohammad Abu-Shaira, Ajita Rattani, Weishi Shi
学术论文
ArXiv
重要度: 6
提出EcomBench电商基准,基于真实用户需求构建,全面评估智能体在现实电商环境中的深度检索、多步推理等核心能力。
👨🔬 Rui Min, Zile Qiao, Ze Xu, Jiawen Zhai, Wenyu Gao, Xuanzhong Chen, Haozhen Sun, Zhen Zhang, Xinyu Wang, Hong Zhou, Wenbiao Yin, Xuan Zhou, Yong Jiang, Haicheng Liu, Liang Ding, Ling Zou, Yi R., Fung, Yalong Li, Pengjun Xie
学术论文
ArXiv
重要度: 5
提出SOLI方法,采用孪生网络架构优化低分辨率图像的潜在嵌入,实现轻量级图像描述,降低计算开销。
👨🔬 Jing Jie Tan, Anissa Mokraoui, Ban-Hoe Kwan, Danny Wee-Kiat Ng, Yan-Chai Hum