行业动态
Hacker News
重要度: 9
探讨务实企业如何比AI炒作周期更持久,强调可持续商业模式的重要性。
行业动态
Hacker News
重要度: 8
讨论当前AI算法的实际使用痛点,反映技术落地挑战。
行业动态
Hacker News
重要度: 8
Ask HN: Is the rate of progress in AI exponential?
行业动态
Hacker News
重要度: 7
讨论NLP、AI等技术是短暂趋势还是深远变革,评估行业前景。
行业动态
Hacker News
重要度: 7
关注纽约市地方法律144对AI的影响,涉及伦理与监管议题。
行业动态
Hacker News
重要度: 6
探讨学习AI的推荐阅读材料,反映社区知识分享需求。
行业动态
Hacker News
重要度: 6
计算机科学背景者询问入门AI的预期,涉及学习路径建议。
行业动态
Hacker News
重要度: 5
AI领域的非主流观点索引,可能涉及争议性讨论。
行业动态
Hacker News
重要度: 5
谷歌招聘Common Lisp与机器学习实习生,反映技术栈多样性。
行业动态
Hacker News
重要度: 4
初创公司通过书籍销售筹集资金,展示非传统融资方式。
行业动态
Hacker News
重要度: 4
生物信息学相关职位或讨论,连接AI与生命科学领域。
行业动态
Hacker News
重要度: 3
宣传某AI人物为下一个比尔·盖茨或爱因斯坦,内容可能夸大。
学术论文
ArXiv
重要度: 9
提出去噪熵度量,量化掩码扩散模型生成路径的不确定性,并设计两种算法优化解码顺序,显著提升生成质量。
👨🔬 Ziyu Chen, Xinbei Jiang, Peng Sun, Tao Lin
学术论文
ArXiv
重要度: 8
提出基于平坦性感知泛化界的理论框架,将模型合并视为多教师知识蒸馏问题,并开发SAMerging方法,在视觉与NLP任务上取得新SOTA。
👨🔬 Seyed Arshan Dalili, Mehrdad Mahdavi
学术论文
ArXiv
重要度: 8
通过实验发现LLM训练计算量与专业任务生产力存在缩放规律,模型进步每年减少任务时间8%,未来十年或提升美国生产率约20%。
👨🔬 Ali Merali
学术论文
ArXiv
重要度: 8
Large language models (LLMs) have revolutionized software development through AI-assisted coding tools, enabling developers with limited programming expertise to create sophisticated applications. However, this accessibility extends to malicious actors who may exploit these powerful tools to generate harmful software. Existing jailbreaking research primarily focuses on general attack scenarios against LLMs, with limited exploration of malicious code generation as a jailbreak target. To address this gap, we propose SPELL, a comprehensive testing framework specifically designed to evaluate the weakness of security alignment in malicious code generation. Our framework employs a time-division selection strategy that systematically constructs jailbreaking prompts by intelligently combining sentences from a prior knowledge dataset, balancing exploration of novel attack patterns with exploitation of successful techniques. Extensive evaluation across three advanced code models (GPT-4.1, Claude-3.5, and Qwen2.5-Coder) demonstrates SPELL's effectiveness, achieving attack success rates of 83.75%, 19.38%, and 68.12% respectively across eight malicious code categories. The generated prompts successfully produce malicious code in real-world AI development tools such as Cursor, with outputs confirmed as malicious by state-of-the-art detection systems at rates exceeding 73%. These findings reveal significant security gaps in current LLM implementations and provide valuable insights for improving AI safety alignment in code generation applications.
👨🔬 Yifan Huang, Xiaojun Jia, Wenbo Guo, Yuqiang Sun, Yihao Huang, Chong Wang, Yang Liu
学术论文
ArXiv
重要度: 7
系统定义并测量LLM评估中的三类噪声,提出全配对方法,发现预测噪声通常大于数据噪声,为高效实验设计提供依据。
👨🔬 Sida Wang
学术论文
ArXiv
重要度: 7
推出首个基于声子计算的大规模晶体生成动态稳定性基准,揭示当前模型生成晶体平均稳定率仅25.83%,并识别出28,119个稳定结构。
👨🔬 Xiao-Qi Han, Ze-Feng Gao, Peng-Jie Guo, Zhong-Yi Lu
学术论文
ArXiv
重要度: 6
提出C2LLM代码嵌入模型系列,采用多头注意力池化模块生成序列嵌入,在MTEB-Code基准上创下同类模型新纪录。
👨🔬 Jin Qin, Zihan Liao, Ziyin Zhang, Hang Yu, Peng Di, Rui Wang
学术论文
ArXiv
重要度: 6
提出SMART小型语言模型,采用分层处理结构,参数仅45.51M,在工程手册辅助任务上准确率比GPT-2高21.3%,幻觉更少。
👨🔬 Divij Dudeja, Mayukha Pal
学术论文
ArXiv
重要度: 6
提出LookPlanGraph方法,利用视觉语言模型动态更新场景图以适应环境变化,在模拟与真实机器人指令跟随任务中优于静态图方法。
👨🔬 Anatoly O. Onishchenko, Alexey K. Kovalev, Aleksandr I. Panov
学术论文
ArXiv
重要度: 5
提出动量优化算法ARS-OPT,加速硬标签黑盒对抗攻击中的射线搜索,在ImageNet和CIFAR-10上超越13种先进方法。
👨🔬 Xinjie Xu, Shuyu Cheng, Dongwei Xu, Qi Xuan, Chen Ma
学术论文
ArXiv
重要度: 5
提出轻量级两阶段检索流程,结合事件实体提取与BEiT-3模型,在OpenEvents v1基准上实现0.559的平均精度,显著优于基线。
👨🔬 Dao Sy Duy Minh, Huynh Trung Kiet, Nguyen Lam Phu Quy, Phu-Hoa Pham, Tran Chi Nguyen
学术论文
ArXiv
重要度: 4
比较初高中学生在AI辅助编程学习中的关键学习因素,发现初中生评价模式整体性强,高中生则更分化,为年龄适配的AI整合策略提供依据。
👨🔬 Gaia Ebli, Bianca Raimondi, Maurizio Gabbrielli