学术论文
ArXiv
重要度: 9
研究发现视频模型在短程空间推理方面表现良好,但在长程因果推理和抽象逻辑方面仍有局限,尚不能作为独立的零样本推理器。
👨🔬 Ziyu Guo, Xinyan Chen, Renrui Zhang, Ruichuan An, Yu Qi, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng
学术论文
ArXiv
重要度: 8
提出远程劳动指数评估AI自动化实际工作能力,目前AI代理自动化率仅为2.5%,为AI经济影响提供实证基准。
👨🔬 Mantas Mazeika, Alice Gatti, Cristina Menghini, Udari Madhushani Sehwag, Shivam Singhal, Yury Orlovskiy, Steven Basart, Manasi Sharma, Denis Peskoff, Elaine Lau, Jaehyuk Lim, Lachlan Carroll, Alice Blair, Vinaya Sivakumar, Sumana Basu, Brad Kenstler, Yuntao Ma, Julian Michael, Xiaoke Li, Oliver Ingebretsen, Aditya Mehta, Jean Mottola, John Teichmann, Kevin Yu, Zaina Shaik, Adam Khoja, Richard Ren, Jason Hausenloy, Long Phan, Ye Htet, Ankit Aich, Tahseen Rabbani, Vivswan Shah, Andriy Novykov, Felix Binder, Kirill Chugunov, Luis Ramirez, Matias Geralnik, Hernán Mesura, Dean Lee, Ed-Yeremai Hernandez Cardona, Annette Diamond, Summer Yue, Alexandr Wang, Bing Liu, Ernesto Hernandez, Dan Hendrycks
学术论文
ArXiv
重要度: 7
提出Gistify任务评估代码LLM理解代码库能力,当前模型在复制复杂代码库功能时仍面临挑战。
👨🔬 Hyunji Lee, Minseon Kim, Chinmay Singh, Matheus Pereira, Atharv Sonwane, Isadora White, Elias Stengel-Eskin, Mohit Bansal, Zhengyan Shi, Alessandro Sordoni, Marc-Alexandre Côté, Xingdi Yuan, Lucas Caccia
学术论文
ArXiv
重要度: 7
研究发现FP16可有效解决RL微调中的训练-推理不匹配问题,提供更稳定优化和更强性能。
👨🔬 Penghui Qi, Zichen Liu, Xiangxin Zhou, Tianyu Pang, Chao Du, Wee Sun Lee, Min Lin