AI资讯日报 - 2025/6/24

👨‍🔬 Xiaowei Chi, Kuangzhi Ge, Jiaming Liu, Siyuan Zhou, Peidong Jia, Zichen He, Yuzhen Liu, Tingguang Li, Lei Han, Sirui Han, Shanghang Zhang, Yike Guo

CommVQ: Commutative Vector Quantization for KV Cache Compression

学术论文 ArXiv 重要度: 7

提出CommVQ方法，显著减少长上下文LLM推理的内存使用。

👨‍🔬 Junyan Li, Yang Zhang, Muhammad Yusuf Hassan, Talha Chafekar, Tianle Cai, Zhile Ren, Pengsheng Guo, Foroozan Karimzadeh, Colorado Reed, Chong Wang, Chuang Gan

OmniGen2: Exploration to Advanced Multimodal Generation

学术论文 ArXiv 重要度: 7

介绍OmniGen2，一个多功能开源生成模型。

👨‍🔬 Chenyuan Wu, Pengfei Zheng, Ruiran Yan, Shitao Xiao, Xin Luo, Yueze Wang, Wanli Li, Xiyan Jiang, Yexin Liu, Junjie Zhou, Ze Liu, Ziyi Xia, Chaofan Li, Haoge Deng, Jiahao Wang, Kun Luo, Bo Zhang, Defu Lian, Xinlong Wang, Zhongyuan Wang, Tiejun Huang, Zheng Liu

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

学术论文 ArXiv 重要度: 7

提出LongWriter-Zero，通过强化学习掌握超长文本生成。

👨‍🔬 Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li

Steering Conceptual Bias via Transformer Latent-Subspace Activation

学术论文 ArXiv 重要度: 6

研究通过激活潜在子空间来引导语言模型的编程语言偏好。

👨‍🔬 Vansh Sharma, Venkat Raman

OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation

学术论文 ArXiv 重要度: 6

介绍OmniAvatar，提升音频驱动的人体动画生成。

👨‍🔬 Qijun Gan, Ruizi Yang, Jianke Zhu, Shaofei Xue, Steven Hoi

TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting

学术论文 ArXiv 重要度: 6

提出TAMMs模型，用于卫星图像变化理解和预测。

👨‍🔬 Zhongbin Guo, Yuhao Wang, Ping Jian, Xinyue Chen, Wei Peng, Ertai E

Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories

学术论文 ArXiv 重要度: 6

研究LLM-based代理在软件工程任务中的决策过程。

👨‍🔬 Islem Bouzenia, Michael Pradel

Mechanistic Interpretability Needs Philosophy

学术论文 ArXiv 重要度: 5

探讨机械解释性研究需要哲学的加入。

👨‍🔬 Iwan Williams, Ninell Oldenburg, Ruchira Dhar, Joshua Hatherley, Constanza Fierro, Nina Rajcic, Sandrine R. Schiller, Filippos Stamatiou, Anders Søgaard

🤖 AI资讯日报

📊 今日趋势总结

Ask HN: Is the rate of progress in AI exponential?

Ask HN: Anyone concerned about NYC Local Law 144?

50% Cheaper GPUs for cloud-computing / Saving devs 50% compared to AWS

Ask HN: What's the pain using current AI algorithms?

NLP, AI, ML, bots – a passing trend or much more? What's your take on this?

Common Lisp + Machine Learning Internship at Google (Mountain View, CA)

Ask HN: Dipping my toes with artificial intelligence and what to expect? (CS)

The AI Crackpot Index

Bioinformatician

Ask HN: Thoughts on grad school? (CS PhD)

Show HN: Startup Raising capital through Book Sales

The Next Bill Gates or Albert Einstein in AI “Chris Clark” – Yourobot

openai/CLIP

huggingface/diffusers

Lightning-AI/pytorch-lightning

google-ai-edge/mediapipe

tatsu-lab/stanford_alpaca

iperov/DeepFaceLive

google-research/tuning_playbook

lutzroeder/netron

mli/paper-reading

AMAI-GmbH/AI-Expert-Roadmap

jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations

OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization

MinD: Unified Visual Imagination and Control via Hierarchical World Models

CommVQ: Commutative Vector Quantization for KV Cache Compression

OmniGen2: Exploration to Advanced Multimodal Generation

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Steering Conceptual Bias via Transformer Latent-Subspace Activation

OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation

TAMMs: Temporal-Aware Multimodal Model for Satellite Image Change Understanding and Forecasting

Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories

Mechanistic Interpretability Needs Philosophy

📅 历史日报目录