来源: 青裁 于 2025-01-31 07:15:04 [档案] [旧帖] [给我悄悄话] 阅读数 : 286 (3550 bytes)
本帖于 2025-01-31 07:24:40 时间, 由普通用户 青裁 编辑
花了两天时间读了deepseek v3, R1-0, R1模型的技术报告和文章,虽然从原创和革命性来说不如transformer的发明,但是deepseek在数学和工程上的tricks应用的炉火纯青,其革命性也是肉眼可见:
** 让 AI 走向千家万户,不仅是企业还是个人,都可以无阻碍的应用 AI
** AI 的应用必将迎来大爆发,学 CS/AI的有福了,未来十年是 AI 的黄金十年
** 广大群众参与进来,推动 AI 发展,让我们离 AGI 越来越近。
股票: META,TESLA,微软,苹果 $YMYD$
DS V3:
LLM 模型,采用 MOE 架构, Dynamic Sparse Attention
用 PTX 底层编程,大大提高了 GPU 的效率,至少十倍,所以即使是阉割版的 GPU 也行。
。。。。
DS R0-1,三个开创性的工作
chain of thining
GRPO
RL-抛弃 pPO,RLHF,采用 RLAIF。。。
至于很多人说的蒸馏openAI,制造训练语料有时间再说。
相信这是中国创新工作的第一步,下一步期望是有类似 transformer 的革命。