2025#10 伟大的数学
文章
漫画 | 妻子的一桶冷水,把计算机科学的先驱给浇死了……
介绍了从二进制到逻辑运算,再到数字电路的发展。数学真是太伟大了,无论科学还是哲学,往下都能挖到数学。
PS: 香农用布尔代数分析并优化开关电路,发表《继电器与开关电路的符号分析》,竟然是他硕士期间的工作。联想到霍夫曼编码是霍夫曼修读《信息论》课程时写的大作业。
MoE模型专家激活高度稀疏,优点是推理速度快,缺点是显存占用高。为了充分利用计算资源,DeepSeek的策略是大规模专家并行,通过猛堆整体batch size来提高每个专家计算的batch size,不养闲人。 一体机的缺点在于卡太少了,不能达到很大的并行规模。
顺着这个思路,可以想到两点:
- 这种需要大规模并行的场景只适合大公司,比如云厂商,因为只有他们才能发挥出规模效应,获得比较高的资源利用率。规模不够大的话,瓶颈在于显存,而非算力。
- 使用大量消费级显卡部署MoE模型或许是一个比较好的选择,但DeepSeek参数量实在太大。或许对于参数量小一些MoE模型来说,使用大量消费级显卡会比使用几张高端显卡更好,成本更低,吞吐量更大。
我有一个探索
的环节,通常会看些自己几乎从未接触、从未了解的东西。这篇文章很明显属于探索
的产物。恍惚间意识到我读这篇文章,和文章中大爷买谷有些相似,我对二次元的了解肯定还不如大爷多呢。
这篇文章的写作像有模板一样,文笔也比较稚嫩,但现在很少能看到这种半新闻半散文的文章了。
References
[2] DeepSeek-V3 / R1 推理系统概览 - 知乎
💬评论