2025#10 伟大的数学

文章

介绍了从二进制到逻辑运算，再到数字电路的发展。数学真是太伟大了，无论科学还是哲学，往下都能挖到数学。

PS: 香农用布尔代数分析并优化开关电路，发表《继电器与开关电路的符号分析》，竟然是他硕士期间的工作。联想到霍夫曼编码是霍夫曼修读《信息论》课程时写的大作业。

MoE模型专家激活高度稀疏，优点是推理速度快，缺点是显存占用高。为了充分利用计算资源，DeepSeek的策略是大规模专家并行，通过猛堆整体batch size来提高每个专家计算的batch size，不养闲人。 一体机的缺点在于卡太少了，不能达到很大的并行规模。

顺着这个思路，可以想到两点：

这种需要大规模并行的场景只适合大公司，比如云厂商，因为只有他们才能发挥出规模效应，获得比较高的资源利用率。规模不够大的话，瓶颈在于显存，而非算力。
使用大量消费级显卡部署MoE模型或许是一个比较好的选择，但DeepSeek参数量实在太大。或许对于参数量小一些MoE模型来说，使用大量消费级显卡会比使用几张高端显卡更好，成本更低，吞吐量更大。

我有一个探索的环节，通常会看些自己几乎从未接触、从未了解的东西。这篇文章很明显属于探索的产物。恍惚间意识到我读这篇文章，和文章中大爷买谷有些相似，我对二次元的了解肯定还不如大爷多呢。

这篇文章的写作像有模板一样，文笔也比较稚嫩，但现在很少能看到这种半新闻半散文的文章了。

💬评论