2025#08 混合语言
周记决定做些调整:
- 命名方式调整为
yyyy#ww title
,即期数跟着周数走,如本周是2025年第8周。之前是按顺序编号,不是周数。 - 更新时间调整为周六。如果错过的话,有空再补上,期数不间断。
其中,命名方式是受到虹线周刊的启发。但周记不是受到他的启发,而是蓄谋已久hhh,想要记录和分享。最期待的是很多年后的自己可以看到这些稚嫩又鲜活的想法。
文章
[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
During the training process, we observe that CoT often exhibits language mixing, particularly when RL prompts involve multiple languages. To mitigate the issue of language mixing, we introduce a language consistency reward during RL training, which is calculated as the proportion of target language words in the CoT. Although ablation experiments show that such alignment results in a slight degradation in the model’s performance, this reward aligns with human preferences, making it more readable.
DeepSeek-R1-Zero是不使用数据微调,直接在基座模型DeepSeek-V3的基础上进行强化学习训练。有意思的是,这样训练出来的模型会输出混合各种语言的内容,对人类来说可读性很差。为了解决这一问题,DeepSeek-R1在DeepSeek-R1-Zero的基础上进行了改进,强化学习训练过程中所使用的reward除了reasoning task的准确率之外,还添加了语言一致性的指标,这使得DeepSeek-R1的输出可读性更好。但消融实验表明,语言一致性的添加虽然更符合人类阅读的偏好,却降低了推理能力。
开个脑洞。《旧约全书》中有一个关于巴别塔的故事,讲的是
一群只说一种语言的人在“大洪水”之后从东方来到了示拿地区,并决定在这修建一座城市和一座“能够通天的”高塔;上帝见此情形就把他们的语言打乱,让他们再也不能明白对方的意思,并把他们分散到了世界各地。
我对语言有两点认识:
- 语言是通信的途径,使协作成为可能。
- 语言的边界限制了思想的边界,语言中缺乏的概念会是思考时缺少的工具。
根据上面两点,每种自然语言的特点和表达空间有所差异,如果能综合使用各种自然语言,一方面能达成更大范围的协作,另一方面可以在更大的表达空间中进行推理。
书摘

