大模子开发者分享研发历程，知乎引领AI“思维链开源”_ope体育最新官方

大模子开发者分享研发历程，知乎引领AI“思维链开源”

2025-02-26

i黑马讯克日，DeepSeek跟月之暗面先后宣布最新研讨论文，一场聚焦年夜模子中心技巧的深度探讨随之在知乎开展。2月20日，月之暗面开源MoBA框架研发职员鹿恩哲、苏剑林分辨在知乎报告了研发思绪，与此同时，微软研讨院、清华年夜学团队以及阶跃星斗开源模子参加者，均发文分享研讨了各自结果与过程。这被业界称为继模子开源、论文开源之后的一次“头脑链开源”。鹿恩哲的知乎用户称号为“Andrew Lu”，署名为“新晋LLM练习师”，他以“三入思过崖”为比方，拆解了该模子框架研发进程中的三次要害冲破跟头脑改变：初次思过崖是“将MoBA 从串行两层留神力计划改并行的单层留神力计划”；第二次思过崖则从2023年9月始终连续到了2024年年终，为此团队参加者停止了多番剧烈探讨；最后一次思过崖则鉴于“MoBA自身优良的数学性子”，没让全部名目支付宏大的淹没本钱。MoBA名目中的别的一位参加者、知乎答主苏剑林，也发文弥补了一些信息，在他看来，MoBA值得业界持续延长探讨下去，“我感到MoBA并不但单是一次在Sprse Attention上的胜利实验，它的无效性还可能包含着一些值得沉思的实质道理在外面，等待各人的群策群力”。“这种试错的心路过程，是比技巧讲演都可贵的教训”，一位知乎用户如斯评估鹿恩哲的分享。业界广泛以为，模子参加者亲身拆解研发过程，是继模子开源、论文开源之后的一次“头脑链开源”。知乎上一直有AI范畴的从业者参加探讨，撰文分享各自卑言语模子的研讨过程。微软亚研院高等研讨员曹士杰在知乎撰文表现，其团队客岁研讨的任务也是同sparse attention（稀少留神力）有关。面壁智能结合开创人、清华年夜学盘算机系副教学刘知远的团队在2024年宣布过InfLLM，此中也波及一种稀少留神力改良，并被DeepSeek此次宣布的NSA论文所援用，InfLLM名目参加者、知乎答主“xcjthu”撰文表现，NAS最出色的局部仍是软硬一体化的计划，“正如Deepseek-V3带给各人的震动一样，我以为NAS的硬件亲跟性是这篇论文最出色的局部”。阶跃星斗于2月17日开源了两款多模态年夜模子，分辨是视频天生模子Step-Video 跟音频天生模子step-audio。此中视频天生模子的参加者、知乎答主“hzwer黄哲威”即于知乎撰文，细致先容了这款年夜模子的研讨过程，他称，“Step-Audio名目重要就是想施展年夜数据、年夜模子的相似年夜言语模子构造威力”。知乎席卷了最普遍的互联网、AI、呆板人等科技范畴的从业者，成为从业者们最青眼的交换场合跟思维碰撞的前沿阵地。在月之暗面MoBA与DeepSeek NSA的“撞车”宣布之后，浩繁开辟者抉择在知乎分享年夜模子研讨“踩坑”实录，不只代表着开源社区与学术生态的深度融会，更印证了知乎作为中国AI“头脑链开源地”的奇特平台代价。