西门子

杏彩体育官网消费级显卡可用!李开复零一万物发布并开源90亿参数

发布时间:2024-03-14 10:41:17 来源:杏彩体育官网app 作者:杏彩体育平台app

  这两者都是在3.1T token中英文数据上进行的预训练,Yi-9B则在此基础上,增加了0.8T token继续训练而成。  Yi-6B训练得已经很充分,再怎么新增更多token练效果可能也不会往

产品详情

  这两者都是在3.1T token中英文数据上进行的预训练,Yi-9B则在此基础上,增加了0.8T token继续训练而成。

  Yi-6B训练得已经很充分,再怎么新增更多token练效果可能也不会往上了,所以考虑扩增它的大小。(下图单位不是TB而是B)

  对原模型进行宽度扩增会带来更多的性能损失,通过选择合适的layer对模型进行深度扩增后,新增layer的input/output cosine 越接近1.0,即扩增后的模型性能越能保持原有模型的性能,模型性能损失微弱。

  依照此思路,零一万物选择复制Yi-6B相对靠后的16层(12-28 层),组成了48层的Yi-9B。

  即从固定的学习率开始,每当模型loss停止下降时就增加batch size,使其下降不中断,让模型学习得更加充分。

  实测中,零一万物使用greedy decoding的生成方式(即每次选择概率值最大的单词)来进行测试。

  (两者命名准则不一样,前者只用了Non-Embedding参数,后者用的是全部参数量并向上取整)


杏彩体育官网 上一篇:曝新麒麟芯片将超骁龙778G媲美Kirin 980 下一篇:优化创意应用!华硕ProArt RTX 4070T

返回

产品中心
新闻中心
员工活动