埃隆·马斯克言出必行,开源了他家的大模子Glock。与其他基于Transformer架构的大模子比较,Glock有何私有之处呢?本文将真切理会Glock的架构盘算推算,并与其他模子进行比较。
一、Glock的积木块:MOE架构总计的大模子王人构建于Transformer架构之上,Glock也不例外。在代码的1292行,界说了一个Transformer模块。
Glock的中枢在于其混杂民众(Mixture of Experts,MOE)架构。Glock使用了八民众两活跃的MOE模子,与之前开源的Mistral AI的八民众七活跃的7B模子近似,GPT-4的架构算计也与此近似。
这意味着在每个Transformer层中,独一两个民众会被激活进行计较,从而显贵裁汰了计较本钱。
二、参数鸿沟与层数对比Glock的八民众两活跃MOE架构堆叠了64层,均为MOE模块。比较之下,GPT-4堆叠了96层,参数目达到了惊东说念主的3140亿。
三、真切Glock的Transformer模块从数据进口的词镶嵌层运转,Glock的词汇量为32072。镶嵌层的指标是将词转念为高维向量,Glock将每个词转念为一个6144维的向量。
之后,数据参增加头贯注力机制。Glock使用了48头贯注力,将6144维的向量切分为48份,每份128维。
为了简易算力和提升速率,独一查询向量(Q)被切分为48头,键向量(K)和值向量(V)则被分红六组,每组分享八个头进行自贯注力计较。多头贯注力机制之后是密集的前馈神经汇集,将笼罩层鸿沟放大八倍,达到8乘以6144的鸿沟,参数目大幅增加。Glock单次最多不错护士8192个token,这意味着一次护士8192乘以6144个数字的强劲数据流。
四、Glock的开源与明天揣度以上即是马斯克开源大模子Glock的总体框架理会。尽管开源,但马斯克仍然可能靠近月旦:不开源被斥责“卡脖子”,开源后又可能被诟病“数据护士神气不妥”。
接下来将进行实质部署测试开云体育,评估Glock的出产才能。