hongkongdoll 免费视频 Meta夜深推出Llama 4系列 :单卡H100能跑,千万高下文,还有2万亿“巨兽”
发布日期:2025-04-09 07:06 点击次数:139
小扎终于想起发布 Llama 4 了,蓝本早就应该发布的的节拍全被DeepSeek R1打乱了hongkongdoll 免费视频,哈哈!
Meta 刚刚放出了 Llama 4 系列的首批模子,按照官推的说法此次发布是对 Llama 系列的一次绝对重新筹划
先划要点:
中枢变化:Llama 4 全系遴荐搀和内行(MoE)架构,况且是原生多模态教会,不再是 Llama 3 那样的纯文本模子了。此次发布了 Llama 4 Scout 和 Llama 4 Maverick,同期还有最强劲的 Llama 4 Behemoth预览
底下给大家第一时候作念个梳理,
Llama 4 Scout:定位:性能最强的小尺寸模子
参数:17B 激活参数,16 个内行,总参数目 109B
亮点:速率极快,原生复古多模态,领有业界最初的 1000 万+ Token 多模态高下文窗口(相等于处理 20 多个小时的视频!),况且能在单张 H100 GPU 上运行(Int4 量化后)
好色男女Llama 4 Maverick:定位:同级别中最好的多模态模子
性能:在多个主流基准测试中打败了 GPT-4o 和 Gemini 2.0 Flash,推理和编码智力与新发布的 DeepSeek v3 相等,但激活参数目不到后者一半
参数:17B 激活参数,128 个内行,总参数目 400B,高下文窗口 100 万+
性价比:提供了同类最好的性能本钱比。其推行性聊天版块在 LMArena 上 ELO 评分达到 1417,名轮番二
部署:不错在单个主机上运行
Llama 4 Behemoth (预览,教会中):定位:Meta 迄今最强模子,全球顶级 LLM 之一
性能:在多个 STEM 基准上优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro
参数:288B 激活参数,16 个内行,总参数目高达2万亿 (2T)
教会细节:使用 FP8 精度,在 32000 块 GPU 上教会了 30 万亿 多模态 Token
变装:行为 Maverick 模子进行代码蒸馏时的教师模子
技能亮点解读原生多模态:悉数模子皆遴荐早期和会(early fusion)策略,将文本、图像、视频 Token 无缝整合到长入的模子主干中
教会过程优化:遴荐了 轻量级 SFT → 在线 RL → 轻量级 DPO 的后教会过程。开导者强调,过度使用 SFT/DPO 会过度拘谨模子,限度在线 RL 阶段的探索智力,是以要保合手“轻量”
超长高下文的奥妙 (10M+):达成这一冲破的关节是 iRoPE 架构("i" 代表 interleaved layers, infinite)中枢想想:通过追求无尽高下文的目的来辅导架构筹划,至极是运用长度外推智力——在短序列上教会,泛化到极长序列。最大教会长度是 256K
具体作念法:
• 腹地珍见地层(Local Attention)使用 RoPE 处理短高下文(如 8K),可并行化• 全局珍见地层(Global Attention)才矜重处理长高下文(>8K),且不使用位置编码(NoPE 想想),这有助于升迁外推智力• 为了处置高下文变永劫珍见地权重趋于平坦、影响推理的问题,在推理时对全局层应用温度缩放,增强长距离推理,同期保合手短高下文性能。公式简略为:xq *= 1 + log(floor(i / α) + 1) * β(i 是位置索引)大佬评价一个缺憾 (前kaggle总裁,fast AI 独创东谈主Jeremy Howard):诚然感谢开源,但 Jeremy Howard 也抒发了失望。Llama 4 Scout 和 Maverick 皆是大型 MoE 模子,即使量化后也无法在浪掷级 GPU 上运行,这对开源社区的可及性来说是个不小的失掉
Jim Fan(英伟达高档征询司理):
部署便利性优先:Jim Fan 认为,关于开源模子,至极是 MoE 架构,易于部署正变得比单纯追求模子尺寸更蹙迫。Meta 强调 Llama 4 Scout 能在单张 H100 上运行,这与 Llama-3 401B(诚然强劲但遴荐率较低)酿成对比,讲明 MoE 是一个更相宜刻下开源策略的标的
智能调参 MetaP:MetaP这个用于智能调度教会超参数的新技能。诚然细节未几,但他计算这可能访佛于 Meta 开源的 Ax 框架中的贝叶斯优化,能在有限的查验预算内进行自顺应推行(如 A/B 测试)
后教会策略:重 RL 轻 SFT/DPO: Llama 4 的后教会策略是裁减 SFT/DPO 的权重,升迁在线 RL 的权重。原因是过多的 SFT/DPO 会过度拘谨模子,限度其在 RL 阶段的探索智力
自我批判式数据筛选:一个道理的技能点是,教会过程中模子较早的旁见地(checkpoint)不错行为“品评家”来评估后续模子,匡助过滤掉过于粗浅的教会样本/领导,让模子在握住筛选和学习中变得更强
Behemoth 的教会细节与数据挑战: Llama 4 Behemoth 的强大限制(FP8 精度、32K GPU、30T tokens 教会)。由于模子智力太强,无为的 SFT 数据对它来说太“粗浅”了,因此需要剪辑掉高达 95% 的 SFT 数据,而小模子只需要剪辑约 50%
达成千万级高下文窗口的技能技能看起来“相等粗浅”:
1. 去除部分位置编码:在某些珍见地层(至极是全局层)不使用位置编码,模仿了 NoPE (No Positional Embedding) 论文的想想2. 调度 Softmax 珍见地:凭证高下文的长度来调度 Softmax 珍见地策动写在临了此次Llama 4的推理模子还不见脚迹,这几许有点分辩原理,大家以为呢?毕竟Meta亦然妥妥的大厂啊!不外Meta 暗示这仅仅运转,后续还有更多模子,团队正在全力开导中,至极提到了 Llama 4 Reasoning 模子
另外比拟于DeepSeek的MIT开源形式,Llama 4 的新许可证有几个限度:
- 每月活跃用户跨越 7 亿的公司必须向 Meta 恳求特等许可,Meta 可自行决定授予或绝交该许可。
- 必须在网站、界面、文档等处隆起显露“使用 Llama 构建”。
- 使用 Llama Materials 创建的任何 AI 模子的称号着手皆必须包含“Llama”
- 必须在职何分发的“示知”文本文献中包含具体的包摄示知 - 使用必须顺从 Meta 单独的可领受使用策略(参考 http://llama.com/llama4/use-policy...) - 仅出于相宜品牌要求的有限许可使用“Llama”称号
本文来源:AI寒武纪,原文标题:《炸裂!Meta夜深推出Llama 4系列 :单卡H100能跑,千万高下文hongkongdoll 免费视频,还有2万亿“巨兽”》
风险领导及免责条件 阛阓有风险,投资需严慎。本文不组成个东谈主投资提议,也未商酌到个别用户特等的投资目的、财务景色或需要。用户应试虑本文中的任何意见、不雅点或论断是否相宜其特定景色。据此投资,包袱自诩。相关资讯