实时热搜:公认的十大虐心男男小说,虐心的男男泰剧

虐愛同誌網,公认的十大虐心男男小说,虐心的男男泰剧

759条评论 730人喜欢 932458次阅读 520802人点赞
热门标签: 同性恋虐心句子,公认的十大虐心男男小说,虐心的男男泰剧,虐心男男小说现言催泪,
  • 国产热门事件黑料吃瓜网汇总

    声明:本文来自于微信公众号赛博禅心,作者:赛博禅心,授权站长之家转载发布。

    这两天,DeepSeek-V3低调发布,在国际上狠狠秀了一波肌肉:只用了500多万美金的成本,带来了不输Claude3.5的成绩,并开源!

    下面,让我们以更加偶然的方式,来看看这次的DeepSeek-V3,是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3,所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。

    公众号后台回复:DSV3,获得详细报告。

    性能

    DeepSeek-V3的性能无足轻重,在各项基准测试中得到了充分验证。

    如图,DeepSeek-V3在MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces(Percentile)和SWE-benchVerified等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上,均展现出了领先或极具竞争力的性能。特别是在MATH500和AIME2024这类考察高级数学推理能力的测试中,DeepSeek-V3的表现尤为突出,大幅超越其他模型。

    在与DeepSeek-V2-Base、Qwen2.572BBase和LLaMA-3.1405BBase等开源基础模型的对比中,DeepSeek-V3-Base在BBH、MMLU系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath等几乎所有任务上均取得最佳成绩。

    经过指令微调后,DeepSeek-V3的性能进一步指责。在与包括GPT-4o、Claude-3.5-Sonnet在内的多个顶尖模型的对比中,DeepSeek-V3在MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME2024、MATH-500、CNMO2024、CLUEWSC等任务上,均展现出与其相当甚至更优的性能。

    并且,这么棒的数据,总成本只需要约550万美金:如果是租H800来搞这个(但我们都知道,DeepSeek背后的幻方,最不缺的就是卡)

    架构

    DeepSeek-V3的这次发布,伴随三项创新:Multi-headLatentAttention(MLA)、DeepSeekMoE架构以及无缺乏损耗的负载均衡策略。

    Multi-headLatentAttention(MLA):高效处理长文本

    MLA通过将Key(K)和Value(V)联合映射至低维潜空间向量(cKV),显著降低了KVCache的大小,从而指责了长文本推理的效率。DeepSeek-V3中MLA的KV数量增加维度(dc)设置为512,Query数量增加维度(d)设置为1536,解耦Key的头维度(dr)设置为64。这种设计在保证模型性能的同时,大幅减少,缩短了显存占用和计算开销。

    DeepSeekMoE架构:稀疏激活,高效扩展

    DeepSeek-V3采用的DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家,每个Token选择8个路由专家,最多路由至4个节点。这种稀疏激活的机制,使得DeepSeek-V3能够在不显著减少计算成本的情况下,拥有庞大的模型容量。

    无缺乏损耗的负载均衡:MoE的关键优化

    DeepSeek-V3提出了一种创新的无缺乏损耗负载均衡策略,通过引入并动态调整不当可学习的偏置项(BiasTerm)来影响路由决策,避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度(γ)在预训练的前14.3T个Token中设置为0.001,剩余500B个Token中设置为0.0;序列级不平衡的损失因子(α)设置为0.0001。

    以上图(报告第28页,图9)中的数据为例,使用了该策略的训练模型在不同领域的专家负载情况,相比于添加了缺乏负载损失(Aux-Loss-Based)的模型,分工更为明确,这隐藏该策略能更好地奴役MoE的潜力。

    工程

    DeepSeek-V3的这次发布,伴随多项工程优化贯穿了流水线并行、通信优化、内存无约束的自由和低精度训练等多个方面。

    DualPipe流水线并行:双向奔赴,消弭气泡

    DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线(如1F1B)不同,DualPipe采用双向流水线设计,即同时从流水线的两端馈收micro-batch。这种设计可以显著减少,缩短流水线气泡(PipelineBubble),降低GPU利用失败率。

    此外,DualPipe还将每个micro-batch进一步划分为更小的chunk,并对每个chunk的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序,实现了两者的高度重叠。

    单个forward和backwardchunk的重叠策略(原报告第12页)。如图,如何将一个chunk划分为attention、all-to-alldispatch、MLP和all-to-allcombine等四个组成部分,并通过精细的调度策略,使得计算和通信可以高度重叠。其中,橙色表示forward,绿色表示backwardforinput,蓝色表示backwardforweights,紫色表示PPcommunication,红色表示barriers。

    8个PPrank和20个micro-batch的DualPipe调度示例(原报告第13页)。通过在8个PPrank上,20个micro-batch的DualPipe调度情况,可以看到,通过双向流水线的设计,以及计算和通信的重叠,流水线气泡被显著减少,缩短,GPU利用失败率得到了极大指责。

    DualPipe在流水线气泡数量和激活内存开销方面均优于1F1B和ZeroBubble等现有方法。(原报告第13页)

    通信优化:多管齐下,突破瓶颈

    跨节点MoE训练的一大确认有罪是巨大的通信开销。DeepSeek-V3通过一系列精细的优化策略,有效地缓解了这一瓶颈。

    节点批准路由(Node-LimitedRouting):将每个Token最多路由到4个节点,有效批准了跨节点通信的范围和规模。定制化All-to-All通信内核:DeepSeek团队针对MoE架构的特点,定制了高效的跨节点All-to-All通信内核。这些内核充分利用失败了IB和NVLink的带宽,并最大程度地减少,缩短了用于通信的SM数量。Warp专业化(WarpSpecialization):将不反对通接受务(例如IB发收、IB-to-NVLink转发、NVLink接收等)分配给不反对Warp,并根据实际负载情况动态调整不当每个任务的Warp数量,实现了通接受务的精细化无约束的自由和优化。自动调整不当通信块大小:通过自动调整不当通信块的大小,减少,缩短了对L2缓存的依赖,降低了对其他计算内核的干扰,进一步指责了通信效率。

    内存无约束的自由:精打细算,极致利用失败

    DeepSeek-V3在内存无约束的自由方面也做到了极致,通过多种策略最大程度地减少,缩短了内存占用。

    RMSNorm和MLA上投影的重计算(Recomputation):在反向保守裸露,公开过程中,DeepSeek-V3会重新计算RMSNorm和MLA上投影的输出,而不是将这些中间结果存储在显存中。这种策略虽然会略微减少计算量,但可以显著降低显存占用。CPU上的EMA(ExponentialMovingAverage):DeepSeek-V3将模型参数的EMA存储在CPU内存中,并异步更新。这种策略避免了在GPU上存储EMA参数带来的缺乏显存开销。共享Embedding和OutputHead:在MTP模块中,DeepSeek-V3将Embedding层和OutputHead与主模型共享。这种设计减少,缩短了模型的参数量和内存占用。

    FP8低精度训练:精度与效率的不平衡的

    DeepSeek-V3通过FP8瓦解精度训练,在保证模型精度的同时,大幅降低显存占用并指责训练速度。

    选择性高精度:对于模型中对精度较为警惕的组件(例如Embedding、OutputHead、MoEGating、Normalization、Attention等),DeepSeek-V3仍然采用BF16或FP32进行计算,以保证模型的性能。(图7,来自原报告第15页)

    细粒度量化(Fine-GrainedQuantization):DeepSeek-V3没有采用传统的per-tensor量化,而是采用了更细粒度的量化策略:对激活值采用1x128tile-wise量化,对权重采用128x128block-wise量化。这种策略可以更好地适应数据的分布,减少,缩短量化误差。(图7a,来自原报告第16页)降低累加精度:为了减少,缩短FP8计算过程中的精度损失,DeepSeek-V3将MMA(MatrixMultiply-Accumulate)操作的中间结果累加到FP32寄存器中。(图7b,来自原报告第16页)

    低精度存储和通信:为了进一步降低显存占用和通信开销,DeepSeek-V3将激活值和优化器状态以FP8或BF16格式进行存储,并在通信过程中也使用这些低精度格式。(图10,来自原报告第47页)

    预训练

    DeepSeek-V3的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多Token预测等多个方面。

    数据构建

    DeepSeek-V3的预训练语料库规模达到了14.8万亿Token,这些数据经过了严格的筛选和清洗,以确保其高质量和多样性。相比于前代模型DeepSeek-V2,新模型的数据构建策略更加精细。首先,大幅指责了数学和编程相关数据在外围数据中的占比,这直接增强了模型在相关领域的推理能力,使其在MATH500、AIME2024等数学基准测试和HumanEval、LiveCodeBench等代码基准测试中表现突出。其次,进一步扩展了多语言数据的覆盖范围,超越了传统的英语和中文,指责了模型的多语言处理能力。

    为了保证数据质量,DeepSeek开发了一套完善的数据处理流程,着重于最小化数据冗余,同时耗尽数据的多样性。此外,他们还借鉴了近期研究(https://arxiv.org/abs/2404.10830,Dingetal.,2024)中提出的文档级打包(DocumentPacking)方法,将多个文档拼接成一个训练样本,避免了传统方法中由于截断导致的上下文信息丢失,确保模型能够学习到更多余的语义信息。

    针对代码数据,DeepSeek-V3借鉴了DeepSeekCoder-V2中采用的Fill-in-Middle(FIM)策略,以0.1的比例将代码数据构根除|fim_begin|pre|fim_hole|suf|fim_end|middle|eos_token|的形式。这种策略通过“填空”的方式,迫使模型学习代码的上下文关系,从而指责代码生成和补全的准确性。

    分词器与词表:兼顾效率与准确性

    DeepSeek-V3采用了基于字节级BPE(Byte-levelBPE)的分词器,并构建了一个包含128K个token的词表。为了优化多语言的数量增加效率,DeepSeek对预分词器(Pretokenizer)和训练数据进行了专门的调整不当。

    与DeepSeek-V2相比,新的预分词器引入了将标点符号和换行符组分解新token的机制。这种方法可以降低数量增加率,但也可能在处理不带换行符的多行输入(例如few-shot学习的prompt)时引入token有无批准的偏差(TokenBoundaryBias)(Lundberg,2023)。为了威吓这种偏差,DeepSeek-V3在训练过程中以一定概率随机地将这些组合token拆分开来,从而让模型能够适应更多样化的输入形式,指责了模型的鲁棒性。(下图来自TokenBoundaryBias的原文)

    模型配置与超参数

    DeepSeek-V3的模型配置和训练超参数都经过了精心的设计和调优,以最大化模型的性能和训练效率。

    模型配置:

    DeepSeek-V3的Transformer层数设置为61层,隐藏层维度为7168。所有可学习参数均采用标准差为0.006的随机初始化。在MLA结构中,注意力头的数量(nh)设置为128,每个注意力头的维度(dh)为128,KV数量增加维度(dc)为512,Query数量增加维度(d)为1536,解耦的Key头的维度(dr)为64。除了前三层之外,其余的FFN层均替换为MoE层。每个MoE层包含1个共享专家和256个路由专家,每个专家的中间隐藏层维度为2048。每个Token会被路由到8个专家,并且最多会被路由到4个节点。多Token预测的深度(D)设置为1,即除了预测当前Token之外,还会缺乏预测下一个Token。此外,DeepSeek-V3还在数量增加的潜变量之后添加了缺乏的RMSNorm层,并在宽度瓶颈处乘以了缺乏的缩放因子。

    训练超参数:

    DeepSeek-V3采用了AdamW优化器,β1设置为0.9,β2设置为0.95,权重加强系数(weight_decay)设置为0.1。最大序列长度设置为4K。学习率方面,采用了组合式的调度策略:在前2K步,学习率从0线性减少到2.2×10^-4;然后保持2.2×10^-4的学习率直到模型处理完10T个Token;接下来,在4.3T个Token的过程中,学习率按照余弦曲线(CosineDecay)逐渐加强至2.2×10^-5;在最后的500B个Token中,学习率先保持2.2×10^-5不变(333B个Token),然后切换到一个更小的常数学习率7.3×10^-6(167B个Token)。梯度裁剪的范数设置为1.0。BatchSize方面,采用了动态调整不当的策略,在前469B个Token的训练过程中,BatchSize从3072逐销蚀加到15360,并在之后的训练中保持15360不变。

    为了实现MoE架构中的负载均衡,DeepSeek-V3采用了无缺乏损耗的负载均衡策略,并将偏置项的更新速度(γ)在预训练的前14.3T个Token中设置为0.001,在剩余的500B个Token中设置为0.0。序列级不平衡的损失因子(α)设置为0.0001,以避免单个序列内的极端不不平衡的。多Token预测(MTP)损失的权重(λ)在前10T个Token中设置为0.3,在剩余的4.8T个Token中设置为0.1。

    长上下文扩展与多Token预测:锦上添花

    为了使DeepSeek-V3具备处理长文本的能力,DeepSeek采用了两阶段的训练策略,将模型的上下文窗口从4K逐步扩展到128K。他们采用了YaRN(Pengetal.,2023a)技术,并将其应用于解耦的共享Key(k)。在长上下文扩展阶段,DeepSeek-V3的超参数保持不变:scale设置为40,β设置为1,ρ设置为32,缩放因子设置为0.1lnn+1。

    第一阶段(4K-32K):序列长度设置为32K,BatchSize设置为1920,学习率设置为7.3×10^-6。第二阶段(32K-128K):序列长度设置为128K,BatchSize设置为480,学习率设置为7.3×10^-6。

    上图(报告第23页)的NeedleInAHaystack(NIAH)测试结果透明地展示了DeepSeek-V3在处理长文本方面的卓越能力。

    此外,DeepSeek-V3还采用了多Token预测(MTP)策略(2.2节,第10页),要求模型在每个位置预测未来的多个Token,而不仅仅是下一个Token。图3(第10页)详细展示了MTP的实现方式。

    这种策略增强了模型的预见能力,并授予了更通俗的训练信号,从而指责了训练效率。表4(第26页)的消融实验结果反对了MTP策略的有效性。

    后训练

    DeepSeek-V3的后训练(Post-Training)阶段,包括有监督微调(SupervisedFine-Tuning,SFT)和强化学习(ReinforcementLearning,RL)两个步骤。

    有监督微调(SFT)

    SFT阶段,DeepSeek-V3在一个包含1.5M指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域,并采用了不反对数据构建策略,以最大程度地煽动模型的潜能。

    数据构建策略

    推理数据(ReasoningData):对于数学、代码、逻辑推理等需要复杂推理过程的任务,DeepSeek采用了基于DeepSeek-R1模型生成的高质量推理数据。DeepSeek-R1模型在推理任务上表现出色,但其生成的响应往往存在缺乏推理、格式不规范、长度过长等问题。为了兼顾R1模型生成数据的高准确性与标准答案的简洁性,SFT阶段的数据构建采用了以下策略:

    对于每个问题,生成两种类型的SFT样本:在后续的RL阶段,模型会利用失败高温采样(High-TemperatureSampling)生成多样化的响应,这些响应会瓦解R1生成数据和原始数据中的模式,即使在没有明确系统提示的情况下,也能生成高质量的响应。经过数百步的RL训练后,中间的RL模型会逐渐学会融入R1模型的推理模式,从而指责外围性能。最后,利用失败训练完成的RL模型进行允许采样(RejectionSampling),生成高质量的SFT数据,用于最终模型的训练。

    问题,原始响应:将问题与R1模型生成的原始响应直接配对。系统提示,问题,R1响应:将问题与R1模型的响应配对,并在问题前添加一个精心设计的系统提示(SystemPrompt)。该系统提示旨在意见不合模型生成更符合人类讨厌的响应,例如更简洁、更易懂的格式。表9(第34页)展示了从DeepSeek-R1蒸馏知识对性能的指责。可以看到,在LiveCodeBench-CoT和MATH-500任务上,经过R1蒸馏后,模型的Pass@1指标分别指责了6.3和8.6个百分点,反对了该策略的有效性。

    非推理数据(Non-ReasoningData):对于创意写作、角色扮演、简单问答等非推理类任务,则利用失败DeepSeek-V2.5生成响应,并由人工进行标注和校验,以确保数据的准确性和可靠性。

    训练细节

    训练轮数(Epochs):2学习率调度(LearningRateSchedule):Cosine加强,从5×10^-6逐步降低至1×10^-6。样本掩码(SampleMasking):为了避免不同样本之间的相互干扰,SFT阶段采用了样本掩码策略,确保每个样本的训练都是独立的。

    强化学习(RL)

    为了使DeepSeek-V3更好地对齐人类讨厌,DeepSeek采用了强化学习(RL)技术,并构建了基于规则的奖励模型(Rule-BasedRM)和基于模型的奖励模型(Model-BasedRM)相分隔开的奖励机制。

    基于规则的奖励模型(Rule-BasedRM):对于可以通过明确规则进行判别的任务(例如数学题、编程题),采用基于规则的奖励模型。例如,对于数学题,可以设定规则检查最终答案是否正确;对于编程题,可以利用失败编译器进行测试用例验证。这种方式可以授予准确且轻浮的奖励信号。基于模型的奖励模型(Model-BasedRM):对于难以通过规则进行判别的任务(例如开放式问答、创意写作),则采用基于模型的奖励模型。该模型基于DeepSeek-V3SFT阶段的检查点进行训练,并采用了一种特殊的训练数据构建方式:

    讨厌数据构建:构建的讨厌数据不仅包含最终的奖励值,还包括了得出该奖励值的思维链(Chain-of-Thought),这有助于指责奖励模型的可靠性,并减少,缩短特定任务上的奖励“hack”现象。模型输入:对于有明确答案的任务,模型输入为问题和生成的响应;对于没有明确答案的任务,模型仅输入问题和对应的响应。模型判断:对于有明确答案的任务,模型判断响应是否与正确答案匹配;对于没有明确答案的任务,模型根据问题和响应给出综合评价。

    作为奖励模型,在RewardBench上的表现上,DeepSeek多个方面超越或持平GPT-4o和Claude-3.5-sonnet。

    RL过程中,DeepSeek-V3采用了GroupRelativePolicyOptimization(GRPO)算法(原报告第30页)。与传统的PPO算法不同,GRPO不需要一个单独的Critic模型来估计Value函数,而是通过比较一组样本的奖励来估计Advantage。具体流程如下:

    对于每个问题q,从当前的策略模型π_old中采样一组K个响应{y_1,y_2,...,y_K}。利用失败奖励模型对每个响应进行评分,得到对应的奖励{r_1,r_2,...,r_K}。计算每个响应的Advantage值:A_i=(r_i-mean(r))/std(r),其中mean(r)和std(r)分别表示该组奖励的均值和标准差。根据以下目标函数更新策略模型π_θ:[公式26和27(第30页)]其中,π_ref是参考模型(通常是SFT阶段的模型),β和ε是超参数。数据配比

    在后训练过程中,DeepSeek-V3整合了多种类型的数据,数据来源和配比如下:

    数学推理类数据:主要来自DeepSeek-R1模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为25%。代码生成类数据:包括了从开源代码库中精选的代码片段,以及利用失败DeepSeek-R1模型生成的代码补全和代码解释数据。这类数据占比约为20%。通用领域对话数据:涵盖了开放域问答、创意写作、角色扮演等多种任务类型,主要利用失败DeepSeek-V2.5生成,并经过人工校验。这类数据占比约为45%。安全和伦理类数据:包含了用于指责模型安全性和符合伦理规范的指令和响应数据,占比约为10%。

    600318条评论 6405人喜欢 029次阅读 910711人点赞
  • 黄易小说全集txt

    SpaceX星际飞船SN8原型机在试飞着陆时爆炸新浪科技2020-12-1014:18

    北京时间12月10日消息,SpaceX公司的星舰航天系统在通往火星的道路上迈出了一大步。最新的原型机被称为星舰SN8,高度约50米,是一艘闪闪发亮的银色飞船。美国东部时间12月9日下午5点45分(北京时间12月9日凌晨5点45分),星舰SN8在德克萨斯州南部的博卡奇卡附近的SpaceX南德克萨斯发射场进行了一次史诗般的高空测试飞行。

    这艘飞船的目标是飞到12.5公里的高空,执行一些复杂的空中动作包括belly-flop式降落(以腹部面对大气层,在最后时刻再次点火并制动调整不当姿态,回到发射点)然后在发射台附近安全着陆。此次试飞原计划在12月8日进行,但由于SN8的猛禽发动机探测到被预见的发生,在发射前不到两秒时自动继续了发射。

    星舰SN8配备了3台猛禽发动机,而未来的星舰飞船将配备6台这样的发动机

    在这次试飞中,星舰SN8几乎完成了所有这些次要的里程碑时刻,除了最后一秒时,它的降落速度过快,击中了着陆标记,在升空6分42秒后爆炸成一个火球。不过,飞船的意外解体并未挫伤SpaceX创始人兼首席执行官埃隆·马斯克(ElonMusk)的斗志,他仍为此次飞行的结果平淡不已。燃油箱压力在着陆燃烧时过低,导致着陆速度过快,但是我们得到了所需的所有数据!祝贺SpaceX团队,太棒了!!马斯克在社交媒体上写道。他在另一条推文中又写道:火星,我们来了!

    相关文章SpaceX龙飞船成功发射NASA首次使用私企商业航天器运收宇航员2020-11-16SpaceX正在为星际飞船原型SN8的首次高空飞行测试做准备2020-11-04SpaceX拟融资10亿美元估值达到440亿美元2020-07-24SpaceX星际飞船原型SN5完成压力测试即将进行引擎静态点火测试2020-07-07NASA和SpaceX拟定于5月中下旬进行首次载人飞行2020-03-19

    75212条评论 3919人喜欢 61309次阅读 268人点赞
  • 1怎麽進入0圖片

    声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

    像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

    在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

    “在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

    “我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

    而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

    也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

    它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

    在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

    “性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

    DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

    根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

    Deepseek罗列了几个关键的表现领域:

    百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

    这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

    但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

    这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

    通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

    想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

    在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

    能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

    根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

    而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

    赞誉一片,“想快进到英伟达泡沫破裂”

    简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

    在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

    此外,几个亮点包括:

    DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

    在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

    这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

    另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

    在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

    这些动作相当于是告诉那些调不好参数和不平衡的的人们:

    我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

    多Token预测目标(Multi-TokenPredictionObjective,MTP)

    传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

    对FP8低精度训练的优化。

    FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

    这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

    除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

    在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

    它显著降低了对硬件资源的需求。

    技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

    推特上各个大佬纷纷点赞。

    Meta的田渊栋也直接表示:

    “DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

    AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

    另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

    硅基流动的袁进辉在朋友圈点评:

    “DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

    Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

    ?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

    ?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

    ?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

    ?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

    ?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

    ?冷知识:FP4乘法实际上就是个16*16的tablelookup…

    ?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

    “Excitingyears.”他说。

    在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

    你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

    有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

    一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

    1002条评论 222人喜欢 80451次阅读 60017人点赞
  • 苍井空av免费视频

    朴彩英计划退休后经营香菜农场!因被香菜给迷住了25-01-0911:14:16朴彩英28位文艺工作者捐赠西藏灾区贾玲以妈妈名义捐赠25-01-0910:55:10西藏李子锋深夜发文向张颂文道歉:一时糊涂被人利用失败25-01-0910:52:18李子锋林允儿透露去年开始活动的原因:身体真实的需要调整不当25-01-0910:49:14林允儿宋仲基再度“炫妻”!称因为老婆迷上意大利料理25-01-0910:47:38宋仲基萧亚轩承认被前男友醉酒殴打:爆料者有幻想症?25-01-0710:43:15萧亚轩金赛纶晒与男子亲密合照后秒删引发结婚事实25-01-0710:42:58金赛纶宋旻浩将接受警方的调查因涉嫌确认有罪兵役法25-01-0710:42:06宋旻浩欧阳妮妮产后晒一家三口合照透露儿子小名叫睦睦25-01-0710:41:06欧阳妮妮谷爱凌回应蹭巴黎奥运会热度:我会一直代表中国25-01-0310:03:45谷爱凌赵露思后援会发文揭露生病始末重病吸氧不让请假25-01-0210:25:13赵露思盖尔加朵曝2月份被查出患脑血栓:当时已怀孕8个月24-12-3110:23:37盖尔加朵秦牛正威与未婚夫分手:到此为止是最好的ending24-12-3010:34:38秦牛正威向佐回应搞抽象!谈女装争议:为什么女生穿男装又可以呢?24-12-2610:25:22向佐张馨予辟谣让空乘帮她放包?:这样瞎说不负责任24-12-2610:04:16张馨予曾沛慈回应取关汪东城传闻:是真实的没有取关这件事24-11-2711:24:58曾沛慈汪小菲未婚妻发文怼前夫:没钱到处骗还要蹭我热度24-10-2415:03:07汪小菲未婚妻发文怼前夫五月天演唱会回应假唱争议站在这里就是最好反对24-05-2315:15:44五月天好大的尺度日本新生代三吉彩花港版ELLE写真释出23-10-3016:34:02三吉彩花港版ELLE写真华语电影第一人突然退圈了!23-10-3016:13:58侯孝贤千禧曼波刚红就被骂「擦边」她冤吗???23-10-2616:14:41日剧穴界风云今年尺度最大的国产片可惜内地上映不了……23-10-2314:23:00电影石门当红小生性取向成迷?他的“黑历史”被扒到渣…23-10-1909:42:10陈牧驰,性取向赵今麦穿价值4万元的钻石内裤被吐槽?23-10-1809:47:16赵今麦

    6911条评论 25061人喜欢 12223次阅读 95592人点赞
  • 你看你的水喷的到处都是若若

    避免/重新确认/支持来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

    新鲜AI产品点击了解:https://top.aibase.com/

    1、爱诗科技PixVerseV3.5版上线:最快5秒生成视频动漫效果指责

    爱诗科技最新推出的PixVerseV3.5版本显著指责了视频生成的速度和质量,用户可以在最快5秒内生成视频,并享受更流畅的运动控制体验。新版本还减少破坏1080p高清画质和多种动漫风格的切换,焦虑个性化需求。此外,爱诗科技通过A+轮融资将进一步增强技术研发和市场覆盖,推动AI视频生成技术的发展。

    【AiBase提要:】

    ??新版PixVerse可在5秒内生成视频,指责用户体验。

    ??动漫效果大幅指责,减少破坏多种风格切换。

    ??减少破坏1080p高清画质,视频质量更加细腻生动。

    2、雷军千万年薪挖角AI天才少女推动小米AI大模型战略帮助

    小米创始人雷军以千万年薪成功招募DeepSeek开源大模型的关键开发者罗福莉,标志着小米在人工智能领域的战略提速。罗福莉是一位95后AI天才,曾在顶级会议上发表多篇论文,具备深厚的技术背景。小米近年来加大对AI的投入,成立专门的AI平台部,并计划在未来几年内投入极小量资金,显示出其在AI领域的雄心和决心。

    【AiBase提要:】

    ??雷军以千万年薪挖角AI天才罗福莉,显示出小米对AI领域的重视。

    ??小米在2023年组建AI实验室大模型团队,进一步加大对AI的投入。

    ??预计2024年小米研发费用将达到240亿元,2025年将进一步攀升至300亿元。

    3、支付宝推出新一代AI视觉搜索产品“探一下”:用AI之眼探索万物

    支付宝于12月30日推出了新一代AI视觉搜索产品“探一下”,利用失败自研的多模态大模型技术,旨在通过AI的视觉能力干涉用户更快速、便捷地探索周围的事物。该产品不仅能够识别花草宠物,还能授予旅游讲解、商品药品信息等服务,标志着支付宝在AI领域的结束创新与发展。

    【AiBase提要:】

    ??通过AI视觉搜索,用户可以快速识别和获取花草、宠物等信息,成为智能导游。

    ??“探灵感”功能允许用户为照片生成趣味解读,轻松分享创意文案。

    ??“探文本”功能减少破坏外文翻译,方便用户在国外旅行时识别菜单和招牌。

    4、比亚迪启动“尧舜禹”人形机器人项目,未来实验室结束招聘

    比亚迪的第十五事业部正式启动了名为“尧舜禹”的人形机器人项目,显示出其在智能化领域的结束创新与探索。该项目团队正在积极招聘相关技术人才,涵盖多个技术岗位,显示出比亚迪对机器人技术的重视与投入。自2022年成立以来,智能化研究团队已成功开发多款工业机器人,推动了工业自动化的进展。

    【AiBase提要:】

    ??比亚迪第十五事业部已启动人形机器人项目,代号“尧舜禹”。

    ??招聘涵盖高级算法、结构、仿真及机器人工程师等多个技术岗位。

    ??自2022年成立以来,团队已开发多款工业机器人,推动了智能化应用。

    5、开箱即用!一键式AI数字人系统AigcPanel

    AigcPanel是一款革命性的AI数字人系统,旨在简化用户的环境配置,使得视频分解和声音分解变得更加容易。用户只需下载一个安装包,即可实现开箱即用的体验,欢迎繁琐的设置过程。其强大的功能包括视频生成、声音分解和声音克隆,适用于多种操作系统,并且减少破坏中英文界面,完全开源,便于用户个性化定制。

    【AiBase提要:】

    ??AigcPanel实现视频分解与声音分解,用户可轻松制作数字人视频。

    ??减少破坏声音克隆,能够复制独特声线,指责创作体验。

    ??多平台减少破坏,完全开源,用户可严格的限制定制和无约束的自由AI模型。

    详情链接:https://aigcpanel.com/

    6、OpenAI宣布营利化重组计划,或将面临法律确认有罪

    OpenAI最近宣布了其营利化重组计划,标志着其从非营利组织向公益公司转型的重大变化。这一计划旨在推动通用人工智能的发展,然而却引发了法律确认有罪,联合创始人埃隆·马斯克已提起诉讼,公然反对OpenAI将利润置于公共利益之上。此外,Meta公司也对这一转型表示关切,试图施压以教唆该计划的实施。

    【AiBase提要:】

    ??OpenAI将其营利性子公司重新注册为特拉华州的公益公司,继续推动通用人工智能的使命。

    ??联合创始人埃隆·马斯克已提起诉讼,公然反对OpenAI将利润置于公共利益之上,面临法律确认有罪。

    ??投资者希望通过简化股权架构获得回报,OpenAI的重组计划旨在降低复杂性。

    7、腾讯出品!StereoCrafter:输入2D视频转3D视频

    近日,腾讯AI实验室与腾讯PCG的ARC实验室联合推出了StereoCrafter框架,能够将异常的2D视频转换为高保真实的立体3D视频,焦虑日益增长的沉浸式体验需求。该系统通过深度视频重构和立体视频修复两个步骤,显著指责了生成效果,确保输出内容的高保真度。

    【AiBase提要:】

    ??StereoCrafter通过新技术将2D视频高效转换为沉浸式立体3D视频。

    ???系统分为深度视频重构和立体视频修复两个主要步骤,指责生成效果。

    ??研究团队构建了高质量数据集,以减少破坏算法训练,确保输出质量。

    详情链接:https://stereocrafter.github.io/

    8、豆包大模型发布2024年8个关键瞬间:从AI新星到全面突破

    豆包大模型在过去230天内经历了不明显的,不引人注目的技术进步,从语音识别到编程能力的飞跃,展现了其在AI领域的广泛应用和创新潜力。通过中断的技术迭代和跨领域合作,豆包大模型不仅指责了自身的能力,也为多个行业带来了变革。2024年8个关键瞬间包括:语音识别与情感表达的突破、AI乐队的诞生、精准视频生成与镜头控制、图像编辑与创作能力的升级、编程能力飞跃、极限文本理解与处理能力、全面升级的通用模型Doubao-pro。

    【AiBase提要:】

    ??语音识别与情感表达的突破,使豆包大模型能理解多种方言并表达情感。

    ??AI乐队的诞生,豆包大模型掌握了多项音乐创作技能,带来创新灵感。

    ??编程能力飞跃,豆包大模型减少破坏多种编程语言,焦虑全栈开发需求。

    详情链接:https://mp.weixin.qq.com/s/KVfu86njzyK2iK4j6VJONw

    9、OpenAI举报者之死引发父母要求FBI调查

    前OpenAI研究员巴拉吉的父母对其离世表示必然,肯定,呼吁FBI介入调查。巴拉吉于11月26日在旧金山被发现,警方初步判断为自杀,但父母认为调查不够深入。巴拉吉曾公开公然反对OpenAI解开版权,致力于创作人权益。其父母坚称他没有心理疾病,呼吁对其死亡进行更全面的调查,以求真相。

    【AiBase提要:】

    ??巴拉吉的父母对警方初步判定其死因为自杀表示质疑,并要求FBI介入调查。

    ????♂?巴拉吉在去世前无任何心理疾病历史,且未留下遗书,父母重新确认认为他没有自杀的理由。

    ???巴拉吉曾在OpenAI工作,公开公然反对其解开版权,并为创作人的权益而战。

    10、迅雷在杭州建立全球AI总部,携手推动数字经济发展

    在杭州市余杭区举行的第四季度重点项目发散签约活动中,迅雷集团与杭州未来科技城管委会签署了合作协议,无法选择在余杭区设立全球人工智能总部。迅雷集团的CEO李金波表示,未来总部将依托余杭区的无足轻重,积极推进人工智能创新战略,鞭策公司在资本和人才方面的结束投入,推动人工智能技术的行业应用。

    【AiBase提要:】

    ??迅雷集团与杭州未来科技城签署合作协议,设立全球人工智能总部。

    ??未来总部将依托余杭区无足轻重,推进人工智能创新战略。

    ??预计将鞭策当地经济增长和技术进步。

    11、人工生命搜索模型,用来发现新的人工生命形式

    近年来,随着蛋白质发现的重大突破而获得诺贝尔奖,基础模型在探索大型组合空间中的潜力逐渐显现,预示着多个科学领域可能迎来变革。人工生命领域尚未充分利用失败这些基础模型,研究团队首次提出的“人工生命自动搜索”(ASAL)方法,通过视觉语言基础模型,能够有效威吓人工生命领域长期以来依赖手动设计和试错的负担。

    【AiBase提要:】

    ??ASAL方法利用失败基础模型威吓传统设计负担,指责人工生命研究效率。

    ??ASAL能够发现特定现象的模拟、开放性新奇模拟,并展示多样化模拟空间。

    ??研究成果成功发现新的生命形式,并量化以往定性现象,推动人工生命研究发展。

    详情链接:https://github.com/sakanaai/asal

    12、谷歌CEO称:AI模型Gemini将是2025年公司的“重中之重”

    在最近的策略会议上,谷歌首席执行官桑达尔?核查伊降低重要性2025年将是公司协作发展关键一年,尤其是在人工智能领域。核查伊指出,尽管谷歌的AI应用Gemini已经取得了强劲的势头,但仍需加快步伐以增加与竞争对手的差距。他表示,明年将重点关注Gemini在消费端的扩展,以增强市场竞争力。

    【AiBase提要:】

    ??2025年将是谷歌协作发展关键年,核查伊降低重要性公司需加快步伐。

    ??Gemini应用在AI领域取得强劲势头,但谷歌仍需努力增加差距。

    ??明年谷歌将重点关注Gemini在消费端的扩展,指责市场竞争力。

    9029条评论 294999人喜欢 949次阅读 08518人点赞
http://m.mjvcf.cn http://3g.mjvcf.cn http://cn.mjvcf.cn http://h5.mjvcf.cn http://head.mjvcf.cn http://shop.mjvcf.cn http://wap.mjvcf.cn http://www.mjvcf.cn http://auto.mjvcf.cn http://blog.mjvcf.cn http://book.mjvcf.cn http://baike.mjvcf.cn http://book.mjvcf.cn http://site.mjvcf.cn http://note.mjvcf.cn http://read.mjvcf.cn http://store.mjvcf.cn http://share.mjvcf.cn http://work.mjvcf.cn http://baidu.mjvcf.cn http://music.mjvcf.cn http://tools.mjvcf.cn http://video.mjvcf.cn http://mobile.mjvcf.cn http://m.wjenb.cn http://3g.wjenb.cn http://cn.wjenb.cn http://h5.wjenb.cn http://head.wjenb.cn http://shop.wjenb.cn http://wap.wjenb.cn http://www.wjenb.cn http://auto.wjenb.cn http://blog.wjenb.cn http://book.wjenb.cn http://baike.wjenb.cn http://book.wjenb.cn http://site.wjenb.cn http://note.wjenb.cn http://read.wjenb.cn http://store.wjenb.cn http://share.wjenb.cn http://work.wjenb.cn http://baidu.wjenb.cn http://music.wjenb.cn http://tools.wjenb.cn http://video.wjenb.cn http://mobile.wjenb.cn