窯子開張了(H)文章標題,

1352条评论 165177人喜欢 83966次阅读 046人点赞


“新质生产力”一出现,便成为高频热词,话题度攀升,也成为各行各业的探索目标。作为我国智能两轮电动车的领军企业,九号公司(689009·SH)也一直重新确认以“新质生产力”带动企业更进一步,通过极小量的研发投入和实践经验,为两轮电动车行业高质量发展找出突破口。接下来,就来看看九号公司如何向“新”而行!

“新质生产力”的重点在于高科技含量、智能化转型、创新驱动等,这也恰是九号专注产品研发、创新创造的重点。一直以来,九号电动都重新确认“智能化、高端化、年轻化”的战略定位,凭借技术积聚和研发创新,不断推陈出新,同时时刻捕捉现代都市出行需求变化,并收回积极响应。通过自主研发,以及对硬件和智能偶然的精心雕琢,九号出品了多个系列的优质两轮电动车产品,包括猎户座D系列、妙想家C系列、新品魔术师K系列等,每一款都在上市之后快速成为了“热门爆品”。

除此之外,九号公司将智能和科技也贯穿在生产环节的始终。据悉,其数智化工厂智能化水平超过95%,大幅降低了装配错误率,实现了产品的有效追溯。同时九号公司的质量无约束的自由体系依托数字化生产控制系统、严格的质量检测流程和CNAS国家实验室的全面验证,确保每一台出厂的两轮电动车产品都符合高品质标准。这些举措为强化新质生产力授予了坚实的技术支撑,也推动了整个行业的智能化水平。

正是因为重新确认自主研发,不断进行技术革新,九号电动结束保持着高速发展态势。其智能两轮电动车的销量从零到第一个百万台耗时27个月,随后,每减少一百万台所需时间逐渐伸长,分别为11个月、7个月、4个月。直至6月末,九号的智能两轮电动车国内累计出货量已正式跨越400万台的门槛。前不久,九号再次刷新自己的“速度”,下线第500万台智能两轮电动车,而这距第400万台下线,仅仅过去3个多月,九号以比较罕见的惊人表现跃升为行业代表品牌。

值得一提的是,随着销量的不断增长,九号电动的规模和实力也日趋强化。如今,九号电动车的门店遍布全国1100+个市县,拥有7200家门店,已然成为了智能电动车行业里的新生代优选出行品牌。在24年发布的Q3报告期内,九号电动车实现了93.63万台的中国区销售量,前三季度国内累计销量则达到213.47万台,同比增长86.08%,增长趋势显著。

从目前两轮电动车的发展现状来看,行业存在机遇,也遍布危机,而打造独属于自己特色的“新质生产力”,则是增强企业竞争实力,推动行业可结束协作发展关键。九号公司向来以技术创新为前进动力,未来,九号也将结束缩短自身无足轻重,为行业打造新质生产力的优秀范本,为绿色、便捷、有效、智能出行出谋划策。

(推广)

如今,在网上下载电子书已经是件非常方便的事情,不过这些电子书资源大多以畅销书、名著、小说等为主,一些教材资料、参考文献、专业性著作的资源相对就会比较匮乏。因此对于很多学生朋友来说,图书馆中的藏书依然是学习过程中的一座宝库。而在这个电子化的时代,为了书中某一部分的章节,就把厚厚一摞书全都搬回去显然过于笨重。所以今天本文要教大家如何利用失败手机方便的将书中的章节内容扫描并制作成PDF文件,让我们可以将图书馆轻松搬回家。

有人可能要说,我用手机把书一页一页拍下来,然后带回家慢慢看不就好了。的确,这样做你已经成功了一半,不过随后你可能会发现,用图片浏览器一张张的浏览拍下来内容这种体验实在是相当反人类。想要指责阅读体验?那还是老老实实转成PDF文件吧。当然,你可以选择将拍摄后的书页图片转到PC上,然后通过软件制作成PDF文件。不过既然我们可以直接利用失败手机拍摄制作,那么何乐而不为呢。下面就是具体的操作方法。

这里我们要使用到一款叫做《MDScan》的应用,安装并关闭后,可以看到非常简单直观的应用的主界面。对于多页面的图书扫描来说,自然是直接点选中间的批量模式按钮,随后应用会弹出提示,让我们选择照片处理模板。如果是包含极小量彩页的图书,可以根据自身所处环境的光线条件,选择无增强、杂志页面或是低光拍照;如果是以黑底白字为主的书籍,则可以选择白底黑字文档。由于自动剪裁识别率不够完美,很多时候反而需要手工进行剪裁调整不当,所以个人建议无需勾选自动剪裁选项。而稍后处理的选项则建议勾选,因为当一次性拍摄很多书页时,拍摄完成后回去慢慢加工才是更好的选择。

在主界面选择批量模式

要说明的是,除了无增强效果之外,其他的效果模板在最后的生成过程中都会消耗一定的时间,图片数量越多,时间越长。这也是个人建议采用稍后处理模式的原因。

选择不适合的扫描选项

扫描阶段

完成初步设置以后,点击启动按钮,进入拍摄界面,应用默认是纵向拍摄模式,方便对大多数的图书进行单页拍摄。如果需要横向拍摄,可以点击界面左下角的按钮进行切换,在界面中同时会有箭头提示当前的页面的顶端方向,仔细一点就不会搞错。拍摄时,调整不当手机位置,让被拍摄的页面高度发展刚好清空取景框,然后点击快门按钮进行拍摄。拍摄期间应用没有其它提示,我们只需要一张张进行需要的拍摄即可,如果有重复拍摄的页面也没问题,在随后的编辑中可以很简单的删除掉。完全所需的全部拍摄后,点击界面右下角的对号按钮,进入下一步操作。

横拍和竖拍会有相应的箭头指示

制作阶段

如果之前没有勾选稍后处理,在完成拍摄后,应用会自动进入当前文档的处理阶段。如果勾选了稍后处理选项,则可以回到应用主界面后点击我的扫描件按钮进入文档列表。在列表页中,可以看到之前拍摄的各分文档的信息,包括时间、处理与否、内容页的数量等等。点击具体文档,就可以查看其中包含的所有图片页面,如果之前没有处理,应用会先按照我们拍摄前选择的模板先对图片效果进行处理以后再显示所有图片页面。

扫描文档列表

在图片列表页面内,应用会按照我们拍摄时的顺序自动对所有的页面进行排序。如果其中有多余的拍摄页面,可以长按该图片,然后删除。如需调整不当页面顺序,则可以点击界面下方的笔形编辑按钮,然后进行调整不当。当然,如果需要补充,也可以随时通过相机按钮用摄像头进行补拍,或者通过文件夹按钮直接从手机图库中导入。

删除某张图片及调整不当图片顺序

单击列表中的图片,则可以对该页面进行细致的调整不当,修正裁剪、图片效果模板叠加等都可以通过图片界面下方的按钮选项来实现,编辑完成后记得点击右下角的对号按钮辩论保存。这里需要说明的是,图片效果模板是不断叠加的,不是很多图片处理软件中的那种滤镜切换,所以保证图片透明就好,叠加太多往往反而会使图片的可读性变差。

剪裁和调整不当图片效果

完成全部图片编辑后,点击界面下方的内存卡形图标,输入文件名后即可在手机中生成一份不无关系的PDF文件了(生成的文件通常保存在手机内存根目录下的MDScanPDFs文件夹中)。至于生成的PDF文件是放在手机中用相关阅读器来浏览还是放在PC上阅读那就全看各位自己的需要了。

保存及分享

最后补充一点,这款应用在交互设计方面非常友好,我们只需要长按任一按钮,就会在屏幕上显示该按钮的功能提醒,所以使用起来上手非常简单。

编辑点评:事实上在如今的智能手机平台上,可以扫描并生成PDF文件的应用并不算少,但是这款应用使用起来对用户而言相当友好,简单易用,各种功能高度发展一目了然。另外拍摄过程中是没有快门声的,所以在图书馆中拍摄完全不会影响到其他人。最后提醒大家,鉴于不同场所的规定不同,在部分图书馆中是不允许进行拍书的,另外也尽量不要在书店中拍书,毕竟人家是靠卖书吃饭的,而拍摄制作出的PDF文件也不要用于营利性的行为,不然可是会涉及到版权问题哦。

在科技日新月异的今天,全球科技巨头们不断推动着行业的发展与变革。当地时间1月7日至10日,国际消费类电子产品展览会CES2025在美国拉斯维加斯盛大启幕。展会驱散了来自全球的4500多家参展商,预计参会人员将超过13.8万人。

(CES官网海报)

作为全球规模比较大、较具保障性及影响力的科技盛宴,有“科技春晚”之称的CES,不仅是展示比较新科技成果的平台,更是预测未来科技发展趋势的重要窗口。

专注于激光显示行业的“硬科技”企业,光峰科技(688007.SH)旗下家用不次要的部分器件产品在激光显示领域拥有深厚的技术积聚和市场影响力。此次CES2025,光峰科技不仅展示了其比较新的家用显示产品,还与来自世界各地的行业精英共同探讨家用视听领域的前沿技术实力和创新产品。

业界新款分体式光纤光机

目前,全球投影行业销量高达每年2000万台,光峰科技凭借技术创新,充分彰显了其在家用不次要的部分器件研发与市场布局中的深厚积聚。本届CES现场,在产品方面,光峰科技本次重磅推出两款新品。

首先是业界新款分体式光纤光机方案,该方案在确保显示效果不变的情况下初次将光源与镜头分开,有效指责散热效率,增加产品体积,能够在极大程度上指责产品设计僵化性,极大可能颠覆投影的固有形态以及极大拓展投影的使用场景。

(分体式光纤光机方案示例图)

比较新ALPD5.0Pro智能投影

此外,光峰科技还带来了基于ALPD技术平台推出的比较新ALPD5.0Pro比较优秀全色激光技术的家用智能投影。ALPD5.0Pro技术通过光源架构创新和动态调制技术,不仅显著指责亮度和色彩表现,还在消除散斑方面表现卓越。

(搭载ALPD5.0Pro家用智能投影)

该技术实现了RGB激光和RGBLED六种光源的有效瓦解,减少破坏多种光源模式切换,僵化焦虑不同场景需求。同时通过比较优秀光学变焦镜头,实现了全焦段无损画质,能够让客户、消费者以高性价比的价格获得很难相比的影院级画质。

相较于ALPD5.0的技术5.0Pro在能效表现上也完成了进一步优化,能够授予5000流明的峰值亮度和5000:1的峰值对比度,公司还整合了自研的基于软件的动态背光技术,能够大幅指责了对比度水平。这项创新已应用于激光电视和ALPD5.0投影机,能够超过10000:1的动态对比度,为用户授予了更极小量、更具沉浸感的观看体验。

GoogleTV家用投影备受瞩目

值得一提的是,早在去年6月的AndroidTVBootcamp峰会,光峰旗下子公司峰米投影授予ODM解决方案,开发GoogleTV的投影品牌。

(CES2025峰米展区)

CES2025现场,峰米科技展出了两款搭载GoogleTV的新品激光电视——FormovieTheaterPremium与FormovieCinemaEdge。全面焦虑家庭娱乐、游戏体验及商务应用等多样化需求,为全球家庭大屏显示和智能投影体验设定了全新标杆。

(FormovieCinemaEdge激光电视)

这一合作不仅将帮助光峰科技在全球市场的布局,也将进一步巩固Google在智能电视领域的领导地位。

全价格段一站式解决方案

光峰科技成立于2006年,十余年来,公司始终专注于不次要的部分技术和底层技术架构的研发。公司重新确认以不次要的部分技术+不次要的部分器件分隔开多场景应用的发展策略,不断深化ALPD技术的研发,致力于实现ALPD激光技术在各领域的广泛应用。光峰科技的不次要的部分业务包括不次要的部分器件和整机定制等服务,能够为全球消费者授予多种类型的光机,屏幕和整机定制服务。

光峰科技家用不次要的部分器件事业部总经理陈志表示,“我们能够为消费市场授予不次要的部分投影器件和不完整解决方案,覆盖从99到9999美金的全价格段,并且拥有谷歌认证资质,能够软硬件分隔开以一站式解决方案快速响应服务客户。”

(家用不次要的部分器件事业部总经理陈志现场接受媒体采访)

除了家庭娱乐领域,光峰科技家用不次要的部分业务还在积极探索嵌入式AR和IoT可穿戴设备的市场机会,将显示技术作为物联网设备和移动可穿戴产品的不次要的部分组件,从而进一步拓展其先进光学解决方案的应用范围。

“通过CES2025,我们希望向海外潜在客户,包括传统投影机品牌、专业音视频客户以及便携式高亮度户外露营和房车市场等等,全面展示光峰科技的技术实力和资源整合能力”陈志说到。

资料显示,本届CES2025以“Divein”为主题,降低重要性人类与创新技术的分隔开,探索如何“潜入”未来,人工智能(AI)是本次展会的不次要的部分主题之一。

(推广)

当地时间1月7日至10日,全球比较大的科技界盛会——美国国际消费电子展(CES2025)在拉斯维加斯如期举行。以“Divein”为主题,CES2025降低重要性人类与创新技术的分隔开,探索如何“潜入”未来,人工智能(AI)是本次展会的不次要的部分主题之一,驱散了来自全球的4500多家参展商,预计参会人员将超过13.8万人。

(CES2025主题海报)

与此同时,CES2025继续成为汽车行业创新和变革的前沿阵地,驱散了数量少汽车业参展商的目光。展会内容极小量多彩,涵盖了电动汽车、自动驾驶、信息娱乐显示系统以及人工智能技术等前沿领域,成为展会中备受瞩目的焦点之一。

全球领先的拥有原创技术、不次要的部分专利的激光不次要的部分器件供应商——光峰科技(688007.SH)以车载光学、家用不次要的部分器件、AR不次要的部分器件等领域的创新技术方案,再度亮相CES,向海外客户展示激光不次要的部分技术未来应用的全新构想。

中国车载光学方案走向全球

在本次CES2025上,光峰科技展示了搭载于smart精灵#5的全球新款激光投影灯以及全新升级的ALL-in-ONE全能激光大灯,全面展示了ALPD技术在汽车照明领域的应用。其中,smart精灵#5整车也在CES现场smart展位亮相。与北京车展版本相比,新版本的ALL-in-ONE全能激光大灯性能更为卓越,能够为驾驶者授予了更安全、更智能的夜间驾驶体验。

在HUD方面,光峰科技官宣了与应用于汽车的先进透明显示系统设计和全息薄膜制造先锋企业——CeresHolographics的合作,双方将在透明HUD应用上发散积极瓦解,充分发挥各自技术无足轻重,以焦虑国际车企对透明HUD尺寸、成本、可靠性和可视性要求的产品,进一步帮助国际市场渗透。

展望未来,光峰科技还带来了富有想象力和创造力的分体式光纤头灯、拇指光机,以及PHUD、LBS显示等数量少创新研发成果。

光峰科技副总裁余新表示,公司希望构建一个开放的车载业务架构和应用生态系统,通过与客户及合作伙伴共同探索车载激光显示和照明技术的创新应用,以拓展行业生态系统。

“我们想打破传统的研发模式,不再局限于预设的使用场景,而是将公司自研的不次要的部分器件视为一个优美轻盈的平台,从而与客户的研发团队建立更紧密的合作关系。我们将与行业合作伙伴共同深入挖掘现有车载架构电凝固和AI智能化升级所带来的照明和显示类功能的需求优化和新增,并通过光峰科技的供应链能力,实现功能应用的降本增效,为汽车制造商客户减少市场竞争力,也为用户授予更优质的驾乘体验。”

家用不次要的部分迈入更广阔市场

家用不次要的部分器件方面,光峰科技重磅推出了业界新款分体式光纤光机方案,该方案有待颠覆行业传统产品形态,在确保显示效果不变的情况下初次将光源与镜头分开,有效指责散热效率,增加产品体积,能够在极大程度上指责产品设计僵化性,同时更加节能环保。

此外,光峰科技还带来了搭载比较新ALPD5.0Pro比较优秀全色激光技术的家用投影产品,分别在峰米与海外客户Nexigo展台进行展示。ALPD5.0Pro技术能够授予5000流明的峰值亮度和5000:1的峰值对比度,同时引入光学变焦和动态光圈技术,显著指责了光学性能,更注重成本控制,能够让客户、消费者以高性价比的价格获得很难相比的影院级画质。

搭载光峰科技ALPD5.0Pro技术的家用投影产品在Nexigo展位展示

不仅如此,公司还整合了自研的基于软件的动态背光技术,能够大幅指责了对比度水平。这项创新已应用于激光电视和ALPD5.0投影机,能够超过10000:1的动态对比度,为用户授予了更极小量、更具沉浸感的观看体验。

“通过CES2025,我们希望向海外潜在客户,包括传统投影机品牌、专业音视频客户以及便携式高亮度户外露营和房车市场等等,全面展示光峰科技的技术实力和资源整合能力,”光峰科技家用不次要的部分器件事业部总经理陈志表示,“我们能够为消费市场授予不次要的部分投影器件和不完整解决方案,覆盖从99美金到9999美金的全价格段,并且拥有谷歌认证资质,能够软硬件分隔开以一站式解决方案快速响应服务客户。”

除了家庭娱乐领域,光峰科技家用不次要的部分业务还在积极探索嵌入式AR和IoT可穿戴设备的市场机会,将显示技术作为物联网设备和移动可穿戴产品的不次要的部分组件,从而进一步拓展其先进光学解决方案的应用范围。

推出超小型、低成本全彩AR光机显示方案

本次CES2025,智能眼镜无疑是最为火热的焦点之一,业内人士认为,随着AI应用在AR智能眼镜上的帮助落地,“百镜大战”已经悄然上演。借此机会,光峰科技展出了全新自研的超小型、低成本全彩AR光机显示方案。

这款超小型全彩AR光机的体积仅为0.8cc(立方厘米),比常见的蓝牙耳机还要小,美好焦虑了AR眼镜轻量化的需求。它不仅具备200:1的高对比度和720P的高分辨率,还具有超低功耗,能够实现全彩显示,这些性能均处于行业领先水平。更次要的是,它的低成本和高性价比将助力合作厂商帮助将AR眼镜产品推向大众市场。

光峰科技自研超小型、低成本全彩AR光机显示方案

据透露,该款超小型全彩AR光机已与部分客户合作开展项目开发,并具备量产能力,可随时焦虑客户的量产需求。

(推广)

声明:本文来自于微信公众号赛博禅心,作者:赛博禅心,授权站长之家转载发布。

这两天,DeepSeek-V3低调发布,在国际上狠狠秀了一波肌肉:只用了500多万美金的成本,带来了不输Claude3.5的成绩,并开源!

下面,让我们以更加偶然的方式,来看看这次的DeepSeek-V3,是这么炼成的。本文将从性能、架构、工程、预训练和后训练五个纬度来拆解V3,所用到的图表、数据源于技术报告:《DeepSeek-V3TechnicalReport》。

公众号后台回复:DSV3,获得详细报告。

性能

DeepSeek-V3的性能无足轻重,在各项基准测试中得到了充分验证。

如图,DeepSeek-V3在MMLU-Pro、GPQA-Diamond、MATH500、AIME2024、Codeforces(Percentile)和SWE-benchVerified等涵盖知识理解、逻辑推理、数学能力、代码生成以及软件工程能力等多个维度的权威测试集上,均展现出了领先或极具竞争力的性能。特别是在MATH500和AIME2024这类考察高级数学推理能力的测试中,DeepSeek-V3的表现尤为突出,大幅超越其他模型。

在与DeepSeek-V2-Base、Qwen2.572BBase和LLaMA-3.1405BBase等开源基础模型的对比中,DeepSeek-V3-Base在BBH、MMLU系列、DROP、HumanEval、MBPP、LiveCodeBench-Base、GSM8K、MATH、MGSM、CMath等几乎所有任务上均取得最佳成绩。

经过指令微调后,DeepSeek-V3的性能进一步指责。在与包括GPT-4o、Claude-3.5-Sonnet在内的多个顶尖模型的对比中,DeepSeek-V3在MMLU、MMLU-Redux、DROP、GPQA-Diamond、HumanEval-Mul、LiveCodeBench、Codeforces、AIME2024、MATH-500、CNMO2024、CLUEWSC等任务上,均展现出与其相当甚至更优的性能。

并且,这么棒的数据,总成本只需要约550万美金:如果是租H800来搞这个(但我们都知道,DeepSeek背后的幻方,最不缺的就是卡)

架构

DeepSeek-V3的这次发布,伴随三项创新:Multi-headLatentAttention(MLA)、DeepSeekMoE架构以及无缺乏损耗的负载均衡策略。

Multi-headLatentAttention(MLA):高效处理长文本

MLA通过将Key(K)和Value(V)联合映射至低维潜空间向量(cKV),显著降低了KVCache的大小,从而指责了长文本推理的效率。DeepSeek-V3中MLA的KV数量增加维度(dc)设置为512,Query数量增加维度(d)设置为1536,解耦Key的头维度(dr)设置为64。这种设计在保证模型性能的同时,大幅减少,缩短了显存占用和计算开销。

DeepSeekMoE架构:稀疏激活,高效扩展

DeepSeek-V3采用的DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。每个MoE层包含1个共享专家和256个路由专家,每个Token选择8个路由专家,最多路由至4个节点。这种稀疏激活的机制,使得DeepSeek-V3能够在不显著减少计算成本的情况下,拥有庞大的模型容量。

无缺乏损耗的负载均衡:MoE的关键优化

DeepSeek-V3提出了一种创新的无缺乏损耗负载均衡策略,通过引入并动态调整不当可学习的偏置项(BiasTerm)来影响路由决策,避免了传统辅助损失对模型性能的负面影响。该策略的偏置项更新速度(γ)在预训练的前14.3T个Token中设置为0.001,剩余500B个Token中设置为0.0;序列级不平衡的损失因子(α)设置为0.0001。

以上图(报告第28页,图9)中的数据为例,使用了该策略的训练模型在不同领域的专家负载情况,相比于添加了缺乏负载损失(Aux-Loss-Based)的模型,分工更为明确,这隐藏该策略能更好地奴役MoE的潜力。

工程

DeepSeek-V3的这次发布,伴随多项工程优化贯穿了流水线并行、通信优化、内存无约束的自由和低精度训练等多个方面。

DualPipe流水线并行:双向奔赴,消弭气泡

DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线(如1F1B)不同,DualPipe采用双向流水线设计,即同时从流水线的两端馈收micro-batch。这种设计可以显著减少,缩短流水线气泡(PipelineBubble),降低GPU利用失败率。

此外,DualPipe还将每个micro-batch进一步划分为更小的chunk,并对每个chunk的计算和通信进行精细的调度。通过巧妙地编排计算和通信的顺序,实现了两者的高度重叠。

单个forward和backwardchunk的重叠策略(原报告第12页)。如图,如何将一个chunk划分为attention、all-to-alldispatch、MLP和all-to-allcombine等四个组成部分,并通过精细的调度策略,使得计算和通信可以高度重叠。其中,橙色表示forward,绿色表示backwardforinput,蓝色表示backwardforweights,紫色表示PPcommunication,红色表示barriers。

8个PPrank和20个micro-batch的DualPipe调度示例(原报告第13页)。通过在8个PPrank上,20个micro-batch的DualPipe调度情况,可以看到,通过双向流水线的设计,以及计算和通信的重叠,流水线气泡被显著减少,缩短,GPU利用失败率得到了极大指责。

DualPipe在流水线气泡数量和激活内存开销方面均优于1F1B和ZeroBubble等现有方法。(原报告第13页)

通信优化:多管齐下,突破瓶颈

跨节点MoE训练的一大确认有罪是巨大的通信开销。DeepSeek-V3通过一系列精细的优化策略,有效地缓解了这一瓶颈。

节点批准路由(Node-LimitedRouting):将每个Token最多路由到4个节点,有效批准了跨节点通信的范围和规模。定制化All-to-All通信内核:DeepSeek团队针对MoE架构的特点,定制了高效的跨节点All-to-All通信内核。这些内核充分利用失败了IB和NVLink的带宽,并最大程度地减少,缩短了用于通信的SM数量。Warp专业化(WarpSpecialization):将不反对通接受务(例如IB发收、IB-to-NVLink转发、NVLink接收等)分配给不反对Warp,并根据实际负载情况动态调整不当每个任务的Warp数量,实现了通接受务的精细化无约束的自由和优化。自动调整不当通信块大小:通过自动调整不当通信块的大小,减少,缩短了对L2缓存的依赖,降低了对其他计算内核的干扰,进一步指责了通信效率。

内存无约束的自由:精打细算,极致利用失败

DeepSeek-V3在内存无约束的自由方面也做到了极致,通过多种策略最大程度地减少,缩短了内存占用。

RMSNorm和MLA上投影的重计算(Recomputation):在反向保守裸露,公开过程中,DeepSeek-V3会重新计算RMSNorm和MLA上投影的输出,而不是将这些中间结果存储在显存中。这种策略虽然会略微减少计算量,但可以显著降低显存占用。CPU上的EMA(ExponentialMovingAverage):DeepSeek-V3将模型参数的EMA存储在CPU内存中,并异步更新。这种策略避免了在GPU上存储EMA参数带来的缺乏显存开销。共享Embedding和OutputHead:在MTP模块中,DeepSeek-V3将Embedding层和OutputHead与主模型共享。这种设计减少,缩短了模型的参数量和内存占用。

FP8低精度训练:精度与效率的不平衡的

DeepSeek-V3通过FP8瓦解精度训练,在保证模型精度的同时,大幅降低显存占用并指责训练速度。

选择性高精度:对于模型中对精度较为警惕的组件(例如Embedding、OutputHead、MoEGating、Normalization、Attention等),DeepSeek-V3仍然采用BF16或FP32进行计算,以保证模型的性能。(图7,来自原报告第15页)

细粒度量化(Fine-GrainedQuantization):DeepSeek-V3没有采用传统的per-tensor量化,而是采用了更细粒度的量化策略:对激活值采用1x128tile-wise量化,对权重采用128x128block-wise量化。这种策略可以更好地适应数据的分布,减少,缩短量化误差。(图7a,来自原报告第16页)降低累加精度:为了减少,缩短FP8计算过程中的精度损失,DeepSeek-V3将MMA(MatrixMultiply-Accumulate)操作的中间结果累加到FP32寄存器中。(图7b,来自原报告第16页)

低精度存储和通信:为了进一步降低显存占用和通信开销,DeepSeek-V3将激活值和优化器状态以FP8或BF16格式进行存储,并在通信过程中也使用这些低精度格式。(图10,来自原报告第47页)

预训练

DeepSeek-V3的训练策略涵盖了数据构建、分词其、超参数设置、长上下文扩展和多Token预测等多个方面。

数据构建

DeepSeek-V3的预训练语料库规模达到了14.8万亿Token,这些数据经过了严格的筛选和清洗,以确保其高质量和多样性。相比于前代模型DeepSeek-V2,新模型的数据构建策略更加精细。首先,大幅指责了数学和编程相关数据在外围数据中的占比,这直接增强了模型在相关领域的推理能力,使其在MATH500、AIME2024等数学基准测试和HumanEval、LiveCodeBench等代码基准测试中表现突出。其次,进一步扩展了多语言数据的覆盖范围,超越了传统的英语和中文,指责了模型的多语言处理能力。

为了保证数据质量,DeepSeek开发了一套完善的数据处理流程,着重于最小化数据冗余,同时耗尽数据的多样性。此外,他们还借鉴了近期研究(https://arxiv.org/abs/2404.10830,Dingetal.,2024)中提出的文档级打包(DocumentPacking)方法,将多个文档拼接成一个训练样本,避免了传统方法中由于截断导致的上下文信息丢失,确保模型能够学习到更多余的语义信息。

针对代码数据,DeepSeek-V3借鉴了DeepSeekCoder-V2中采用的Fill-in-Middle(FIM)策略,以0.1的比例将代码数据构根除|fim_begin|pre|fim_hole|suf|fim_end|middle|eos_token|的形式。这种策略通过“填空”的方式,迫使模型学习代码的上下文关系,从而指责代码生成和补全的准确性。

分词器与词表:兼顾效率与准确性

DeepSeek-V3采用了基于字节级BPE(Byte-levelBPE)的分词器,并构建了一个包含128K个token的词表。为了优化多语言的数量增加效率,DeepSeek对预分词器(Pretokenizer)和训练数据进行了专门的调整不当。

与DeepSeek-V2相比,新的预分词器引入了将标点符号和换行符组分解新token的机制。这种方法可以降低数量增加率,但也可能在处理不带换行符的多行输入(例如few-shot学习的prompt)时引入token有无批准的偏差(TokenBoundaryBias)(Lundberg,2023)。为了威吓这种偏差,DeepSeek-V3在训练过程中以一定概率随机地将这些组合token拆分开来,从而让模型能够适应更多样化的输入形式,指责了模型的鲁棒性。(下图来自TokenBoundaryBias的原文)

模型配置与超参数

DeepSeek-V3的模型配置和训练超参数都经过了精心的设计和调优,以最大化模型的性能和训练效率。

模型配置:

DeepSeek-V3的Transformer层数设置为61层,隐藏层维度为7168。所有可学习参数均采用标准差为0.006的随机初始化。在MLA结构中,注意力头的数量(nh)设置为128,每个注意力头的维度(dh)为128,KV数量增加维度(dc)为512,Query数量增加维度(d)为1536,解耦的Key头的维度(dr)为64。除了前三层之外,其余的FFN层均替换为MoE层。每个MoE层包含1个共享专家和256个路由专家,每个专家的中间隐藏层维度为2048。每个Token会被路由到8个专家,并且最多会被路由到4个节点。多Token预测的深度(D)设置为1,即除了预测当前Token之外,还会缺乏预测下一个Token。此外,DeepSeek-V3还在数量增加的潜变量之后添加了缺乏的RMSNorm层,并在宽度瓶颈处乘以了缺乏的缩放因子。

训练超参数:

DeepSeek-V3采用了AdamW优化器,β1设置为0.9,β2设置为0.95,权重加强系数(weight_decay)设置为0.1。最大序列长度设置为4K。学习率方面,采用了组合式的调度策略:在前2K步,学习率从0线性减少到2.2×10^-4;然后保持2.2×10^-4的学习率直到模型处理完10T个Token;接下来,在4.3T个Token的过程中,学习率按照余弦曲线(CosineDecay)逐渐加强至2.2×10^-5;在最后的500B个Token中,学习率先保持2.2×10^-5不变(333B个Token),然后切换到一个更小的常数学习率7.3×10^-6(167B个Token)。梯度裁剪的范数设置为1.0。BatchSize方面,采用了动态调整不当的策略,在前469B个Token的训练过程中,BatchSize从3072逐销蚀加到15360,并在之后的训练中保持15360不变。

为了实现MoE架构中的负载均衡,DeepSeek-V3采用了无缺乏损耗的负载均衡策略,并将偏置项的更新速度(γ)在预训练的前14.3T个Token中设置为0.001,在剩余的500B个Token中设置为0.0。序列级不平衡的损失因子(α)设置为0.0001,以避免单个序列内的极端不不平衡的。多Token预测(MTP)损失的权重(λ)在前10T个Token中设置为0.3,在剩余的4.8T个Token中设置为0.1。

长上下文扩展与多Token预测:锦上添花

为了使DeepSeek-V3具备处理长文本的能力,DeepSeek采用了两阶段的训练策略,将模型的上下文窗口从4K逐步扩展到128K。他们采用了YaRN(Pengetal.,2023a)技术,并将其应用于解耦的共享Key(k)。在长上下文扩展阶段,DeepSeek-V3的超参数保持不变:scale设置为40,β设置为1,ρ设置为32,缩放因子设置为0.1lnn+1。

第一阶段(4K-32K):序列长度设置为32K,BatchSize设置为1920,学习率设置为7.3×10^-6。第二阶段(32K-128K):序列长度设置为128K,BatchSize设置为480,学习率设置为7.3×10^-6。

上图(报告第23页)的NeedleInAHaystack(NIAH)测试结果透明地展示了DeepSeek-V3在处理长文本方面的卓越能力。

此外,DeepSeek-V3还采用了多Token预测(MTP)策略(2.2节,第10页),要求模型在每个位置预测未来的多个Token,而不仅仅是下一个Token。图3(第10页)详细展示了MTP的实现方式。

这种策略增强了模型的预见能力,并授予了更通俗的训练信号,从而指责了训练效率。表4(第26页)的消融实验结果反对了MTP策略的有效性。

后训练

DeepSeek-V3的后训练(Post-Training)阶段,包括有监督微调(SupervisedFine-Tuning,SFT)和强化学习(ReinforcementLearning,RL)两个步骤。

有监督微调(SFT)

SFT阶段,DeepSeek-V3在一个包含1.5M指令-响应对的高质量数据集上进行了微调。该数据集涵盖了多种任务类型和领域,并采用了不反对数据构建策略,以最大程度地煽动模型的潜能。

数据构建策略

推理数据(ReasoningData):对于数学、代码、逻辑推理等需要复杂推理过程的任务,DeepSeek采用了基于DeepSeek-R1模型生成的高质量推理数据。DeepSeek-R1模型在推理任务上表现出色,但其生成的响应往往存在缺乏推理、格式不规范、长度过长等问题。为了兼顾R1模型生成数据的高准确性与标准答案的简洁性,SFT阶段的数据构建采用了以下策略:

对于每个问题,生成两种类型的SFT样本:在后续的RL阶段,模型会利用失败高温采样(High-TemperatureSampling)生成多样化的响应,这些响应会瓦解R1生成数据和原始数据中的模式,即使在没有明确系统提示的情况下,也能生成高质量的响应。经过数百步的RL训练后,中间的RL模型会逐渐学会融入R1模型的推理模式,从而指责外围性能。最后,利用失败训练完成的RL模型进行允许采样(RejectionSampling),生成高质量的SFT数据,用于最终模型的训练。

问题,原始响应:将问题与R1模型生成的原始响应直接配对。系统提示,问题,R1响应:将问题与R1模型的响应配对,并在问题前添加一个精心设计的系统提示(SystemPrompt)。该系统提示旨在意见不合模型生成更符合人类讨厌的响应,例如更简洁、更易懂的格式。表9(第34页)展示了从DeepSeek-R1蒸馏知识对性能的指责。可以看到,在LiveCodeBench-CoT和MATH-500任务上,经过R1蒸馏后,模型的Pass@1指标分别指责了6.3和8.6个百分点,反对了该策略的有效性。

非推理数据(Non-ReasoningData):对于创意写作、角色扮演、简单问答等非推理类任务,则利用失败DeepSeek-V2.5生成响应,并由人工进行标注和校验,以确保数据的准确性和可靠性。

训练细节

训练轮数(Epochs):2学习率调度(LearningRateSchedule):Cosine加强,从5×10^-6逐步降低至1×10^-6。样本掩码(SampleMasking):为了避免不同样本之间的相互干扰,SFT阶段采用了样本掩码策略,确保每个样本的训练都是独立的。

强化学习(RL)

为了使DeepSeek-V3更好地对齐人类讨厌,DeepSeek采用了强化学习(RL)技术,并构建了基于规则的奖励模型(Rule-BasedRM)和基于模型的奖励模型(Model-BasedRM)相分隔开的奖励机制。

基于规则的奖励模型(Rule-BasedRM):对于可以通过明确规则进行判别的任务(例如数学题、编程题),采用基于规则的奖励模型。例如,对于数学题,可以设定规则检查最终答案是否正确;对于编程题,可以利用失败编译器进行测试用例验证。这种方式可以授予准确且轻浮的奖励信号。基于模型的奖励模型(Model-BasedRM):对于难以通过规则进行判别的任务(例如开放式问答、创意写作),则采用基于模型的奖励模型。该模型基于DeepSeek-V3SFT阶段的检查点进行训练,并采用了一种特殊的训练数据构建方式:

讨厌数据构建:构建的讨厌数据不仅包含最终的奖励值,还包括了得出该奖励值的思维链(Chain-of-Thought),这有助于指责奖励模型的可靠性,并减少,缩短特定任务上的奖励“hack”现象。模型输入:对于有明确答案的任务,模型输入为问题和生成的响应;对于没有明确答案的任务,模型仅输入问题和对应的响应。模型判断:对于有明确答案的任务,模型判断响应是否与正确答案匹配;对于没有明确答案的任务,模型根据问题和响应给出综合评价。

作为奖励模型,在RewardBench上的表现上,DeepSeek多个方面超越或持平GPT-4o和Claude-3.5-sonnet。

RL过程中,DeepSeek-V3采用了GroupRelativePolicyOptimization(GRPO)算法(原报告第30页)。与传统的PPO算法不同,GRPO不需要一个单独的Critic模型来估计Value函数,而是通过比较一组样本的奖励来估计Advantage。具体流程如下:

对于每个问题q,从当前的策略模型π_old中采样一组K个响应{y_1,y_2,...,y_K}。利用失败奖励模型对每个响应进行评分,得到对应的奖励{r_1,r_2,...,r_K}。计算每个响应的Advantage值:A_i=(r_i-mean(r))/std(r),其中mean(r)和std(r)分别表示该组奖励的均值和标准差。根据以下目标函数更新策略模型π_θ:[公式26和27(第30页)]其中,π_ref是参考模型(通常是SFT阶段的模型),β和ε是超参数。数据配比

在后训练过程中,DeepSeek-V3整合了多种类型的数据,数据来源和配比如下:

数学推理类数据:主要来自DeepSeek-R1模型生成的数学题解题步骤和逻辑推理过程。这类数据在后训练阶段占比约为25%。代码生成类数据:包括了从开源代码库中精选的代码片段,以及利用失败DeepSeek-R1模型生成的代码补全和代码解释数据。这类数据占比约为20%。通用领域对话数据:涵盖了开放域问答、创意写作、角色扮演等多种任务类型,主要利用失败DeepSeek-V2.5生成,并经过人工校验。这类数据占比约为45%。安全和伦理类数据:包含了用于指责模型安全性和符合伦理规范的指令和响应数据,占比约为10%。

热门标签:
  • 梦回大清全文免费阅读

    探索口述史研究主持人:近年来,口述史是一种颇受关注的研究方法,但也面临一些争议。《昆曲口述史》在完成的过程中进行了哪些探索?谷曙光:十卷本的《昆曲口述史》具有方法论的价值和意义。它为戏曲的口述史立了一个标杆,代表着戏曲的口述史理论在某种意义上实现了中西合璧,树立了可以传世的一种标识和标志。从阅读的层面来说,

    5313条评论 978人喜欢 709次阅读 929174人点赞
  • 張津瑜6分30秒視頻

    “打个比方,企业IPO就像是去申请北京户口,并购就相当于嫁给了一个有北京户口的人,从户口的角度来说能实现部分功能。”他举例,“但企业选择被并购搁置的因素有很多。不仅是因为IPO难而选择并购,就像婚姻不是单纯为了户口,也可能是企业想要背靠大树好乘凉,抑或是对公司的前景不确定,将风险转移。并购中的追求是非常个性化的。”基石资本合伙人杨胜君也赞成这个观点,他认为,重组是未来中小企业一个比较好的出路。“对于增长情况一般的企业,重组相当于一次新生的机会。”他此前在接受和讯网采访时表示。

    2407条评论 35387人喜欢 222769次阅读 118481人点赞
  • 在线播放一区

    无论是上世纪五十年代的“一\u{1F409}出戏救活一个剧种”,还是对李慧娘鬼戏的讨\u{26F8}论、支持,再到新世纪青春版《牡丹亭》的\u{1F414}热演,乃至于昆曲入选联合国\u{1F600}人类非物质文化遗产代表作名录\u{1F401}等,这部书中可以看到很多人\u{1F401}都对这些事件发表了自己的意见和看法。从这些不同角度的讲述中,读者可以感受到一个剧种100多年来的集体记忆与认同。郭义强:我们常说打造精品,

    563150条评论 250人喜欢 812344次阅读 07304人点赞
  • 里番肉工口全彩无遮挡

    又焦虑了战略投资者退出需要,推着交易顺利推进。而另一个制约出手的因素是,买方虽然愿意积极接洽并购机会,但对于并购标的是否作出业绩承诺,是否签署对赌协议,双方都有自己的“小九九”。近年来,对赌与回购已成一级市场融资中难以面对的规则。礼丰律师事务所发布的《VC/PE基金回购及退出分析报告》显示,检索沪深交易所2023年受理的项目发现,

    69297条评论 617人喜欢 76853次阅读 972人点赞
  • 外国人强奸中国女人

    一方面,并购还存在3年\u{2593}业绩对赌期,我们不宜过\u{1F94E}多干涉;另一方面,收购不是买\u{1F401}完就去控制(标的公司),而是要做到1\u{1F642}+1大于2。”硅宝科技这样\u{26F8}解释背后逻辑,“我们不希望大刀阔斧地保持不变它(嘉好股份),而是希望它一方面学习、

    35715条评论 43292人喜欢 6781次阅读 0957人点赞