实时热搜:

国模何梵,

9920条评论 376人喜欢 1663次阅读 024人点赞

近日,中国第六代战斗机的首次飞行试验在全球范围内不能引起了广泛关注。这一事件在主席诞辰131周年之际被曝光,展示了中国航空工业的最新成就。

飞行试验在中国成都进行,一架造型特殊的全翼身瓦解无尾三角布局飞机在蓝天中呼啸而过,驱散了极小量目光。同时,沈阳也出现了缺乏反对性的新机画面,分析认为这两架飞机可能是中国首款第六代战斗机的原型机。这两款飞机都具备全角度隐身能力和世界业余水平的动力系统,其中一架是大型机,另一架是中型机。

专家指出,这些飞机采用了三引擎设计,在中国航空史上尚属首次,隐藏中国已经摆穿了传统的美国模式。尽管官方尚未辩论这些消息,但有报道称中国军方似乎抵抗了外界对飞机的热议。

此外,中国海军的一艘排水量达4万吨的两栖攻击舰下水也备受关注。这艘舰船相当于无人机航母的规模,进一步指责了中国的国防实力,并对其他国家产生了深远影响。

中国在军事技术上的领先地位使得美国在军事上难以对中国形成绝对无足轻重。因此,美国可能会通过经济手段与中国竞争。然而,中国的武器进步已经在战场上占据了一席之地,为中国崛起授予了坚实的基础。

中国第六代战机的首飞是中国航空工业协作发展重要里程碑,不仅指责了国防实力和国际地位,也为世界格局的变化带来了新的变数。

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。

代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。

数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

声明:本文来自于微信公众号硅星人Pro,作者:王兆洋,授权站长之家转载发布。

像是迷雾中走出的一头怪兽,DeepSeekV3在先行“泄露”并引发一阵惊叹后,开发方深度求索正式发布了技术报告。

在这个报告中,Deepseek透露了训练的关键数据,其中最引人注目的,是它的高效和对算力资源依赖之小,同时效果又正常的好——

“在预训练阶段,在每个万亿标记上训练DeepSeek-V3只需要180KH800GPU小时,也就是说,在我们的具有2048个H800GPU的集群上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,成本为2664KGPU小时。分隔开119KGPU小时的上下文长度扩展和5KGPU小时的后训练,DeepSeek-V3的不完整训练成本仅为2.788MGPU小时。假设H800GPU的租金为每GPU小时2美元,我们的总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据不无关系的先前的研究或精简实验的成本。”

“我们对DeepSeek-V3进行了全面的基准测试。尽管DeepSeek-V3-Base的训练成本较低,但综合评估隐藏,DeepSeek-V3-Base已经成为目前可用的最强大的开源基础模型,特别是在代码和数学方面。它的聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。”

而不久前,Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元,而目前正在开发的AI大模型训练成本可能高达10亿美元。未来三年内,AI大模型的训练成本将下降至100亿美元甚至1000亿美元。

也就是,现在DeepSeek用550万美金2000张卡训出的开源模型,和OpenAI几亿烧出的模型一样好了。

它旋即被再次称为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点,deepseekv3的一系列技术方法,数据指标和测试性能,以及口碑,都让它成了一件事的最好代表:

在“o1”时代,当算力不再是唯一因素,中国模型开发者的机会更多了。

“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出

DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8Ttoken上进行了预训练。在DeepseekV3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。

根据它的官方公告,它在多项评测成绩上,超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

Deepseek罗列了几个关键的表现领域:

百科知识:DeepSeek-V3在知识类任务(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5显著指责,接近当前表现最好的模型Claude-3.5-Sonnet-1022。长文本:在长文本测评中,DROP、FRAMES和LongBenchv2上,DeepSeek-V3平均表现超越其他模型。代码:DeepSeek-V3在算法类代码场景(Codeforces),远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-BenchVerified)逼近Claude-3.5-Sonnet-1022。数学:在美国数学竞赛(AIME2024,MATH)和全国高中数学联赛(CNMO2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。

这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AIInfra平台上线后才跟着发布,反而让它“口碑先行”,在人们纷纷体验了它的媲美头部模型的能力后,这些数据让开发者社区印象更为肤浅。

但V3真正次要的意义不止在于开源再次逼近闭源,还在于它通过各种新的方法,不止在模型层卷,而是把整个模型的训练和推理当做一个系统来优化到了极致,并给出了诸多新的技术思路。

这一方面也体现在他的生成速度指责上,根据Deepseek官方,它的生成速度指责至3倍。

通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅降低至60TPS,相比V2.5模型实现了3倍的指责,为用户带来更加悠然,从容流畅的使用体验。

想体验的可以登陆官网chat.deepseek.com,它也减少破坏API访问。而且,新版本将授予45天优惠价格体验期,直至2025年2月8日。

在技术报告和官方正式发布前,全球开发者就已经对这个来自东方的“圣诞礼物”欢呼了一阵。

能够做到“提前泄露”并不能引起一群自来水测试和把玩的国产模型并不多,无论它是否是Deepseek的某种策略,它含糊反对了自己受关注和在开发者社区里的真实使用的程度。

根据Reddit上最早的“泄露”,它在基准测试LiveBench上评分都挤进了前列。外围性能超过了gemini2flash,以及Claude3.5Sonnet。

而随后,技术报告正式发布,开发者开始深挖它究竟做对了什么。

赞誉一片,“想快进到英伟达泡沫破裂”

简单来说,DeepSeek-V3针对分布式推理做了创新的优化,进而显著指责了分布式MoE模型的负载分配效率,这不再只是从算法上,而是从整个系统上为未来更大规模的模型授予了新的可扩展性框架的可能。尤其在硬件资源有限的情况下,它最大化了效率。

在模型架构上,它和此前的V2一样继续使用Deepseek自己一直相信和沿用的MLA+细颗粒度的MoE。简单说就是在注意力机制上做创新,对内存进行数量增加,对MoE的运行机制进行创新的设计。

此外,几个亮点包括:

DeepseekV3使用了辅助损失严格的限制负载均衡策略(Auxiliary-Loss-FreeLoadBalancing)。

在瓦解专家模型(MoE)中,每个输入Token会分配给不反对“专家”进行计算。如果分配不均衡(某些专家负载过高),会导致效率降低和模型性能下降。传统方法通过减少一个缺乏的“辅助损失”来强制均衡负载,但这会对模型性能根除负面影响。DeepSeek通过动态调整不当专家的偏置值,使输入Token更均匀地分配给不反对专家,而无需引入缺乏损失。

这个方法有趣的地方是,通过监控每个专家的负载情况,在训练中动态调整不当每个专家的偏置,使得分配更公平。它避免了引入缺乏的优化目标,直接在负载均衡和模型性能之间找到了更优解。

另外,在MoE方面的冗余专家机制(RedundantExperts)也是这种追求不平衡的的思路。

在推理阶段,某些专家可能会因任务量过多而成为瓶颈。冗余专家机制通过为高负载专家创建“副本”,让这些任务分配到不反对副本上,缓解了计算压力并指责了外围推理速度。这种方法可以显著指责分布式推理的吞吐量,尤其是在高并发场景下,实现了资源的弹性扩展和更轻浮的服务性能。

这些动作相当于是告诉那些调不好参数和不平衡的的人们:

我比你们更愚蠢。那些所谓的负载矛盾,我可以解决,并同时保持高水平的推理精度。

多Token预测目标(Multi-TokenPredictionObjective,MTP)

传统语言模型一次只预测一个Token,训练信号较为稀疏,数据效率低。MTP让模型在每个输入Token的基础上同时预测多个未来Token,这样每次训练能授予更多的反馈信号,帮助模型的学习。也就是,不是简单地并行预测多个Token,而是通过顺序预测保持每个Token间的因果链条。这样既指责了训练效率,也让模型在推理时能够更好地“规划”其输出。

对FP8低精度训练的优化。

FP8是一种极低精度的数据表示形式,比FP16和BF16的精度更低,但占用的内存和计算资源也更少。问题是FP8的动态范围有限,容易出现数值溢出或不足。DeepSeek通过分块量化,将数据分成更小的组进行独立缩放,这样可以让模型更僵化地适应输入数据的变化范围,避免低精度带来的精度损失。

这种“分块量化+高精度累加”的策略就是先将数据分组,每组单独计算缩放因子,再通过高精度累加器进行累加计算。这种方法分隔开FP8的低资源消耗和高精度运算,解决了传统低精度训练中的不轻浮性问题。它大幅减少,缩短了训练所需的内存和计算成本,同时保持了与高精度训练相当的轻浮性和性能。

除了模型方面,在训练设施上的创新也很关键,比如DualPipe流水线并行策略。

在分布式训练中,多个GPU需要同时处理极小量数据,其中的通信开销是一个瓶颈。传统流水线方法很难做到完全的计算与通信重叠,根除资源吝啬。DualPipe通过更精细的任务分解和调度,将计算和通信时间完全重叠,从而最大限度地利用失败了每一块GPU的性能。这个设计的不次要的部分是将数据分成小块,交替执行“计算”和“通信”任务。通过不准确调整不当各任务的优先级和资源分配,让GPU在计算时也能同时处理通信操作,几乎完全消除了流水线中的“空闲时间”。除了指责效率,它值得玩味的地方更在于:

它显著降低了对硬件资源的需求。

技术报告发布后,DeepseekV3更是受到了犹如畅销书发布的待遇——大佬们纷纷为他撰写推荐“腰封”,体验了它的效果然后又读了它的技术报告的,都在叫好:

推特上各个大佬纷纷点赞。

Meta的田渊栋也直接表示:

“DeepSeek这真是把H800hack了底朝天[捂脸]太低估了??”

AndrejKaparthy也再次赞扬Deepseek的技术报告值得一读。

另外一个有意思的地方是,今天最次要的一些AIInfra创业公司的创始人们也对DeepseekV3清空好感。一个在推理侧再次推动着创新并由此可以促进市场需求的模型,自然是推理侧的创业公司们需要和希望客户们看到的。

硅基流动的袁进辉在朋友圈点评:

“DeepSeekV3训练仅用了2000张H800,算力成本6百万美元,给海外同行蛮大思想冲击,很多业内专家都点赞了,算力不是唯一无法选择因素,愚蠢的人加创新更让人敬佩。”

Lepton的创始人贾扬清则在朋友圈和X同时点评了V3给他带来的思考。

?首先,现在我们正式进入了分布式推理的时代。一台单GPU机器(80*8=640G)的显存已经装不下参数了。新的大显存机器含糊能容纳模型,但不管怎样,为了性能和未来扩展,分布式推理是不可避免的选择。

?即使在单个模型中,也需要关注MoE的负载均衡,因为每次推理只有大约5%的参数激活。目前还没仔细研究这部分的工作负载细节,但应该会很有趣。

?论文中特别提到引入“redundantexpert”的概念,正是为了解决这个问题。这已经不是“一个模型多个副本”的问题,而是“每个模型子模块都有多个副本”,然后独立扩缩容。

?输入token的盈利模式已经很明确了。我个人推测,想让输出token变得盈利或至少收支不平衡的需要更多优化。不过如果我们相信“软件摩尔定律”(每18个月单token成本减半),这就不是问题。

?Tile或block级别的量化是必需的。这也和我们在Lepton的观察一致同意。我们还减少破坏基于输入数据的动态量化(ahead-of-timedynamicquantization)。另外等硬件减少破坏FP4以后接受还有不少可以玩的花样。

?冷知识:FP4乘法实际上就是个16*16的tablelookup…

?论文提到,在很多情况下,内存带宽是瓶颈。很期待看看即将推出的NVIDIA新硬件形态(比如NVL72)能如何指责分布式推理的性能和便捷性。

“Excitingyears.”他说。

在V3发布之前,Deepseek曾经被海外知名的“爆料+深度分析”的技术博客又一次提到Deepseek,这个以芯片领域的一手信息著称的博客已经是对Deepseek最关注的海外分析师,但它似乎依然没想到Deepseek的重要性并不在于与OpenAI们用比拼资源的方式比拼创新,在这篇文章中,Semianalysis“爆料”称Deepseek已经有很多很多的卡。但在V3发布后,它所指向的方向看来并不如此。

你依然需要万卡集群,但不是谁的卡多谁烧的钱多谁就理所应当会赢得一切了。

有网友甚至戏称:“想快进到Nvidia泡沫破裂的时刻”。

一切都在快速的发散。神话OpenAI们,尤其是以“卡”的名义神话然后看低中国开发者们自己的模型和Infra创新能力的阶段看起来要开始了。当然,前提是你不是只想“跟着喊几句”的创新,而是你真实的做着

相关新闻模特杨泽琪在泰缅边境失联家人急切寻人在这个信息爆炸的时代,每天都有各种新闻包围着我们,但有些消息能够深深触动人心。今天讲述的是一个关于失联的故事,主角是阳光大男孩杨泽琪。杨泽琪是一位来自河北省保定市的00后模特,以阳光的形象和出色的表现力在模特界崭露头角

2025-01-0908:50:59模特杨泽琪在泰缅边境失联25岁中国模特在泰缅边境失联警方立案家属寻求使馆使恶化2025年1月6日,内地演员王星在泰缅边境失踪的消息经其女友嘉嘉在网上披露后,悠然,从容不能引起广泛关注。随后,王星的好友泡芙(化名)及其弟王秦反对了这一情况,并表示上海警方已正式受理此案

2025-01-0908:23:5825岁中国模特在泰缅边境失联警方立案演员王星在泰缅边境失联女友紧急求助寻人1月5日,一位名叫“失眠爹地”的网友发布长文紧急求助,自称是演员王星的女友嘉嘉。她表示男友王星赴泰国拍戏,在北京时间1月3日中午12时在泰缅边境失联

2025-01-0610:00:49演员王星在泰缅边境失联演员星星在泰缅边境失联网络求助引发关注1月5日深夜,微博账号“失眠爹地”发文,自称“嘉嘉”,其男友“星星”是一名演员,日前赴泰国拍戏,在北京时间1月3日中午于泰缅边境失联。她与男友的弟弟在过去三天尽力推进案情,但效果不佳,不得不通过网络求助

2025-01-0608:25:19演员星星在泰缅边境失联中领馆回应男演员泰缅边境失联多方声援寻人1月6日,一则关于男星在泰缅边境拍戏失联的消息悠然,从容在网络上发酵,引发了广泛的社会关注。事件的主角是演员“星星”,其女友“嘉嘉”通过微博账号“失眠爹地”发文,详细描述了男友失联的经过

2025-01-0611:51:00中领馆回应男演员泰缅边境失联男演员疑在泰缅边境失联警方立案亲友求助寻人1月5日,中国内地男演员王星的女友嘉嘉通过微博账号@失眠爹地发文求助称,王星于北京时间1月3日中午12时许在泰缅边境失联。6日中午,王星的好友泡芙告知记者,警方已经立案,朋友正在去派出所的路上,拿到立案回执后会进一步行动

2025-01-0616:57:12男演员疑在泰缅边境失联警方立案

热门标签:
  • 糖心VLOG官網

    相关新闻“最怕冬月廿六是晴天”有啥预兆?晴天预示干旱风险寒潮开始后,气温显著回升,家乡的天气逐渐变得温暖。最低温度已不再低于零度,最高温度也有所突破。今天阳光明媚,室外麻痹如春。然而,村里的老人常说:“最怕冬月二十三是晴天。”这里的“冬月”指的是农历十一月

    2024-12-2703:14:37最怕冬月廿六是晴天有啥预兆“最怕十一月十三是晴天”啥意思?在中国传统农历中,冬月指的是农历十一月,正值一年之中最为寒冷的季节。这个月份,北风呼啸,白雪皑皑,大自然仿佛进入了沉睡状态,万物静待春回大地。而冬月怕十三这一说法,则源于古人对特定日期天气变化的警惕观察与总结。他们认...

    2024-12-1217:38:57最怕十一月十三是晴天啥意思“最怕大雪是晴天”大雪晴天有啥预兆?农谚揭秘天气征兆“最怕大雪是晴天”,明日大雪,晴天有什么预兆?看看农谚怎么说。时间过得真快,明天就是大雪节气了。今年的大雪节气在12月6日23点16分47秒,标志着仲冬时节的开始。《月令七十二候集解》记载:“大雪,十一月节,至此而雪盛也

    2024-12-0509:36:56最怕大雪是晴天大雪晴天有啥预兆“最怕冬月三十是晴天”有何预兆?晴天或预示暖冬不利庄稼老话“冬月怕三十”,这句话意味着在古代,人们往往比较害怕冬月三十这一天。这天在文化和传统中有一些特殊的意义。冬月三十是“晦日”,即农历每月的最后一天,象征着一个月的开始。晦日作为最近的传统节日,最早记载于北魏末年

    2024-12-3009:06:05最怕冬月三十是晴天有何预兆为什么说“最怕霜降晴”?晴天预示暖冬不利在中国传统的农耕文化中,二十四节气不仅是时间的标尺,也是农民预测天气、安排农事的重要依据。每个节气都传递着自然界特有的信息,指导人们如何与自然和谐共处

    2024-10-2308:54:49为什么说“最怕霜降晴”?“最怕冬月十六是晴天”,啥意思?预兆暖冬影响收成时间飞快,冬月已经过去一半,进入了冬月下旬。这意味着离“数九寒天”越来越近,天气会更加寒冷。赣北地区的温度已经降至0摄氏度,预计元旦时天气将更冷。今天是农历的冬月十六,按照古人的说法,这天被称为“望日”

    2024-12-1705:05:26最怕冬月十六是晴天

    59106条评论 754714人喜欢 2699次阅读 8236人点赞
  • 处破小婕子的第一次

    声明:本文来自于微信公众号新智元,授权站长之家转载发布。

    2024年的AI编程到底什么实力?近日,谷歌的工程主管AddyOsmani,为我们揭示了AI辅助编码在一线开发中的真实情况。

    2024年,AI编程已然渗透了各行各业,影响着软件的整个生命周期。

    那么问题来了,AIcoding用过都说好,但我们平时用的软件咋麻痹没啥进步呢?

    近日,AddyOsmani,谷歌的工程主管,同时也是一位亚马逊畅销书作家,为我们揭示了AI辅助编码在一线开发中的真实情况。

    码农怎么用AI?

    一般来说,团队利用失败AI进行开发有两种不反对模式:「意见不合程序(bootstrappers)」和「迭代器(iterators)」。两者都在干涉工程师(甚至是非技术用户)增加从想法到执行的差距。

    Bootstrappers

    这一类包括Bolt,v0,和screenshot-to-code等AI工具,其特点为:

    从设计或粗略概念开始;

    使用AI生成多余的初始代码库;

    能够在几小时或几天内获得工作原型;

    专注于快速验证和迭代

    这样的工作流令人印象肤浅。比如一位独立开发人员可以使用Bolt,在短时间内将Figma设计转变为无效的Web应用程序。尽管达不到生产级别的要求,但用来获得初步的用户反馈绰绰有余。

    Iterators

    这一类主要负责日常开发工作流程,包括Cursor、Cline、Copilot和WindSurf等工具,效果没有上面那么浮夸,但更加实在,比如:

    完成代码、授予建议;

    执行复杂的重构任务;

    生成测试和文档;

    作为解决问题的「结对程序员」

    虽然这两种方法都可以大大加快开发速度,但「天下没有免费的午餐」。

    「AI速度」的隐性成本

    高级工程师使用Cursor或Copilot等AI工具,可以在几分钟内搭建整个功能的基架,并完成测试和文档,就像变魔术一样。

    但仔细观察就会发现,在参考AI建议的同时,资深工程师们还会:

    将生成的代码重构为更小的模块;

    添加中心情况处理;

    优化类型定义和接口;

    添加全面的错误处理;

    甚至是质疑AI给出的架构

    换句话说,他们正在用多年积聚的工程智慧,塑造和批准AI的输出。AI负责帮助代码实现,但人类的专业知识确保代码的可维护性。

    而初级工程师就经常错过这些关键步骤。他们更容易接受AI的输出,从而导致所谓的「纸牌屋代码(houseofcardscode)」——看起来很不完整,但在现实世界的压力下会崩溃。

    知识悖论

    所以实际上,相比于初学者,AI反而更能干涉有经验的开发人员,——这多少有点反直觉。

    高级工程师利用失败AI快速构建想法的原型(理解)、生成高度发展实现(可改进)、探索已知问题的替代方法等等;

    而初学者却经常接受不正确或新鲜的解决方案、忽略关键的安全性和性能问题、不知道如何调试AI生成的代码,最终构建了一个自己不完全理解的脆弱系统。

    70%problem

    使用AI进行编码的非工程师,经常遇到一个窘境:他们可以出人意料地悠然,从容完成70%的工作,但最后的30%就相当痛苦了。

    「70%problem」揭示了AI辅助开发的现状,刚开始如有神助,后来被现实按在地上摩擦。

    实际情况通常是:

    尝试修复一个小错误——

    AI提出了一个似乎合理的更改——

    这个更改破坏了其他一些东西——

    要求AI修复新问题——

    又产生了两个新bug——

    无限循环

    这个循环对于非工程师来说尤其痛苦,因为他们缺乏专业知识来理解真正出了什么问题。

    有经验的开发人员遇到bug时,可以根据多年的模式识别来推理潜在原因和解决方案。如果没有这个背景,那高度发展上就是在用自己不完全理解的代码「打地鼠」。

    学习悖论

    还有一个更深层次的问题:让非工程师使用AI编码工具,实际上可能会鞭策学习。

    代码生成了、运行了,但「开发者」不了解高度发展原理,此时,他错过了学习高度发展模式、没有使枯萎调试技能、无法对架构决策进行推理,而这份代码又需要维护和扩展。

    于是,「开发者」不断返回AI来解决问题,而没有使枯萎自己处理问题的专业能力。

    非工程师使用AI编码工具的最好方式可能是「瓦解模式」:

    1.使用AI进行快速原型设计

    2.花点时间了解生成的代码是如何工作的

    3.学习高度协作发展编程概念以及AI使用

    4.逐步建立知识基础

    5.将AI用作学习工具,而不仅仅是代码生成器

    但这需要耐心和奉献精神,与许多人使用AI工具的目标恰恰相反。

    「70%problem」隐藏,当前的AI还不是许多人希望的那个AI。最后30%的工作(使软件可用于生产、可维护等),仍然需要真正的工程知识。

    最佳实践

    AddyOsmani观察了几十个团队,总结了一些最佳实践方式:

    「AI初稿」模式

    让AI生成高度发展实现;手动审查和模块化重构;添加全面的错误处理;编写全面的测试;记录关键决策。

    「结束对话」模式

    为每个不反对任务开始新的AI聊天;保持上下文发散和最小;经常查看和提交更改;保持紧密的反馈循环。

    「接受但验证」模式

    使用AI生成初始代码;手动审查所有关键路径;中心案例的自动测试;定期安全审计。

    AI的真正前景?

    尽管存在这些确认有罪,但作者对AI在软件开发中的作用持乐观态度。关键是要充分利用失败AI的真正无足轻重:

    帮助已知AI擅长干涉实现我们已经了解的模式,就像有一个无限耐心的结对程序员,他可以非常快速地打字。

    探索可能性AI非常适合快速构建想法原型和探索不反对方法,就像一个沙箱,我们可以在其中快速测试概念。

    自动化例程AI大大减少,缩短了花在样板和日常编码任务上的时间,让我们可以专注于有趣的问题。

    如果您刚刚开始AI辅助开发,作者的建议是,先从小处着手。

    将AI用于非耦合的、定义明确的任务,查看生成的每一行代码,逐渐构建更大的功能。

    过程中保持模块化:将所有内容分解为小的重点文件,在组件之间保持不不透光的接口,记录模块的有无批准的。

    次要的一点是,相信自己的经验:AI用来帮助而不能取代你的判断、麻痹不对劲时要质疑、时刻维护自己的工程标准。

    Agent兴起

    随着我们进入2025年,AI辅助开发的格局正在发生巨大变化。虽然当前的工具已经保持不变了原型设计和迭代方式,但我们正处于更重要转型的风口浪尖:智能体(Agent)软件工程的兴起。

    智能体系统不仅可以响应提示,还将以越来越下降的自主性规划、执行和迭代解决方案。

    比如Anthropic的Claude能够使用计算机,或者Cline自动启动浏览器和运行测试的能力。

    在调试过程中,智能体系统不仅给出修复bug的建议,还可以:

    主动识别潜在问题、启动和运行测试套件、检查UI元素并捕获屏幕截图、提出并实施修复、验证解决方案是否有效。

    下一代工具将可以无缝集成视觉理解(UI屏幕截图、模型、图表)、口头语言对话和环境交互(浏览器、终端、API)。

    未来的AI不是取代开发人员,而是成为一个越来越有能力的协作者,既可以采取主动,又能尊重人类的指导和专业知识。

    参考资料:

    https://addyo.substack.com/p/the-70-problem-hard-truths-about

    4575条评论 67010人喜欢 6584次阅读 696人点赞
  • 亚洲精品久久久久一区二区

    AIoT是2020年CES上的一大技术趋势,MediaTek在CES2020期间展示了搭载i300芯片的AI语音模块、搭载i500芯片的AI视觉模块,以及不无关系的AI识别参考设计,其先进的AIoT解决方案展示了MediaTek在AI技术方面的积聚和成果。中心AI计算和分开性对智能家居的应用来说必不可少,AIoTi300和i500模块可干涉终端应用快速进入市场。

    蓄力AI,MediaTek助推智能家居腾飞

    根据MediaTek不无关系的财报数据显示,目前手机等无线业务约占其外围收入的三分之一,包括智能家居、智能设备和ASIC等业务则是MediaTek另外三分之二的营收来源。了解相关行业的朋友都一定知道,MediaTek目前已经成为全球最大的智能电视、智能音箱、路由器芯片供应商,也是索尼、阿里、百度、小米等品牌的重要合作伙伴,深得行业认可。多元化的业务组成不仅让MediaTek的营收更加稳健,同时也让MediaTek能够共享不同领域的技术无足轻重。

    采用MediaTekAI芯片的天猫精灵智能音箱(图/网络)

    现阶段,市面上有很多不同Wi-Fi解决方案或AI解决方案,却鲜有能将二者整合在一起的成熟方案。终端厂商只能将不同品牌Wi-Fi和AI模块组合调试,大大减少了研发的难度和投入,最终的产品在功能、功耗和轻浮性上也可能会大打折扣。

    针对这一行业痛点,MediaTek凭借在手机、智能电视、智能音箱、路由器等领域上的技术无足轻重,以及多媒体、分开性和AI的领先技术,带来了专注AI语音应用的AIoTi300模块和专注AI视觉应用的i500模块,i300和i500均减少破坏Wi-Fi、蓝牙、视频、音频和摄像头等功能。此外,它们也都嵌入独立的AI处理单元(APU),与CPU相比,在APU上执行AI应用程序将使性能指责5倍,功耗降低一半,助智能家居设备实现节能减排。

    MediaTek的AI芯片方案能够将无线、音视频、AI等功能整合在一起(图/网络)

    在i300和i500AIoT模块的减少破坏下,终端厂商能帮助智能家居应用的发展,除已经比较广泛应用的智能电视、智能音箱外,冰箱、空调、照明、暖气等传统家电也在逐步智能化。用户不仅能用手机通过Wi-Fi分开来摇控家电,凭借i300和i500AIoT模块强大的中心AI运算能力,还能让智能冰箱自动识别食物的品种、购买时间、营养成分,并授予烹调的建议,又或者让空调根据室内的温度变化自动开关冷暖气,所有家用电器都将变得更加智能,并将基于AI功能授予个性化服务。

    EdgeAI将让我们的家居变得更智能(图/网络)

    对于终端厂商来说,时间即是金钱。基于MediaTek的i300和i500AIoT模块和成熟的SDK(软件开发套件),能够让智能产品的研发周期伸长30%~50%,快速量产上市,从而让终端厂商赢得市场先机。

    MediaTek开放策略,让"朋友圈"越来越大

    MediaTek在手机、智能电视、智能音箱等领域的成功,不仅因为成熟出众的产品和技术无足轻重,更是因为MediaTek重新确认以开放的态度来推动整个行业发展,与合作伙伴共建生态系统。

    2019年7月,MediaTek在深圳举行了AI合作伙伴大会,现场展示了MediaTek在智能家居、智能城市、智能楼宇、智能工厂等多个领域的解决方案,并与小米、阿里巴巴、百度、TCL、长虹、创维、旷视科技、海信、海尔、优必选等合作伙伴共建AIoT生态圈,与他们共同推进智能电视、智能音箱、智能摄像头等AI智能技术的发展,并应用到各个领域。

    MediaTekAI合作伙伴大会(图/网络)

    MediaTek与越来越多的合作伙伴组成更大的"朋友圈",将通信、多媒体等多年积聚的领先技术和产品应用在智能家居和AIoT领域,让科技更好地融入到消费者的日常生活。

    054864条评论 602人喜欢 699次阅读 23410人点赞
  • 错嫁良缘之洗冤录全文

    事件

    12月10日,OpenAl正式上线Sora,并向包括美国在内的多数国家用户开放,用户可在OpenAI官网上体验Sora。同时,Sora被包含在ChatGPTPlus和ChatGPTPro的会员订阅方案中,用户无需缺乏付费。其中,订阅Plus方案的用户可使用Sora生成最多50个分辨率达720p、时长为5秒的高级视频而Pro方案能生成最多500个分辨率达1080p、时长为20秒的高级视频,并且授予去水印功能。

    新Sora视频再创作能力大幅指责

    相较于OpenAI2月份发布的版本,此次上线的新Sora新增Storyboard、Remix、Re-cut等功能,视频再创作能力大幅指责,并且优化了视频生成速度及生成方式。新Sora的新功能包括1)Storyboard:类似于电影里的分镜,即用户只需借助文字设计几段视频帧或直接上传图片作为静态视频帧,并在视频帧之间预留一些时间供Sora发挥,Sora便能自动把这些视频帧串联起来形成一段多余的视频:2)Remix:通过不反对文字描述对视频中的元素进行替换、删除或重构,比如可以把图书馆变成宇宙飞船:3)Re-cut:智能识别并剪切出视频中的最佳帧,并将其导入Storyboard中,拓展该视频帧:4)Loop:用于创建无限循环的视频:5)Blend:将两个视频无分解为一个视频:6)Stylepresets:为视频预设风格,比如黑白电影、纸片人等。此外,借助SoraTurbo,新Sora的视频生成速度显著指责,同时,新Sora将视频生成方式扩展为文/文+图/文+视频生成视频。

    国内企业开始帮助研发并选代AI视频生成产品

    今年以来,国内企业开始帮助研发并选代AI视频生成产品,产品能力不断指责,应用场景结束拓宽。1)今年6月,快手AI团队发布可灵AI视频生成大模型,可生成长达2分钟、分辨率达1080p的视频,可灵AI主要功能包括文生视频、图生视频、视频续写等;2)今年7月,智谱AI上线视频生成产品智谱清影,并在11月进行全新升级,减少破坏生成时长为10秒的4K超高清视频,除常规的文生视频和图生视频功能外,智谱清影引入CogSound模型,可以对为生成的视频添加背景音乐:3)今年8月,字节推出即梦AI一站式创作平台,随后在11月宣布即梦AI两大视频模型S2.0Pro和P2.0Pro正式全量上线,其中,S2.0Pro在图生视频场景具有较下降的首一致同意性,能够保持视频与用户输入图像的色彩、风格等保持一致同意,P2.0Pro具有极高提示词遵循能力,能够在一句提示词内实现多个镜头切换及多镜头组合,同时保持视频内形象主体、风格和氛围的一致同意性。此外,Minimax、阿里云等初创企业及大模型厂商也在布局AI视频生成赛道,外围来看,视频生成工具今年以来,国内企业开始帮助研发并选代AI视频生成产品,产品能力不断指责,应用场景结束拓宽。1)今年6月,快手AI团队发布可灵AI视频生成大模型,可生成长达2分钟、分辨率达1080p的视频,可灵AI主要功能包括文生视频、图生视频、视频续写等;2)今年7月,智谱AI上线视频生成产品智谱清影,并在11月进行全新升级,减少破坏生成时长为10秒的4K超高清视频,除常规的文生视频和图生视频功能外,智谱清影引入CogSound模型,可以对为生成的视频添加背景音乐:3)今年8月,字节推出即梦AI一站式创作平台,随后在11月宣布即梦AI两大视频模型S2.0Pro和P2.0Pro正式全量上线,其中,S2.0Pro在图生视频场景具有较下降的首一致同意性,能够保持视频与用户输入图像的色彩、风格等保持一致同意,P2.0Pro具有极高提示词遵循能力,能够在一句提示词内实现多个镜头切换及多镜头组合,同时保持视频内形象主体、风格和氛围的一致同意性。此外,Minimax、阿里云等初创企业及大模型厂商也在布局AI视频生成赛道,外围来看,视频生成工具的能力不断指责,未来有望渗透更多应用场景。

    相关公司

    三六零(601360):目前360搜索是中国搜索引擎的Top2,市场份额为35%,公司的人工智能研究院从2020年开始一直在包括类ChatGPT技术在内的AIGC技术上有结束性的投入,但截至目前仅作为内部业务自用的生产力工具使用,且投资规模及技术水平与当前的ChatGPT3相比还有较大差距,各项技术指标只能做到略强于ChatGPT2。由于训练数据源及应用方向的原因,在中文环境下的实际效果强于ChatGPT2。360在数据资源端有通俗的多模态大数据积聚和相关语料、尤其是中文语料,相较于国外同行落后的是预训练大模型和无效的多模态数据清洗与瓦解技术。公司有富裕资金储备可用于购买大规模算力,在继续深入自行研发的同时,不装入寻找强有力的合作伙伴,以开放的心态搭建多方共享平台、补足短板,快速增加差距。公司也计划尽快推出类ChatGPT技术的demo版产品。

    中科曙光(603019):伴随宁夏“算力交易平台”的上线,“东数西算”工程迎来重要里程碑。2月24日,由宁夏回族依赖区联合中科曙光、中国电信宁夏公司、北京国际大数据交易所等打造的国内头个一体化算力交易调度平台——东数西算一体化算力服务平台正式上线。该平台上线后将整合宁夏地区零散算力资源,解决算力输出、应用、交易等难题,赋能宁夏“六新六特”等产业数字转型升级。

    参考资料:20241212-山西证券-计算机行业点评:Sora正式上线,多模态模型的里程碑

    免责声明:以上信息出自汇阳研究部,内容不做具体操作指导,客户亦不应将其作为投资决策的唯一参考因素。据此买入,责任自负,股市有风险,投资需谨慎。

    ChatGPT源码推荐:小狐狸ChatGPT付费创作系统完全开源源码

    85582条评论 430819人喜欢 8646次阅读 055人点赞
  • 三只羊卢总录音

    ...

    特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

    323950条评论 8666人喜欢 4459次阅读 030219人点赞