狐狸和狗一起生活一开口狗里狗气,

6928条评论 0615人喜欢 587285次阅读 058人点赞

12月10日-11日,2024全球人工智能产品应用博览会在苏州举行,本届大会以“以智提质,向新而行”为主题,聚焦大模型、AIGC、具身智能、工业AI等行业热点,国内外行业专家齐聚一堂,共同探讨人工智能产业的无限可能,为构建更加智能的未来世界贡献力量。

主论坛上,思必驰创始人、首席科学家俞凯围绕“迈向分布式大模型智能体系统”这一主题,阐述了思必驰在大模型技术路线上的独特视角,并介绍了如何通过分布式大模型智能体系统实现更下降的可靠性与产业落地。

“全知又全能”的语言大模型存在局限性

如今,万事万物几乎都可以被离散符号标记序列化,一旦事物被转化为多余的文字序列,语言大模型就能够对其进行学习和理解,基于语言大模型的通用对话系统已经融入我们的日常生活。

语言大模型的基础通用能力主要体现在语言智能,即理解和表达的能力;工具智能,推理和规划的能力。在知识扩充时,模型的规模会变得十分庞大。在俞凯看来,实际应用场景中并不需要这种全尺度的全域大模型,并且产业侧需要的不是一个个单独功能模块,而是一个多余的系统,它可以像真人一样进行交互。

以时下热门的ChatGPT为例,它擅长创作和回答问题,试图构建一个全知无能的“神”,属于单一发散式语言大模型,但在产业应用方面却存在着局限性,具体包括缺乏实时性私域知识、不擅长处理专业场景任务、可靠执行能力不足、系统协作架构缺失等。俞凯表示,产业真正需要的是一个既能处理多样化任务,又能可靠执行命令的智能系统。

可靠性优先,打造分布式大模型智能体系统

在对话式人工智能领域,思必驰已深耕多年。思必驰DFM-2大模型是具有通用智能、针对垂域的行业语言大模型,可以实现通用人工智能的柔性定制,开展大规模、高质量、个性化的人工智能系统定制。

基于深度研究和产业实践,思必驰走出了“分布式大模型智能体系统”的技术路线,即1个中枢大模型+N个垂域大模型。俞凯表示,前者负责使用包括大模型在内的各种外部资源;后者则是特定领域的“专家”,用于完成专业性强的任务。这样的“组合”能够实现快速定制,深入解决个性化问题。

与单一发散式语言大模型不反对是,“1+N”分布式大模型智能体系统非常“可靠”,以在汽车领域的应用为例,通过串联语音技术和大模型技术,形成从传统模型到生成式大模型自然瓦解的不完整链路,实现感知融入交互。

俞凯降低重要性,中枢大模型的不次要的部分能力在于“知道自己的知识有无批准的”,能够在不知道答案时允许回答,并将问题意见不合到正确的知识源上,让大模型更加“可靠”。

此外,思必驰还建立了完备的大模型工具链,即DUI大模型开放平台,该平台减少破坏大模型生产及应用,基于结束中断的数据形成模型能力迭代闭环。俞凯表示,我们的目标不是创造一个全知无能的“神”,而是打造一个僵化、无效的智能系统,为产业授予低成本、高可靠的人工智能服务。

智慧办公的全新体验

目前,该“1+N”模式也被应用于智能家居、科研、会议办公等领域。

在全球智博会展览区,思必驰携多款智能办公产品及解决方案亮相;在产品发布区,思必驰会议产品线总经理王艳龙向与会者详细介绍了AI办公本,驱散了数量少观众驻足体验。

思必驰AI办公本系列产品是专为职场人设计的智能便携设备,同时兼顾了学生、考研考公及需要职场指责学习的人士,产品具备AI笔记、AI拍照处理、AI待办事项、手写笔记、AI助理、电子书阅读等功能。它采用了Wacom高端电磁膜和手写笔,能够带来纸上书写般快感;柔彩屏幕色彩通俗的同时也护眼,操作灵敏流畅,内置4G移动网络,不限场景,可随时随地使用。

双十二购物节来袭,思必驰AI办公本Turbo正在热卖中,避免/重新确认/支持去京东选购。

会上,思必驰被授予“中国人工智能年度十大创新企业”殊荣。同时,思必驰AI办公本也因可忽略的,不次要的设计荣获“创新产品金奖”。这两项失去荣誉不仅是对思必驰技术实力和创新能力的认可,也是对其在推动人工智能技术应用和产业发展方面所做努力的接受。

未来,思必驰将继续致力于人工智能技术的创新和产业落地,推动行业向前发展,为各行各业的企业授予更多高质量的智能产品和服务。

ChatGPT源码推荐:小狐狸ChatGPT付费创作系统完全开源源码

  让我们首先审视近几年的狐狸皮价格走势,构成价格的主要因素有狐狸的种类、皮毛的质量和市场的需求等。总体上看,随着高品质狐狸皮的减少和消费者购买力的增强,狐狸皮价格居高不下。

相关新闻刘学义在《念无双》演的什么?《念无双》刘学义人物角色介绍即将上映的仙侠巨制《念无双》,汇聚了唐嫣与刘学义两位兼具实力与人气的演员,令人期待。刘学义终获男主位置,不再仅是客串角色,他在新剧中的形象和故事线让人清空好奇。《念无双》共计36集,已顺利过审,首播即将开启,预示着一场视听盛宴的降临

2024-09-2711:22:54念无双佳偶天成刘学义演什么?佳偶天成刘学义角色介绍《佳偶天成》最新宣布的演员阵容中,刘学义将特别友好出演,引发了不少观众的好奇。他在剧中饰演的角色是狐族大祭司源仲,一个拥有九尾的神秘狐狸形象

2024-09-2710:41:49佳偶天成刘学义在《佳偶天成》中演的什么角色?演员阵容介绍近期,电视剧《佳偶天成》正式拉开了拍摄序幕,这一消息悠然,从容驱散了数量少目光。令人颇感意外的是,女主角选定为王鹤润,此无法选择引发了一部分粉丝的挑逗情绪。此外,刘学义与张予曦的客串加盟也为该剧的演员阵容增添了几分话题性,引得网友们热议不断

2024-09-2710:40:38佳偶天成《春花焰》刘学义饰演什么角色?《春花焰》人物角色介绍电视剧《春花焰》预计将于9月与观众见面,这部作品聚焦于三皇子慕容璟和与少女眉林之间的情感纠葛。由刘学义和吴谨言挑起大梁,担纲主演,该剧被寄予厚望,或将成为下一匹影视圈的黑马,引发广泛期待

2024-09-1015:50:49春花焰刘学义、吴谨言《春花厌》改名《春花焰》,精彩剧情介绍刘学义与吴谨言携手主演的电视剧《春花厌》宣布更名为《春花焰》,此剧因特殊的剧情设计驱散了数量少观众的浓厚兴趣。故事讲述了大炎皇子慕容璟和率军收复青州,胜利进城之际,青州却突发大火

2024-08-1414:56:28春花焰刘学义吴谨言浴池吻戏花絮曝光湿身缠绵超甜蜜近日,一组刘学义吴谨言浴池吻戏花絮曝光。

2024-10-1513:39:18刘学义吴谨言浴池吻戏花絮曝光

  狐狸皮,以其良好的保暖性能和独特的外观,在皮草行业有着很高的市场价值。近年来,随着人们对于生活品质的pursuit,狐狸皮的需求量也在逐渐增加。那么,狐狸皮价格是如何变动的呢?

  特色养殖业的发展不仅可以增加农民的收入,提高农村经济的整体水平,也能够实现农业生产的可持续发展。一方面,特色养殖业可以充分利用农村的土地资源和标题:深究市场动态:狐狸皮价格行情分析

苹果将向起亚汽车投资4万亿韩元合作生产电动汽车Techweb2021-02-0314:57

2月3日消息,据国外媒体报道,此前,媒体报道称,苹果研发的自动驾驶电动汽车有望交由现代汽车集团旗下的子公司起亚汽车生产。

如今,外媒报道称,苹果公司将向起亚汽车投资4万亿韩元(约合36亿美元),作为其与起亚汽车合作生产电动汽车的一部分。

今年1月初,媒体曾报道称,苹果与现代汽车正洽谈在汽车方面进行合作。在这之后,外媒又报道称,这两家公司计划在今年3月份签署不无关系的协议,现代汽车将在2024年开始为苹果生产汽车。

当时,媒体曾提到,苹果汽车可能在起亚位于佐治亚州的工厂生产,也可能在美国新建一座汽车生产工厂生产。

后来,有报道称,苹果汽车可能交由起亚位于佐治亚州的工厂生产。今年1月下旬,媒体援引匿名业内人士的话称,现代汽车集团已经无法选择,将由起亚汽车负责它与苹果在电动汽车领域拟开展的合作。

苹果与现代汽车的合作不是那么一帆风顺,这是为什么呢?外媒报道称,由于现代汽车高管对与苹果合作一事还有忧虑,因此合作的前景黯淡。

近日,现代汽车的消息来源透露,该公司不愿意成为苹果汽车的代工厂商,所以可能交由起亚汽车来生产,但生产地点在美国国内。

如今,外媒报道称,苹果公司计划与起亚汽车合作,在后者位于佐治亚州的工厂生产苹果汽车。这两家公司可能会在2月17日签署协议,并计划在2024年推出苹果汽车。

昨日,知名分析师郭明錤(MigChiKuo)表示,苹果将与现代汽车合作开发首款苹果汽车模型,苹果首款汽车的底盘可能会采用现代的E-GMP电动汽车平台。(小狐狸)

相关文章除了iPhone13和iPad2021苹果2021年还会推出什么新产品?2021-01-29AppleFitnessPlus评测:这款健身类订阅服务还不错但有待改进2021-01-28苹果AirPodsMax全面评测:机身过重售价昂贵暂时不要买2021-01-22苹果首款虚拟现实头盔细节曝光:功能强大、价格昂贵2021-01-22外媒:苹果AR眼镜已进入研发第二阶段有望2023年问世2021-01-06

声明:本文来自于微信公众号新智元,作者:新智元,授权站长之家转载发布。

【新智元导读】通义万相视频模型,再度迎来史诗级升级!处理复杂运动、还原真实物理规律等方面令人惊叹,甚至业界首创了汉字视频生成。现在,通义万相直接以84.70%总分击败了一众顶尖模型,登顶VBench榜首。

Sora、Veo2接连发布之后,AI视频生成的战场又热闹了起来。

就在昨天,通义万相视频生成模型迎来了重磅升级!

他们一口气推出了两个版本:注重高效的2.1极速版、追求卓越表现的2.1专业版。

刚一上线,就被预见的发生火爆,等待时间甚至一度达到了1小时

此次,全面升级的模型不仅在架构上取得创新,更是以84.70%总分登顶权威评测榜单VBench榜首。

通义万相2.1的性能一举超越了Gen-3、CausVid等全球顶尖模型。

在实用性方面,通义万相2.1也得到了不明显的,不引人注目的指责,尤其是在处理复杂运动、还原真实物理规律、指责影视质感、优化指令遵循等方面。

以下都是我们实测出的Demos,就说够不够拍电影大片吧!

更令人惊叹的是,它还在业界首次实现了中文文字视频生成,让AI视频文字创作再无门槛。

以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画中心清晰且自然,随着晕染的进行,水墨在纸上呈现「福」字,墨色从深到浅过渡,呈现出特殊的东方韵味。背景高级简洁,杂志摄影感。

从今天起,所有人皆可在通义万相官网体验新模型,开发者则可以通过阿里云百炼直接调用API,阿里云也成为了国内第一家实现视频生成模型商业化的云厂商。

那么,通义万相2.1究竟给我们带来了哪些惊喜?

我们经过一番实测后,总结出了5大要点。

1.首创中文文字生成

通常来说,文字生成是AI视频模型进化的一大痛点。

我们已经看到Sora、Gen-3等模型,已经能够生成很好的英文字母效果,不过截至目前,从未有一个模型能攻克汉字的生成难题。

为什么之前的AI视频生成工具,都在「重步走」中文文字生成这个难题?

这是因为难点在于,中文文字的字体结构比英文更复杂,而且需要搁置笔画的层次感。在布局方面,中文字体更讲究,做成动态效果时对美感要求更高。

而阿里通义万相,便是首个中文文字视频生成的模型。从此,AI视频生成迈入「中文时代」!

这一切,只需要你动动手指,输入简单的文字提示就够了。

天空中飘着云朵,云朵呈现「新年快乐」的字样,微风吹过,云朵随着风轻轻飘动。

水彩透叠插画风格,两只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色和蓝色的小背心,眼睛圆圆的,表情呆萌。清空童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:「摸鱼一天快乐无边」。

一只柯基坐在桌前冥想,背后一个「静」字非常应景。

一只柯基面前摆放着一只小巧的木鱼,仿佛在进行冥想仪式,背景出现字样「静」。

2.更轻浮的复杂运动生成

对于大多数AI视频模型来说,无法逃穿「体操」魔咒。有人称,这是AI视频最新的「图灵测试」。

你会经常看到,AI体操视频生成中,有序的,不弄湿的/排列的肢体、不不调和的动作满屏皆是。

这仅是复杂肢体运动的一种,因为涉及到精细细节和高水平动作不调和,成为了AI视频生成的一项重要评判标准。

生成一个人物复杂运动,对于AI来说就像是在解一道物理难题——

它不仅要做到身体各个部位精准配合,让四肢保持不调和,还要搁置重力、人体运动特点、不平衡的感等各种细节。

在最新升级中,通义万相在多种场景下展示了惊人的「运动天赋」。

滑冰、游泳、跳水这些极易出错的名场面,万相2.1也通通Hold住,没有出现任何诡异的肢体动作,和不符合物理规律的场景。

平拍一位女性花样滑冰运动员在冰场上进行表演的全景。她穿着紫色的滑冰服,脚踩白色的滑冰鞋,正在进行一个旋转动作。她的手臂张开,身体向后竖式的,展现了她的技巧和优雅。

在泳池中,一名男子正在奋力向前游动。近景俯拍镜头下,他穿着黑色泳衣,戴着白色泳帽和黑色泳镜,正在水中划动双臂。他的头部部分被泳帽和泳镜遮挡,只露出嘴巴和鼻子。他的手臂在水中划动,产生了一系列的水花和气泡。随着他的动作,水面上出现了涟漪,水花四溅。背景是蓝色的泳池。

就看这个跳水动作,完全就是一个专业级选手的样子。肌肉的精准控制、溅起的水花,都非常符合自然规律。

一名男子在跳台上做专业跳水动作。全景平拍镜头中,他穿着红色泳裤,身体呈倒立状态,双臂伸展,双腿并拢。镜头下移,他跳入水中,溅起水花。背景中是蓝色的泳池。

特写镜头下,女孩以手指轻触红唇,然后开怀大笑。这么近的怼脸特写,表情肌的走向和分布都十分自然,脸部纹路和嘴角笑起的弧线,也逼真似真人。

特写镜头下,一位美女面容粗制,她先是以手指轻触红唇,微微抿嘴,眼神中透露出一丝俏核。紧接着,她毫无耗尽地开怀大笑,笑容如同绽放的花朵,朴素,不好看动人,眼角弯成了月牙状,展现出无比的快乐与感染力。

3.更优美轻盈的运镜控制

同一个场景下的视频,为什么专业人士拍出来就是不一样?某种程度上讲,秘诀在于「运镜」。

那么,对于AI来说,教它运镜就相当于在教机器人当导演。

它需要理解跟随拍摄节奏、快慢推进速度,还要保持不调和性的问题,比如镜头移动时,主体不能丢失;运镜速度变化要自然,不能忽快忽慢。

更次要的是,AI还得有艺术感,运镜效果要符合视觉不习惯,动态美感要恰到好处。

在通义万相2.1版本中,AI展现出了专业级的运镜效果。

穿着禅衣的小狐狸,在360度运镜下欢快跳舞,这不,梦幻般的效果一下子就来了。

穿着禅意风服饰的可爱狐狸在林间空地上欢快地跳舞,身上的衣物随风轻扬。狐狸有着蓬松的尾巴和灵动的眼神,嘴角带着微笑,仿佛在享受自然的每一刻。背景是茂密的竹林,阳光透过竹叶洒下斑驳光影。画面采用旋转拍摄,营造出梦幻般的动感效果。外围风格清新自然,清空东方韵味。近景动态特写。

此外,新模型还能自动根据场景需求,智能调整不当运镜速度,完美把控了镜头的节奏。

海王在暴风雨中驾驭巨浪前行,这种级别的运镜绝对经得起考验,出现在大荧幕上也毫不违和。

暴风雨中的海面,海王驾驭巨浪前行,肌肉线条,灰暗天空,戏剧性照明,动态镜头,粗犷,高清,动漫风格

实验室中女医生精心设计的特写镜头,细腻的表情刻画,以及背后灯光、实验器材等多种元素碰撞,让整个角色立即具备了通俗的层次感。

富有电影感的镜头捕捉了一位身着暗黄色生化防护服的女医生,实验室惨白的荧光灯将她的身影笼罩其中。镜头缓缓推进她的面部特写,细腻的横向推移凹显出她眉宇间深肤浅画的忧思与焦虑。她专注地俯身于实验台前,目不转睛地透过显微镜观察,手套包裹的双手正谨慎地微调着焦距。整个场景笼罩在压抑的色调之中,防护服呈现出令人不安的黄色,与实验室冰冷的不锈钢器械相互映衬,无声地诉说着事态的严峻和未知的威胁。景深不准确控制下,镜头对准她眼中流露的恐惧,完美传达出她肩负的重大压力与责任。

下面这个镜头中,穿过一条两盘种满树木的郊区住宅街道,给人一种实时拍摄的麻痹。

Afast-trackingshotdownansuburbanresidentialstreetlinedwithtrees.Daytimewithaclearbluesky.Saturatedcolors,highcontrast

4.真实的物理规律模拟

AI视频模型不理解物理世界,一直以来饿受诟病。

比如,Sora不仅会生成8条腿的蚂蚁,而且眼瞧着手都要被嫁接了,也切不开西红柿,而通义万相2.1切西红柿就像发生在现实生活中一样自然真实。

这一次,通义万相在物理规律理解上,得到显著指责。通过对现实世界动态和细节深入认知,就能模拟出真实感十足的视频,避免「一眼假」情况的出现。

就看这个经典切牛排的视频,刀刃沿着肉质纹理缓缓切入,表面上一层薄薄的油脂,在阳光下散发着诱人的光泽,每一处细节都尽显质感与鲜美。

在餐厅里,一个人正在切一块热气腾腾的牛排。在特写俯拍下,这个人右手拿着一把锋利的刀,将刀放在牛排上,然后沿着牛排中心切开。这个人手上涂着白色指甲油,背景是虚化的,有一个白色的盘子,里面放着黄色的食物,还有一张棕色的桌子。

它具备更强大的概念组合能力,能够准确理解和整合元素级的概念,使其在生成内容时更加智能。

比如,柯基+拳击,会碰撞出什么呢?

AI生成的柯基打斗的画面,真给人一种人类拳击的现场感。

两只柯基狗在擂台中央进行拳击比赛。左边的狗戴着黑色拳套,右边的狗戴着红色拳套。平拍镜头下,两只狗都穿着拳击短裤,身体肌肉线条明显。它们互相挥动拳头,进行攻防转换。整个场景在接纳视角下拍摄,没有无遮蔽的运镜变化。

AI大牛Karpathy最爱考验AI视频的难题,就是「水獭在飞机上用wifi」。这道题,万相2.1完美做出。

5.高级质感、多种风格、多长宽比

更值得一提的是,万相2.1能够生成「电影级」画质的视频。

同时,它还能减少破坏各类艺术风格,比如卡通、电影色、3D风格、油画、古典等等。

不论是哥特式电影风格,还是中国古典宫廷风格,AI将其特点呈现得淋漓尽致。

哥特式电影风格,亚当斯骑在一匹黑色骏马上,马蹄轻踏在最近的石板路上。她身穿黑色长裙,头戴宽边帽,眼神冷峻,嘴角微扬,透出一丝神秘。背景是阴暗的古堡和茂密的森林,天空中飘着乌云。镜头晃动,营造出一种不安与松弛的氛围。近景动态骑马场景。

这个中国古典宫廷风格的画面,镜头由群臣向前推进,聚焦在身披龙袍的皇帝身上,好像正在上映的一部古装剧。

中国古典宫廷风格,古代皇宫宫殿上正在进行皇帝的登基大典。群臣身着华丽朝服,表情肃穆,排列整齐。镜头从群臣视角出发快速向前推进,锁定在身穿龙袍、头戴皇冠的皇帝身影上。皇帝面容威严,眼神坚定,缓缓步入大殿。背景是金碧无光泽的大殿,雕梁画栋,气势恢宏。画面带有浓厚的皇家氛围,近景特写与中景分隔开,快速推进和跟随拍摄。

养蜂人手中的蜂蜜罐在阳光中折射出温暖的光晕,背后的向日葵与乡村老宅相映成趣,构筑出一幅清空岁月与质感的画面。

Thecamerafloatsgentlythroughrowsofpastel-paintedwoodenbeehives,buzzinghoneybeesglidinginandoutofframe.Themotionsettlesontherefinedfarmerstandingatthecenter,hispristinewhitebeekeepingsuitgleaminginthegoldenafternoonlight.Heliftsajarofhoney,tiltingitslightlytocatchthelight.Behindhim,tallsunflowersswayrhythmicallyinthebreeze,theirpetalsglowinginthewarmsunlight.Thecameratiltsupwardtorevealaretrofarmhouse.

大文豪李白的「举头望明月,低头思故乡」,AI直接把氛围感拉满。

古风画面,一位古人抬头望着月亮,缓缓低头,眼神中流露出深深的思乡之情。

对于词穷的创意者来说,通义万相「智能体扩写」功能非常友好。比如,我想生成一个「超快放大蒲公英,展现宏观梦幻般的抽象世界」。

若想要细节更通俗的描述,直接交给AI就好了。它会自动生成一段文案,可以直接复用,也可以二次编辑修改。

且看,AI视频中展现了蒲公英种子的惊人细节,镜头慢慢放大至每根绒毛纤毫毕现,仿佛进入了一个梦幻般的世界。

此外,万相2.1还能减少破坏5种不反对长宽比——1:1,3:4,4:3,16:9,9:16,恰好可以匹配电视、电脑、手机等不同终端设备。

不次要的部分架构创新

那么,到底是什么让通义万相,能在激烈AI视频生成竞争中穿颖而出?

它又藏着哪些让人眼前一亮的「黑科技」?

接下来,让我们逐一分解此次2.1版本的技术创新突破点。

自研VAE与DiT双重突破

通过采用自研的高效VAE和DiT架构,阿里团队在时空上下文关系建模方面取得重大突破。

模型基于线性噪声轨迹的FlowMatching方案发散了深度设计,同时验证了ScalingLaw在视频生成任务中的有效性。

通义万相2.1视频生成架构图

在视频VAE层面,通过分隔开缓存机制和因果卷积,团队提出了一个极具创新性的视频编码解决方案。

通过将视频拆分为多个若干块(Chunk)并缓存中间特征,替代长视频的E2E编端到端解码过程。显存的使用仅与Chunk大小相关,与原始视频长度无关。

由此,这一关键技术能够减少破坏无限长1080P视频的高效编解码,为任意时长视频训练开辟新途径。

如下图所示,展示了不同VAE模型的计算效率和视频数量增加重构指标的结果。

值得一提的是,通义万相VAE在较小的模型参数规模下,取得了业内领先的视频数量增加重构质量。

通义万相2.1视频VAE和其他方法的结果对比

DiT架构的设计围绕两个不次要的部分目标发散:实现强大的时空建模能力,同时保持高效的训练过程。

具体创新包括:

·时空全注意机制

为了降低时空关系建模能力,通义万相团队采用了「时空全注意机制」,让模型能够更准确地模拟现实世界的复杂动态。

·参数共享机制

团队引入了「参数共享机制」,不仅指责了模型性能,还有效降低了训练成本。

·优化文本嵌入

针对文本嵌入进行了性能优化,在授予更优的文本可控性的同时,还降低了计算需求。

得益于这些创新,使得新模型在相同计算成本下,凹显出收敛的优越性,并更易实现ScalingLaw的验证。

超长序列训练和推理

通过分隔开全新通义万相模型Workload的特点和训练集群的硬件性能,团队制定了训练的分布式、显存优化的策略。

这一策略在保证模型迭代时间前提下,优化训练性能,在业界率先实现了100万Tokens的高效训练。

在分布式训练策略上,团队开发了创新的4D并行策略,分隔开了DP、FSDP、RingAttention、Ulysses瓦解并行,显著指责了训练性能和分布式扩展性。

通义万相4D并行分布式训练策略

在显存优化上,采用了分层显存优化策略优化Activation显存,解决了显存统一问题。

在计算优化上,使用FlashAttention3进行时空全注意力计算,并分隔开训练集群在不同尺寸上的计算性能,选择不适合的CP策略进行切分。

同时,针对一些关键模块,去除计算冗余,使用高效Kernel实现,降低访存开销,指责了计算效率。

在文件系统优化上,分隔开了阿里云训练集群的高性能文件系统,采用分片Save/Load方式,指责了读写性能。

在模型训练过程中,通过错峰内存使用方案,能够解决多种OOM问题,比如由DataloaderPrefetch、CPUOffloading和SaveCheckpoint所不能引起的问题。

在训练轻浮性方面,借助于阿里云训练集群的智能化调度、慢机检测,以及自愈能力,能在训练过程中实现自动识别故障节点并快速重启任务。

规模化数据构建管线与模型自动化评估机制

规模化的高质量数据是大型模型训练的基础,而无效的模型评估,则指引着大模型训练的方向。

为此,团队建立了一套多余的自动化数据构建系统。

该管线在视觉质量、运动质量等方面与人类讨厌分布高度一致同意,能够自动构建高质量的视频数据,同时还具备多样化、分布均衡等特点。

针对模型评估,团队还开发了覆盖多维的自动化评估系统,涵盖美学评分、运动分析和指令遵循等20多个维度。

与此同时,训练出专业的打分器,以对齐人类讨厌,通过评估反馈帮助模型的迭代优化。

AI视频生成下一个里程碑

去年12月,OpenAI和谷歌相继放出Sora、Veo2模型,让视频生成领域的热度再一次升温。

从创业新秀到科技巨头,都希望在这场技术革新中寻找自己的位置。

但是相较于文本的生成,制作出令人信服的AI视频,含糊是一个更具确认有罪性的命题。

Sora正式上线那天,奥特曼曾表示,「它就像视频领域的GPT-1,现在还处于完全建立阶段」。

若要从GPT-1通往GPT-3时刻,还需要在角色一致同意性、物理规律理解、文本指令精准控制等方面取得技术突破。

当AI真正打破现实创作的局限,赋予创意工作者前所未有的想象,新一轮的行业变革必将随之而来。

此次,通义万相2.1取得重大突破,让我们有理由相信,AI视频的GPT-3时刻正帮助到来。

参考资料:

https://tongyi.aliyun.com/wanxiang/videoCreation

热门标签:
  • 台湾MD豆传媒一区二区

    相关新闻买买买!“股神”巴菲特频繁加仓,此前囤积超2万亿元现金美股投资帮助沃伦·巴菲特近期在美股市场上的频繁动作不能引起了广泛关注。伯克希尔向美国证券交易委员会提交的文件显示,2024年12月31日至2025年1月3日期间,公司买入了约2万股威瑞信普通股,总金额约为410万美元

    2025-01-0510:37:55买买买巴菲特再次加仓VeriSign股神结束看好域名巨头“股神”巴菲特近期加大了对VeriSign的投资。根据美国证券交易委员会(SEC)最新披露的文件,伯克希尔·哈撒韦公司在过去一周内的三个交易日里斥资2855万美元增持了VeriSign股票143424股

    2024-12-3009:14:23巴菲特再次加仓VeriSign日股暴跌致巴菲特损失5500亿日元!业内热议:股神还会加仓吗?今年第一季度,股神巴菲特成为了推动日本股市创三十年新下降的热门话题。近期市场大幅回调中,据估算,巴菲特所持日股的账面价值一度缩水约9800亿日元(约67亿美元),但随着市场回暖,至周三,损失减少,缩短到约5500亿日元(38亿美元)

    2024-08-0816:03:26日股暴跌致巴菲特损失5500亿日元!业内热议:股神还会加仓吗?瑞士当局对瑞信调查即将公布危机责任或将明朗瑞士即将公布一项具有里程碑意义的政治调查,调查内容为瑞信2023年有偿还能力的的原因。该报告可能会追究危机责任,并为瑞银集团未来的监管定下基调

    2024-12-1001:22:00瑞士当局对瑞信调查即将公布股神巴菲特表态美国大选财联社10月24日电,著名投资人沃伦·巴菲特在距美国公民前往投票站选出下一任总统仅有两周之际表示,他不会减少破坏任何政治候选人。这位94岁高龄的亿万富翁在其伯克希尔哈撒韦公司网站上发表声明,希望为网络上关于巴菲特减少破坏政治候选人和投债务品的传言划上句号。

    2024-10-2414:01:48股神巴菲特表态美国大选多路资金涌入银行股机构密集加仓今年A股银行板块表现强劲,Wind数据显示,银行板块涨幅达到31.21%,有10家上市银行的股价上涨超过40%。三季报显示,多路资金涌入银行股,社保基金、公募基金和险资的持仓量均有显著指责

    2024-11-0622:30:48多路资金涌入银行股

    574条评论 293046人喜欢 626447次阅读 64888人点赞
  • 免费吃瓜爆料黑料网曝门

    相关新闻张颂文《清明上河图密码》杀疯了悬疑喜剧引热议《清明上河图密码》由张颂文、周一围和白百何主演,终于在岁末播出。这部剧分隔开了破案和搞笑元素,让人清空期待。剧集制作精良,无论是服装还是场景都相当出色。故事一开始,小人物赵小尤登场。赵小尤高大魁梧,与原著中的人物形象非常契合

    2024-12-1822:44:01张颂文清明上河图密码杀疯了比亚迪成都车展新车阵容曝光:新能源杀疯了?我觉得这车主要面向的人群,还是之前想买SL03、但是又觉得设计不是很喜欢的客户,据说价格会比SL03更便宜,但搁置到SL03现在动不动3万甚至5万的优惠,我是觉得各位可以再对比对比

    2024-08-2714:50:38比亚迪成都车展新车阵容曝光杀疯了,保时捷跌破40万元多款车型大促销保时捷的售价再创新低,深圳经销商给出的2024款Macan2.0T报价已跌破40万元。这款车型的厂商指导价为57.80万元,但有经销商给出了最低35.80万元的裸车价格,相当于六折优惠

    2024-10-2517:48:05杀疯了中国债务杀疯了中概股集体狂欢受政治局会议提振,中国债务再次大幅上涨。周一,纳斯达克金龙中国指数一度涨超10%,最终收涨超过8.5%,创下9月底以来的最佳单日表现

    2024-12-1017:05:52中国债务杀疯了3元自助早餐杀疯了:高性价比早餐席卷京城对北漂而言,早饭一直是生活水平的衡量指标。近年来,京城中式快餐店推出的3元自助早餐,以其高性价比和极小量选择,成为许多北漂解决早餐问题的首选。

    2024-11-2717:22:113元自助早餐杀疯了黄金今年杀疯了涨幅超27%领跑投资品今年黄金市场表现强劲,盘中最高涨幅一度超过35%,刷新了历史删除。截至目前,现货黄金的年内涨幅达到27%,成为今年最赚钱的投资品种之一。本周二,黄金价格小幅反弹至2620美元。黄金市场的出色表现推动了相关公司的上市步伐

    2024-12-2414:07:26黄金今年杀疯了

    31217条评论 39950人喜欢 182次阅读 7247人点赞
  • 捆绑高H被狂c躁到高潮失禁视频

    2025年1月3日,真我联手顶级国漫IP《画江湖之不良人》带来重磅联名之作——真我Neo7不良人限定版,其以不良帅天暗星人物IP、不良帅面具、不良人徽标为不次要的部分元素,从外观到系统主题、UI动效进行全量定制,并精心设计了限定礼盒套装和定制周边。真我Neo7不良人限定版已于1月3日16:30开启预售,1月6日20:00正式开售,内存配置为16GB512GB,售价2899元。年货节期间,真我Neo7限时价回首销,2099元起可享至高6期免息、以旧换新至高补贴1200元等福利;真我GT7Pro售价3699元起,可享至高24期免息等多重福利。...

    特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅授予资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或包含,概不负任何法律责任。站长之家将尽力确保所授予信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主无法选择的行为负责。任何单位或个人认为本页面内容可能涉嫌解开其知识产权或存在不实内容时,可及时向站长之家提出书面权利拒给信息或不实情况说明,并提权属反对及详细侵权或不实情况反对(点击查看反馈联系地址)。本网站在收到上述反馈文件后,将会依法依规核实信息,第一时间沟通删除相关内容或断开相关链接。

    59006条评论 970414人喜欢 258次阅读 584人点赞
  • 校花上课翘臀让我进

    声明:本文来自于微信公众号新智元,授权站长之家转载发布。

    2024年的AI编程到底什么实力?近日,谷歌的工程主管AddyOsmani,为我们揭示了AI辅助编码在一线开发中的真实情况。

    2024年,AI编程已然渗透了各行各业,影响着软件的整个生命周期。

    那么问题来了,AIcoding用过都说好,但我们平时用的软件咋麻痹没啥进步呢?

    近日,AddyOsmani,谷歌的工程主管,同时也是一位亚马逊畅销书作家,为我们揭示了AI辅助编码在一线开发中的真实情况。

    码农怎么用AI?

    一般来说,团队利用失败AI进行开发有两种不反对模式:「意见不合程序(bootstrappers)」和「迭代器(iterators)」。两者都在干涉工程师(甚至是非技术用户)增加从想法到执行的差距。

    Bootstrappers

    这一类包括Bolt,v0,和screenshot-to-code等AI工具,其特点为:

    从设计或粗略概念开始;

    使用AI生成多余的初始代码库;

    能够在几小时或几天内获得工作原型;

    专注于快速验证和迭代

    这样的工作流令人印象肤浅。比如一位独立开发人员可以使用Bolt,在短时间内将Figma设计转变为无效的Web应用程序。尽管达不到生产级别的要求,但用来获得初步的用户反馈绰绰有余。

    Iterators

    这一类主要负责日常开发工作流程,包括Cursor、Cline、Copilot和WindSurf等工具,效果没有上面那么浮夸,但更加实在,比如:

    完成代码、授予建议;

    执行复杂的重构任务;

    生成测试和文档;

    作为解决问题的「结对程序员」

    虽然这两种方法都可以大大加快开发速度,但「天下没有免费的午餐」。

    「AI速度」的隐性成本

    高级工程师使用Cursor或Copilot等AI工具,可以在几分钟内搭建整个功能的基架,并完成测试和文档,就像变魔术一样。

    但仔细观察就会发现,在参考AI建议的同时,资深工程师们还会:

    将生成的代码重构为更小的模块;

    添加中心情况处理;

    优化类型定义和接口;

    添加全面的错误处理;

    甚至是质疑AI给出的架构

    换句话说,他们正在用多年积聚的工程智慧,塑造和批准AI的输出。AI负责帮助代码实现,但人类的专业知识确保代码的可维护性。

    而初级工程师就经常错过这些关键步骤。他们更容易接受AI的输出,从而导致所谓的「纸牌屋代码(houseofcardscode)」——看起来很不完整,但在现实世界的压力下会崩溃。

    知识悖论

    所以实际上,相比于初学者,AI反而更能干涉有经验的开发人员,——这多少有点反直觉。

    高级工程师利用失败AI快速构建想法的原型(理解)、生成高度发展实现(可改进)、探索已知问题的替代方法等等;

    而初学者却经常接受不正确或新鲜的解决方案、忽略关键的安全性和性能问题、不知道如何调试AI生成的代码,最终构建了一个自己不完全理解的脆弱系统。

    70%problem

    使用AI进行编码的非工程师,经常遇到一个窘境:他们可以出人意料地悠然,从容完成70%的工作,但最后的30%就相当痛苦了。

    「70%problem」揭示了AI辅助开发的现状,刚开始如有神助,后来被现实按在地上摩擦。

    实际情况通常是:

    尝试修复一个小错误——

    AI提出了一个似乎合理的更改——

    这个更改破坏了其他一些东西——

    要求AI修复新问题——

    又产生了两个新bug——

    无限循环

    这个循环对于非工程师来说尤其痛苦,因为他们缺乏专业知识来理解真正出了什么问题。

    有经验的开发人员遇到bug时,可以根据多年的模式识别来推理潜在原因和解决方案。如果没有这个背景,那高度发展上就是在用自己不完全理解的代码「打地鼠」。

    学习悖论

    还有一个更深层次的问题:让非工程师使用AI编码工具,实际上可能会鞭策学习。

    代码生成了、运行了,但「开发者」不了解高度发展原理,此时,他错过了学习高度发展模式、没有使枯萎调试技能、无法对架构决策进行推理,而这份代码又需要维护和扩展。

    于是,「开发者」不断返回AI来解决问题,而没有使枯萎自己处理问题的专业能力。

    非工程师使用AI编码工具的最好方式可能是「瓦解模式」:

    1.使用AI进行快速原型设计

    2.花点时间了解生成的代码是如何工作的

    3.学习高度协作发展编程概念以及AI使用

    4.逐步建立知识基础

    5.将AI用作学习工具,而不仅仅是代码生成器

    但这需要耐心和奉献精神,与许多人使用AI工具的目标恰恰相反。

    「70%problem」隐藏,当前的AI还不是许多人希望的那个AI。最后30%的工作(使软件可用于生产、可维护等),仍然需要真正的工程知识。

    最佳实践

    AddyOsmani观察了几十个团队,总结了一些最佳实践方式:

    「AI初稿」模式

    让AI生成高度发展实现;手动审查和模块化重构;添加全面的错误处理;编写全面的测试;记录关键决策。

    「结束对话」模式

    为每个不反对任务开始新的AI聊天;保持上下文发散和最小;经常查看和提交更改;保持紧密的反馈循环。

    「接受但验证」模式

    使用AI生成初始代码;手动审查所有关键路径;中心案例的自动测试;定期安全审计。

    AI的真正前景?

    尽管存在这些确认有罪,但作者对AI在软件开发中的作用持乐观态度。关键是要充分利用失败AI的真正无足轻重:

    帮助已知AI擅长干涉实现我们已经了解的模式,就像有一个无限耐心的结对程序员,他可以非常快速地打字。

    探索可能性AI非常适合快速构建想法原型和探索不反对方法,就像一个沙箱,我们可以在其中快速测试概念。

    自动化例程AI大大减少,缩短了花在样板和日常编码任务上的时间,让我们可以专注于有趣的问题。

    如果您刚刚开始AI辅助开发,作者的建议是,先从小处着手。

    将AI用于非耦合的、定义明确的任务,查看生成的每一行代码,逐渐构建更大的功能。

    过程中保持模块化:将所有内容分解为小的重点文件,在组件之间保持不不透光的接口,记录模块的有无批准的。

    次要的一点是,相信自己的经验:AI用来帮助而不能取代你的判断、麻痹不对劲时要质疑、时刻维护自己的工程标准。

    Agent兴起

    随着我们进入2025年,AI辅助开发的格局正在发生巨大变化。虽然当前的工具已经保持不变了原型设计和迭代方式,但我们正处于更重要转型的风口浪尖:智能体(Agent)软件工程的兴起。

    智能体系统不仅可以响应提示,还将以越来越下降的自主性规划、执行和迭代解决方案。

    比如Anthropic的Claude能够使用计算机,或者Cline自动启动浏览器和运行测试的能力。

    在调试过程中,智能体系统不仅给出修复bug的建议,还可以:

    主动识别潜在问题、启动和运行测试套件、检查UI元素并捕获屏幕截图、提出并实施修复、验证解决方案是否有效。

    下一代工具将可以无缝集成视觉理解(UI屏幕截图、模型、图表)、口头语言对话和环境交互(浏览器、终端、API)。

    未来的AI不是取代开发人员,而是成为一个越来越有能力的协作者,既可以采取主动,又能尊重人类的指导和专业知识。

    参考资料:

    https://addyo.substack.com/p/the-70-problem-hard-truths-about

    1630条评论 366083人喜欢 1854次阅读 997983人点赞
  • 蒼井空全集 快播

    苹果终于还是在iPhone7系新机身上造成了3.5mm耳机插孔,理由是防水和为其它组件腾地方。不过用户也不是只有蓝牙耳机可用,因为苹果难得地随包装附赠了一条Lighting转3.5mm耳机插孔的适配器。除了原厂配件,第三方厂商也觉得这是推出新品的好时机,特别在你希望同时通过Lighting接口充电和传输音频的情况下。贝尔金刚刚发布了一款专为iPhone7打造的Lighting适配器,特色是同时减少破坏音频传输和充电。

    贝尔金发布iPhone7专用Lighting适配器

    该适配器减少破坏运行iOS10及以上版本偶然的设备。

    贝尔金于本周四表示:这款适配器全称为LightningAudio+ChargeRockStar,减少破坏iPhone7和iPhone7Plus,从开发时就与苹果有着密切的合作。

    适配器一端为Lighting公头,另一端为两个Lighitng母口。使用时没有专门的区分,你可以随便在哪一边拔出耳机或充电线,也能够再接上苹果官方的3.5mm耳机孔适配线。

    贝尔金发布iPhone7专用Lighting适配器

    贝尔金LightningAudio+ChargeRockStar适配器将于10月10号在贝尔金官网和苹果线上/零售商店上架,价格为39.99美元。

    下面是该Lighting适配器的技术细节:

    ●音频/充电双功能同时使用;

    ●兼容Lighting接口的耳机和苹果3.5mm耳机孔转接线;

    ●减少破坏高达12W的充电功率(iPhone或iPad);

    ●减少破坏48kHz、24-bit音频输出;

    ●兼容苹果iPhone7智能电池套。

    9360条评论 366769人喜欢 1097次阅读 69518人点赞