ZOMI酱:从艺术生到大模型训练专家
ayxcom官方网站
ayxcom官方网站
ZOMI酱:从艺术生到大模型训练专家

时间: 2024-04-11 21:10:52 |   作者: 卷材

  ZOMI酱站在贝加尔湖的冰洞边缘,深吸一口冷冽的空气,让勇气充满胸腔,然后,潜入了这片古老水域。

  冰冷的湖水包裹着心跳与呼吸声,水下的寂静与寒冷让人仿佛置身异世,阳光透过冰层,将湖水染成了一片梦幻的蓝色——那是贝加尔湖独有的色彩。

  “感觉像灵魂出窍。”ZOMI酱对「甲子光年」说,“就像我的人生,每次做选择都像是冰潜,而每次冰潜都是一次蜕变。”

  在代码与艺术的交汇点,这里住着ZOMI酱。ZOMI酱从4岁开始有效学习美术,是一位艺术生,高考时阴差阳错地调剂进入了计算机专业。现在的他是昇腾大模型训练专家,同时也是一位哔哩哔哩(B站)AI 科普视频UP主,他起了一个颇为“二次元”的名字——ZOMI酱。“叫这一个名字是因为和真名谐音,虽然听起来有些二次元,哈哈。”他解释道。

  Sora发布后仅三天,他就根据Sora背后的32篇论文,制作了《全网最详细:SORA视频生成大模型原理剖析》视频,引发了行业热议。这一个视频的发布时间是2月20日凌晨3点42分。有网友在视频下面进行留言:“你不睡觉吗?”

  “晚上加班后回家,然后开始备课、做视频。”ZOMI酱回答的每一个字都写着“卷”。

  ZOMI酱似乎总是在跨界的矛盾中寻找着平衡,又在平衡中获得蜕变,用他自己的话讲,就是“既来之、则安之嘛”。

  从AI芯片、AI编译器、AI框架到大模型等等,他的视频包罗AI万象,因为他对AI系统的知识解读专业、风趣,PPT设计与视频动效又颇有美感,有粉丝称他是“AI小教父”。对这种的夸赞,ZOMI酱说:“完全不敢接话。调侃也好,玩笑也罢,大家能从ZOMI酱的视频中有所收获就好。”

  研一时,他便一头扎进了AI领域。在一家智能手机生产厂商工作期间,ZOMI酱曾尝试推动终端AI情景感知项目,但并没有正真获得公司的支持。甚至因为他对项目的坚持,他在年终评价中被评为最差的“D级”。

  对于那段经历,ZOMI酱的形容是“怀疑人生”。有些讽刺的是,几年前他坚持却未被接受的想法,如今成为了这家智能手机生产厂商的重要战略方向。

  消沉几个月后,ZOMI酱重新找到了方向。2019年6月,他加入了华为,主要负责开发AI推理引擎。当时有关技术还是“新潮玩意”,国内除了飞桨PaddlePaddle 外,基本上没有别的AI框架。做完推理引擎后,他就投入到了AI框架MindSpore的研发中。

  “以前主要研究算法,到华为后就转向做AI Infra(人工智能基础设施)的相关工作了。这五六年里,基本上对AI Infra整个领域摸了个遍。”ZOMI 酱感叹,“一路走来也是起起伏伏的。现在也想明白了,我只管向前走,但行好事,莫问前程。”

  这份心境,就像他在贝加尔湖乘船破冰时——随着浓雾消散,水道逐渐开阔,湖岸也愈发遥远,烦恼便如同手机信号般,一格格消失了。

  ZOMI酱:哈哈,工作不饱和是不可能的。我有时工作很晚,以前会刷刷短视频,后来觉得“很罪恶”,就想做点什么,说白了,是想不停地“卷”自己。

  我自己的工作与AI Infra相关,就拟了大纲,开始一期一期做。硬核科技内容的冷启动是相当困难的,毕竟受众面不大。做视频也是自我提升的一个过程,没想到意外收获了大家的喜欢。

  我一直分享AI Infra相关的知识,从AI框架、AI编译器到大模型等系列。这些都是出于我对技术的热情,偶尔涉及热点也不是特意追求的。

  ZOMI酱:我不感觉自己是一名专业UP主,只是偶尔分享一些技术内容。我也不觉得自身有所谓的粉丝圈,大多数关注我的人仅仅是为了获取知识,并非因为我这个人。对于成为UP主这件事,就像喝水一样,没太多特别的感觉。

  至于如何平衡两个角色,我尽可能保持工作和个人爱好的分离,确保大部分时间都花在工作上,工作时候就专心工作。虽然有时很累,但我会坚持做技术分享,我希望能将AI System知识带给需要的人,也欢迎各位参与到这个开源项目中。

  ZOMI酱:有,我结识了很多对AI感兴趣的朋友。最初我分享的内容较为“硬核”,发现大多关注我的是因需要学习相关知识的大学生。比如,当我分享关于AI编译器的内容时,恰好吸引了很多学生正在上《编译原理》课程,我的视频就成了他们的“课外辅导资料”。

  Sora出现后,我制作了关于它的详细原理剖析视频,这让很多科技圈外的朋友知道了ZOMI酱,也激励了我坚持做分享。

  ZOMI酱:只有我一个人。制作时间取决于我对主题的熟悉程度。如果不熟悉,在大多数情况下要一两周的时间来翻阅相关文献和资料,然后将这一些信息整理成脚本,录制和剪辑视频常常要几个小时;如果很熟悉,我准备PPT和制作视频只需要一个周末的时间。

  当时李一舟很火,有人也邀请我一起卖课,但我更想实现长久的事业目标,而不单单是短期财务收益,所以我不会卖课的。

  ZOMI酱:那时候还在过年,我一早上醒来,发现朋友圈都在讨论Sora。说它不仅能生成一分钟的长视频,且效果逼真惊人。特别是那个室内冲浪的视频,展示了一个完全没有办法想象的场景,蛮震撼我的。

  甲子光年:当时我们咨询了一些行业专家,他们最初都没有太讲明白Sora背后的技术原理。你是如何快速做出Sora视频原理剖析视频的?

  ZOMI酱:我觉得我做得不算快的。只是当时发现,怎么网上都没有人去做相关的技术解读?OpenAI官网没公布太多技术细节,我主要对着官方公布的信息和文献,对32篇论文进行了详细分析,再把Sora使用的技术路线梳理出来。

  ZOMI酱:我的理解相对直接。Sora是基于视觉大模型的视频生成模型。如果我们简化模型,忽略时间维度,其实就回到了图像大模型,像ViT(Vision Transformer)那样。

  目前效果卓越的图像模型参数量大多不超过10B,通常在3B到5B范围内。加上时间维度后,模型的参数量确实会上升,但根据Scaling Law(规模法则),这种增长不会呈现指数级。

  鉴于处理极大模型的实际可行性以及GPT模型的进化趋势,我预测Sora的参数量会逐步增长,即先从2B/3B,然后5B/10B,而不是突然大幅度跳跃。

  甲子光年:对比Sora和ChatGPT这两大现象级产品,哪个的出现给你带来得震撼更大?

  ZOMI酱:还是ChatGPT给我带来的冲击更大些。不仅因为它在技术上的突破,它还让整个行业开始正眼看待大模型。ChatGPT的发布,让我们力推的布式并行计算不再是空中楼阁,行业风向和产品设计都跟着改变了。

  虽然Sora确实证明了GPT坚持的Scaling Law技术路线是可靠的,对于AI处理语言、图片到视频都大有帮助。但说起来,它还没达到像ChatGPT那样让人都为之兴奋的程度。

  ZOMI酱:我和谷歌的工程师朋友讨论过这样的一个问题,对于C端,我们大家都认为Sora距离开放其实不远,可能在3到5个月内就能看到。目前生成速度慢,消耗的计算资源多,从商业角度讲这都是不可持续的。解决这样一些问题后,Sora再向普通用户开放应该很快。但如果要达到广泛的商业应用,解决更根本的技术挑战,可能还需要更长时间。而对于B端,尤其是像影视这样的专业领域,在大多数情况下要更长时间。

  ZOMI酱:Sora的推出确实影响了我们的研究方向。我们开始更深入地探讨多模态大模型与传统大语言模型的区别和联系。不仅是技术层面的转变,对研究方法和产品目标也重新思考了,让我们更关注于怎么样提高AI集群算力和效率,服务于更广泛的应用场景。

  ZOMI酱:OpenAI在Sora项目中的主要原创性贡献主要有两点。一是它们对Scaling Law的坚持;二是视频压缩技术。特别是视频压缩技术,它解决了将长视频转换为易于处理的Spacetime Patch,对未来视频处理和内容创作的AI技术有着正向影响。

  ZOMI酱:Sora的出现迫使他们更快地创新,同时也考验着他们的适应能力和技术实力。这种进展促使初创企业一定加速自己的技术进程,寻找与大公司如OpenAI竞争的策略。

  ZOMI酱:这个很难说,但中国做出自己的Sora版本只是时间问题。影响成功的重要的条件包括拥有顶尖人才、足够的数据和强大的算力。

  我们不乏人才,但在数据积累方面仍有不足。数据孤岛问题和高质量中文数据集的缺乏是主要挑战。此外算力的有效利用和算力基础设施的建设也是至关重要的。谁能在这三方面领先,谁就最大有可能成功。

  但数据问题是国内视频生成领域面对的一座“大山”。数据的质量和可用性直接影响算法的训练效果和进展速度。很多团队在数据来源上讳莫如深,缺乏开源的高质量数据集对于发展AI技术。

  ZOMI酱:目前这条路线还有很多不清晰的地方。业界有尝试复制或重新创造类似Sora的模型,但还有很多细节未被解决。

  比如如何有效地将原始视频通过VAE编码器压缩,或者如何明智的选择最合适的路径处理视频Patch,目前还没有统一的方案。DiT模型结构虽然重要,但如何在diffusion过程中加速采样,还有许多问题是需要探索。

  甲子光年:Sora和Gemini能否被看作是物理世界的模拟器?它们的可行性有多大?

  ZOMI酱:要论证这些项目能否作为物理世界的模拟器,第一步是要明确物理模拟器的定义。目前我们所谈论的物理引擎更多的是基于直观物理学的模拟,而非严格的科学计算。至于AI模型,如Gemini、V-JEPA或Sora,它们更多地是从数据中学习规律进行生成,而不是从底层物理原理出发。所以这些模型目前更接近于基于数据规律的生成器,而不是真正的物理世界模拟器。

  ZOMI酱:基于我在强化学习领域的研究,我认为物理世界模拟器的定义应该与谷歌Gemini方向相似,遵循强化学习的框架。在这种框架中,必须有一个环境和一个或多个Agents,其中Agents与环境不断交互,环境根据 Agents行为给出反馈Rewards,模型再基于这些反馈做出下一步行动 Actions。

  真正的物理世界模拟器应该能够模拟这种复杂的交互过程,反映出我们在真实世界中每一项活动的因果关系及其可能会产生的不同结果。它更像是一个复杂的交互系统,而不仅仅是生成物理世界现象的工具。

  就像增程式汽车在汽车完全电动化的道路上是过渡方案一样,Sora可能不是实现完全精确物理世界模拟的最终答案,但它代表了迈进这一目标的一个重要步骤。虽然这个比喻不完全准确,但也能说明Sora所处的位置:一个阶段性的创新,能让我们逐渐感受到领域的变化,即使这种变化不是一步到位的。

  ZOMI酱:我觉得是从GPT-2走向GPT-3的转折点吧。虽然它没像GPT-4或ChatGPT那样,但Sora确实向我们证明了,从 GPT-1到GPT-3 的Scaling Law是行得通的。不光对文本,对图片、视频等多模态内容也有效,但我觉得Sora还没到彻底颠覆行业的地步。

  ZOMI酱:追赶ChatGPT的难度更大。尽管有人声称能在极短的时间内追上ChatGPT或Sora,事实上从ChatGPT发布以来,我们正真看到国内外企业都有尝试,但GPT-4的效果并非一日就能追赶上的。相比之下,人们对视频内容的容错率相比来说较高,追赶起来可能相对容易一些。NLP领域有明确的评价标准,而视频内容的评价更主观。

  ZOMI酱:我们常认为,Scaling Law的意思是模型越大,效果就越好,其实不然。以ChatGPT的发展为例,从GPT-2到GPT-3,模型从几十亿到千亿参数的增长确实带来了效能的飞跃,但也遇到了所谓的“Grokkinng现象”。

  核心问题就在于,当模型的大小增长到某些特定的程度,如果只有少数的数据去匹配模型参数增长,模型内部的参数或许就没法得到一定效果学习。就像谷歌的PaLM模型和GPT-3的对比,PaLM有5400亿参数,GPT-3有1750亿参数,但并不是参数越多效果就绝对越好。所以Scaling Law不仅仅是增大模型规模,更多的是要数据、算力和模型三者之间的匹配。

  ZOMI酱:对,AI基础设施重点是提升整个计算集群的利用率和稳定能力。即便你有澎湃算力,如果利用率不高,算力也都白费了。而且大模型训练过程中会遇到的一个挑战是训练的中断,只要有其中一张卡坏了、有一个节点出了问题或者网络拥塞,有几率会使整个业务的中断。所以算力的稳定性不单单是拥有强大的计算资源,还包括了整个AI平台的稳定性和高效利用率。

  网络拓扑、软件驱动及对硬件模块的监控和预警也是确保稳定性的关键环节。每一层都需要确保自己的稳定性和可维护性,从硬件到软件,再到算法层面。

  ZOMI酱:挑战其实蛮大的,涉及到从机房建设、网络布局,到硬件和软件的每个层面。比如网络拥塞、器件温度控制都可能会导致训练过程的中断。实际上每个部分都需要有精确的控制和监测,从而预防和快速响应可能的问题。

  ZOMI酱:英伟达和华为在这方面的具体做法没太多公开资料,但能确定每个厂商都有自己的策略和考虑。基本上大家的目标都是提高集群算力利用率和确保训练过程的稳定性,只是具体到技术细节和运维策略会有所不同。每家厂商都会通过你自己的技术栈和产品特性来调整和优化。

  ZOMI酱:有具体测算公式。它最初由英伟达在Megatron-LM的文章中提出,后经过实践调整。我之前也在B站分享了一个关于大模型训练和推理的算力与内存消耗的视频。这些测算能够在一定程度上帮助我们决定训练多大的模型,需要多大的算力和集群规模。但是,即便算出了所需算力,也不能简单等同于能训练出与OpenAI相似的高质量模型。

  ZOMI酱:视频生成模型对算力的需求确实在增加,但不至于需要到万卡级别的AI集群。文生视频在大多数情况下要专用的解码器或更多的CPU参与处理,尤其是涉及到视频和图像编解码。同时视频生成还可能依赖大语言模型来增强生成内容的丰富性和准确性,这又可能进一步增加对算力的需求。

  总之,算力需求的增加不仅仅体现在GPU/NPU上,CPU和专用处理器的作用也变得更重要。

  ZOMI酱:主要还是要从算力层面着手。国产算力,尤其是华为,为解决算力紧张问题提供了重要支持。可以从模型层面探索更高效的算法以减少算力需求,但提升和优化本身才是解决这一矛盾的关键。

  ZOMI酱:从个人角度,我认为这反而是利好消息,因为这样的一种情况可以促使国内加速发展自主算力和芯片技术。当然也有担忧,但这种竞争和限制实际上为国内技术积累和AI芯片厂商提供了发展的机会和窗口,让我们有更多机会研究和深入技术,而不是完全依赖进口算力解决方案。

  ZOMI酱:什么都不说。面对质疑,最好的回应是用技术和产品说话。通过实际应用和性能展示,让市场和用户判断国产芯片的实力。

  ZOMI酱:我的工作主要聚焦于大模型分析、集群线性度和利用率的提升。涉及分布式算法优化,确保集群的高效运作,以支持大规模模型的训练和运算需求。通过提升集群的算力利用率和软硬件协同能力,我们正在努力发挥国产算力平台的最大潜能。

  ZOMI酱:感觉2024年会有两个显著趋势:一是多模态的成熟与拓展,二是关于AGI和世界模型的持续讨论和争议。多模态的进展将不限于视听媒体,还将涵盖更多新型的模态组合;而AGI和世界模型的概念将引发新的研究和论文,这些探讨将逐步推动技术前沿的发展。

  另外,还有观点认为,即利用人工智能训练人工智能的阶段。这种自我迭代的能力如果实现,代表我们在AI领域向更加自动化和自主化的方向飞跃,所以这也是值得重视的一个重要趋势。

  甲子光年:关于大模型,朱啸虎近期的一篇访谈引发了广泛关注。他不看好中国大模型公司,理由是这一些企业缺乏应用场景和数据。作为一线的大模型训练专家,你怎么看这种观点呢?

  ZOMI酱:我认为在大模型这个议题上存在两个主要观点:技术派和市场派。朱啸虎的看法可能更偏向市场派,而我是技术派,也就是更倾向于萨姆·奥尔特曼(Sam Altman)的派别。

  开发和研究大模型是必要的,因为核心技术的掌握至关重要。虽然目前国内企业还未能完全匹配国外顶尖大模型的性能,但如果我们不投入研发,就永远赶不上。这跟20年前的联想和华为的情况有些相似,坚持技术研发的公司最终能够积累宝贵的技术资产和市场竞争力。

  甲子光年:可能短期,市场派会觉得说这东西没有效益,觉得做这些无用。但是技术派都是长期主义。

  ZOMI酱:是一次阴差阳错,考虑艺术不好找工作,因此考大学时选择调剂到计算机专业。那时候计算机专业不温不火,最火的专业是土木工程。后来我觉得计算机也很有意思,一路读到博士,还做了一些自动化方面的研究。

  ZOMI酱:倒也不是,更多还是对技术或者对人生有追求吧。说实话,我对自己未来的目标还没有很清晰,躺着玩手机是永远想不清楚这样的一个问题的。

  我很喜欢《阿甘正传》,看了不下十遍。电影中,当珍妮离开阿甘的时候,阿甘不知道怎么办,他就一直跑。后来跟随他的人慢慢地多了,直到他寻找自我想做的事情了,他就停止了奔跑,去做自己想做的事了。

  我也是这样的,我感觉自己是技术阿甘。我一直在奔跑的路上,会学习到不同的技术,看到不同的风景,认识不一样的人。这不,也认识了「甲子光年」。

  ZOMI酱:我喜欢去看山看海,喜欢徒步、冲浪、浮潜图片来自:电影《阿甘正传》。今年元旦,我还去了一趟贝加尔湖,体验了冰潜。跳入水中,不断下潜,感觉自己似乎没办法呼吸的那一瞬间,自己就像重生了。

  ZOMI酱:这有点像面试了,哈哈。我觉得三个词多了,说两个吧:第一个是少年,第二个是谦卑。少年是永远对技术和相关事物保持一个非常乐观和好奇的心态,谦卑是永远地对自己所在的领域、知识保持着一个虚心学习的态度,这就是我。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。