第二期公开课的两位讲师从宏观趋势与技术实践两个维度,为您带来全新视角揭示人机协作的未来图景;从算力效率与成本优化的角度,剖析DeepSeek模型的核心竞争力。
公开课01
Deepseek:智能时代的全面到来和人机协作的新常态
报告嘉宾:孙凌云教授
浙江大学计算机科学与技术学院副院长、国际设计研究院院长、人工智能教育教学研究中心常务副主任。利用人工智能赋能设计行业,提出人工智能时代下的设计范式,应用于数字创意、智能硬件设计等领域。曾获好设计、红点至尊设计大奖、IF奖、中国智造大奖10余项;2021 WAIC世界人工智能大会最高奖卓越人工智能引领者奖、2022 CCF科技进步二等奖等。
孙教授提到,人工智能大模型作为驱动变革的核心力量,正深刻重塑着技术的演进与社会发展新格局。以DeepSeek为代表的AI大模型,已成为智能时代蓬勃发展的关键支撑,构筑起智能时代的重要基础设施。AI大模型的技术版图不断拓展,催生出一系列极具效能的生产力工具,更引发人机协作模式的根本性变革。本报告介绍AI大模型的基础概念,梳理智能时代的显著特征,介绍智能时代人机协作的典型模式,并对未来发展趋势展开前瞻性探讨。
数据
GPT是人工智能的代表产品之一。GPT成功的背后离不开大数据的支持。GPT训练数据规模史无前例从 2018 年的 GPT-1到 2020 年的 GPT-3模型预训练数据量从 4.6GB 增加到了 45TB45TB 相当于三千万本《西游记》。这些数据可不是随便抓取的网络信息,而是精调细选的知识食材。主要模型数据集包括:维基百科数据集(庞大的客观知识)、书籍(故事讲述能力与反应)、杂志期刊(语言生成的严谨)、Github代码等其他数据(逻辑推理)。
DeepSeek训练数据量相当于GPT3的49倍。但真正有意思的不仅仅是“量”上的变化,而是DeepSeek如何喂养这些数据。
首先是营养搭配团队提高了代码和数学数据类型的比例。达到总训练数据的一半以上,比如搜集了200多万道奥数竞赛题,到研究生级别的偏微分方程。
第二招是错题训练,在百分之5的题目里偷偷设置陷阱,让模型学会自我纠错。这让DeepSeek遇到陌生提醒时的正确率大大提高。
第三招是循序渐进,首先让AI掌握入门级别的知识,比如说先学习基础求导,然后再进阶到多重积分,最后再到偏微分方程。每个环节都会淘汰掉对某个领域支持了解不到位的参数。确保学习质量。
人工智能大模型到底带来了什么变化?
个体知识只占却人类知识空间的一小点。大模型打破了知识认知的边界。大模型带来了大知识。知识的调用方式发生了剧变。这是人类首次拥有了超越个体认知极限的知识调用工具。然而就像望远镜拓宽了人类的视野而并非取代天文学家那样,人工智能带给了我们探索知识边界的新罗盘。
人工智能如何训练?-三体人如何学习地球知识?
思维链
在DeepSeek的训练过程当中,有个非常有意思的设计,是要求AI像我们做题目一样要写出完整的思考过程。在训练过程中,研究者给出了他们下面这段提示词“这是用户和助手之间的对话。用户提出一个问题,助手解决它助手首先在脑海中思考推理过程,然后为用户提供答案。推理过程和答案分别包含在<思考></ 思考>和<回答 ></ 回答 >标签中。即:<思考>推理过程在这里</思考><回答>在这里回答</ 回答>”。模型给出的第一个单词一定要是think。
在这个研究过程当中研究人员有了非常惊奇的发现。AI竟然出现了类似人类的顿悟时刻。大模型在计算的前几步还在规规矩矩的做推理,到了某一步突然激活了此前学习的某些知识,就好像我们做题目时的顿悟一样。这被称为Aha moment,研究人员发现了强化学习过程中的魅力。
思维链(Chain of Thought,CoT)
通过模拟人类逐步推理过程来提升人工智能模型复杂任务处理能力的技术核心是将问题拆解为多个中间步骤,引导模型生成逻辑链条,从而增强推理的准确性和可解释性
基本原理
分布推理:思维链通过将复杂问题分解为更小的子问题,逐步构建答案
显示中间过程:与传统直接输出答案的方式不同,CoT要求模型引入推导过程
而DeepSeek是首个将思维链显式展示的开源模型。DeepSeek R1这种开源策略不仅打破了技术垄断,更重新定义了人工智能的信任体系。当推理过程如同手术过程一般透明、可回溯才能实现可控的智能进化。
从思维链的角度当前人工智能大模型的透明度革命基本上分为两派“白盒派”和“黑盒派”。
还有一个角色值得我们关注-马斯克发布的Grok3大模型。大模型在2月18日通过X平台直播正式发布,展示火星轨道计算、游戏开发等实际应用场景。Grok3计算能力为Grok 2的10倍,同时展示了深度搜索的能力。Grok3大模型2月20日:开放免费试用(至服务器超负荷为止)。
Grok3背后最值得我们关注的一点是xAl的定制超级计算机,世界最大的AI训练集群之一。第一阶段:仅 122 天内完成,部署了 100,000个H100 GPU。在第二阶段:在另外 92 天内将计算能力翻倍。并且在给发布会上说到能允许持续训练,这意味着 Grok3 在更多用户与其互动时实时改进。
Grok3在某些具体指标上,尤其是数学推理和代码生成上比DeepSeek更强悍一些。但是Grok3采用的是暴力计算路线,依赖超算集群和硬件堆砌来实现某些方面的提升。(H800性能约为H100的百分之60。)虽然现在我们要关注AI的算力问题,我们也要关注技术的效率革命。DeepSeek仅使用2000颗H800GPU算力平台就实现了在很多领域与Grok 3的持平和赶超。AI的发展可能不仅仅与有多少显卡和多少算力有关,更要关注能让每焦耳能量创造更多的价值。
AI从文科生到理科生发展,实现文理分科。而大模型如今的这种“文理分科”并非终点,而是人机协作的新起点。推理模型赋予AI严谨逻辑,非推理模型激发创意火花,实现人机协作的双螺旋发展。
通用人工智能
2023年4月28日,中共中央政治局召开会议分析研究当前经济形势和经济工作:要巩固和扩大新能源汽车发展优势,加快推进充电桩、储能等设施建设和配套电网改造要重视通用人工智能发展,营造创新生态,重视防范风险。
当前有两个通用人工智能评估框架值得我们关注。
关于通用人工智能还有一个有趣的预测。在2019年之前科学家们预测通用人工智能可能需要80年的时间去实现。做出预测的人都认为自己在有生之年无法看到真正的人工智能得以落地使用。但是当OpenAI发布GPT3后,科学们就将时间修订为50年。最后随着新的大模型出现,这一预测时间被逐步缩短,而最新的预测是8 年,在2030年前后我们就能看到通用人工智能的真正出现。如果我们依然被“打脸”,那我们甚至在2026年就能见证通用人工智能的落地。能力涌现不可逆,社会影响倒计时,人机协作新常态。
来源:https://www.ark-invest.com/big-ideas-2024
人机协作
人机协作加速社会发展。
诺贝尔经济学奖得主克里斯托弗·皮萨里德斯提出了一个非常有趣的观点,较长的转型过渡期。AI融入生产过程不会那么迅速。大部分人要做的是技能提升,即学会使用AI,而不是关系我们的工作会不会被AI取代。他还提出尽管有一些工作真的会被毁灭(job Destruction),工作创造是更多的(Job Creation)。他在采访中还提出一个有趣的观点,AI的出现开源带来更多体面工作的机会,提升幸福感、有可能转向每周4天工作制,就如中国90年代作六休一是工作常态,再到大小周,再到现在普遍认同的双休。
此外,AI还可能带来平均劳动时间的缩短。从第二次工业革命到二战结束的80年间,全球每个工人的劳动时间每年减少0.5%。生成式人工智能可以将每个工人的平均劳动时间降低1.3%从2022年每天5小时到2030年的4.5小时。
ARK Invest https://www.ark-invest.com/big-ideas-2024
人机协作的三种模式
从18世纪发展至今,每一次技术革命都伴随着新的基础设施建立和完善。比方在电力时代开始出现发电站、变电站、电力驱动的各种家电等。而今天,优秀的科学家将人工智能大模型提炼出来,并且在不断优化提升效率。智力可以通过互联网提供给我们。以人工智能为代表的基础设施正在建立完善起来。人工智能时代正在加紧朝我们每个人走来。
产业现状
公开课02
DeepSeek模型优势:算力、成本角度解读
报告嘉宾:王则可研究员
浙江大学“百人计划”研究员,隶属于浙江大学计算机与科学技术学院人工智能研究所、人工智能协同创新中心。创建浙江大学 RC4ML实验室,主要研究方向是使用异构硬件搭建低成本、高性能人工智能大模型系统LoHan,曾获得2022年度高等学校科学研究优秀成果奖(科学技术)科技进步一等奖、华为火花奖、2023年度国际超算比赛IndySCC第一名。
随着DeepSeek等先进人工智能大模型的不断涌现,其在逻辑推理、数学计算、复杂问答任务等类人能力方面展现出了强大的潜力。然而,随之而来的算力成本问题,已成为制约人工智能大模型技术进步与商业化落地的核心瓶颈。本报告将深入解析算力的基本概念,梳理大模型对算力需求的特征,探讨DeepSeek在面对算力被卡脖子的国情下,如何与人工智能系统进行优化配合,并对未来发展趋势进行前瞻性展望。
DeepSeek优势
DeepSeek的优势:系统感知的算法创新(量化基因)
算法:霸榜,有创新(MLA、特定MoE)
系统:低成本、高性能
图片来源:https://blog.csdn.net/giszz/article/details/145535759
什么是算力
算力:对信息数据进行计算,实现目标结果的能力
传统算力:信息计算力
现代算力:信息计算力、数据存储力、网络运载力
信息计算力犹如鲜花,数据存储力、网络运载力犹如绿叶,鲜花需要绿叶的支撑。
原生算力:大脑(可处理复杂逻辑,但不能高速处理简单运算)
外部算力工具:草绳、石子,算盘
计算机:算力提供者(可高速简单运算,不能处理复杂逻辑)
算力发展
大型机时代: 数字化未开始,算力需求潜力未发掘
PC时代: 一个应用只需一台电脑,算力够
云计算时代: 应用需要超过一台机器的算力,算力基本够
人工智能时代: 算力开始不足,需大量高性能AI加速器
人工智能大模型需要多少算力呢?
大模型扩展规律(资本非常喜欢确定性故事)
算力:算力越大(x轴),模型效果越好(TestLoss小)
数据集:数据集越大(x轴),模型效果越好
模型参数:参数越多(x轴),模型效果越好
商业模式
国外:
2025年特朗普的“星际之门”为OpenAI筹5000亿美元AI基础设施。
国内:
算力卡脖子
美国政府对我国的禁令
现成成熟算力: 2023年禁止出口高端AI芯片A100、H00、H800、A800 等数据中心GPU
运力: 2022年限制AI加速器的互联带宽
算力: 2024年禁止台积电代工7nm工艺的国内芯片
存力: 2024年禁止HBM芯片
光刻机: 2024年限制荷兰ASMI出口7nm光刻机到中国
DeepSeek等国内大模型的“上甘岭”时刻
DeepSeek发展历程:穷则战术穿插
初期阶段(V1):
发布时间:2024年1月
特点:采用稠密模型,训练Token为2T,模型规模为7B和67B。
策略:在资源有限的情况下,专注于基础模型的开发和优化,确保在较小规模上实现高效性能。
中期阶段(V2):
发布时间:2024年6月
特点:引入MoE(混合专家)架构,训练Token增至8.1T,模型规模为236B,激活21B。
策略:通过MoE架构提高模型的灵活性和效率,减少资源消耗,同时提升模型的表现。
成熟阶段(V3):
发布时间:2024年12月
特点:进一步优化MoE架构,训练Token达到14.8T,模型规模为671B,激活37B。
策略:在资源和技术积累的基础上,大幅提升模型规模和性能,同时保持高效的资源利用。
技术创新:
注意力技术:从GQA到MLA,不断优化注意力机制,提升模型的推理能力和效率。
上下文长度:从4K扩展到128K,增强模型处理长文本的能力。
成本控制:
通过优化算法和架构,显著降低训练成本,从V1的300.6K GPU Hours到V3的2.788M GPU Hours,体现了高效的资源利用。
核心技术DeepSeekMoE:显著减少计算量
DeepSeek在其模型架构中采用了MoE(Mixture of Experts,混合专家)技术,这是一种通过组合多个子模型(专家)来处理不同任务或数据分布的架构。MoE技术在DeepSeek的发展中起到了关键作用,尤其是在资源优化和模型性能提升方面。以下是DeepSeek MoE技术的核心特点和应用:
1. MoE架构的核心特点
动态参数激活:MoE模型通过路由机制动态选择激活的专家,而不是同时使用所有参数。例如,DeepSeek V3激活了37B参数,而总参数为671B,激活率仅为5.5%。
高效资源利用:通过仅激活部分参数,MoE显著减少了计算和内存开销,降低了训练和推理成本。
模块化设计:每个专家专注于特定任务或数据分布,提升了模型的灵活性和泛化能力。
2. DeepSeek MoE的演进
DeepSeek V2:
架构:MoE 2+160(2个路由层,160个专家)。
特点:首次引入MoE架构,显著提升了模型效率,同时保持了高性能。
DeepSeek V3:
架构:MoE 1+256(1个路由层,256个专家)。
特点:进一步优化了路由机制和专家组合,实现了更高的性能和更低的资源消耗。
3. MoE的技术优势
训练成本降低:MoE架构通过减少激活参数数量,大幅降低了训练成本。例如,DeepSeek V3的训练成本仅为557.6万美元,远低于同类模型。
推理效率提升:MoE模型在推理时仅激活部分参数,减少了计算量,提升了响应速度。
任务适应性增强:MoE的模块化设计使其能够更好地适应多任务和多模态场景。
图片来源:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
核心技术MLA:Multi-Head Latent Attention
MLA:少许计算量换HBM空间(穷则战术穿插,已开源)
针对美国的HBM芯片禁令(AI算力严重依赖高性能内存)
核心思想:低秩压缩KV,显著降低推理时KVcache 的存储空间需求
结果:KV Cache 使用降低93.3%
推理性能:显著提升
推理成本:显著降低
MLA(Multi-Head Latent Attention,多头潜在注意力) 是DeepSeek模型中的一项核心技术,旨在优化注意力机制,提升模型的推理能力和效率。MLA通过引入潜在表示和多头注意力机制,显著改进了传统Transformer架构的性能,尤其是在处理长序列和复杂任务时表现突出。以下是MLA技术的核心特点和工作原理:
1. MLA的核心特点
潜在表示(Latent Representation):
MLA通过引入潜在空间(Latent Space),将输入序列映射到一个低维的潜在表示中,从而减少计算复杂度。
潜在表示能够捕捉输入数据的高层次特征,提升模型对复杂模式的识别能力。
多头注意力(Multi-Head Attention):
MLA保留了多头注意力机制,允许模型同时关注输入序列的不同部分,增强了模型的表达能力。
每个注意力头独立学习不同的特征表示,最后将这些表示融合,提升模型的泛化能力。
计算效率优化:
通过潜在表示和多头注意力的结合,MLA显著减少了计算和内存开销,尤其是在处理长序列时表现优异。
相比传统的注意力机制,MLA在保持高性能的同时,降低了资源消耗。
图片来源:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
系统核心技术:自研轻量级框架
DeepSeek其它方面的性能方面优化
上图展示了一对独立的前向和后向分块的重叠策略(Transformer块的边界未对齐)。图中,橙色表示前向计算,绿色表示针对输入的反向传播,蓝色表示针对权重的反向传播,紫色表示流水线并行(PP)通信,红色表示同步屏障。通过这种策略,所有的全对全通信(all-to-all)和流水线并行通信都可以被完全隐藏,从而优化计算效率。
上图我们提出了一种细粒度的量化方法,以减轻由特征异常值引起的量化误差;为了简化说明,仅展示了前向传播(Fprop)。(b) 结合我们的量化策略,我们通过每隔Nc = 128个元素提升到CUDA核心进行高精度累加,从而提高了FP8 GEMM的精度。
图片来源:DeepSeek-V3 Technical Report
DeepSeek有无绕开CUDA护城河?
PTX(ParallelThread Execution)类英伟达汇编
作用:C++抽象较高,无法表达GPU内部硬件特性,PIX指令控制 1)内存读写到L2、内存和2)GPU内部硬件引擎
个人猜测:GPU的内存一致性模型做的差,故GPU计算和通信的内存一致性只能用PIX指令来保证
结论:没绕开,更依赖CUDA;但对国产硬件设计有作用
DeepSeek V3 未来展望
DeepSeek为代表的国内大模型咬住国外最先进大模型
模型性能:不要指望全面优势,“城头变幻大王旗”成本:低(战术穿插)
算力受限,近几年咬住会更难(大家宽容些)
突破工艺卡脖子,实现“战术穿插”+“火力覆盖”
中芯国际等硬核大厂突破工艺卡脖子
华为等算力公司提供高算力密度
个人预测AI竞赛结果
以中国的工业化水平,站着把AI的钱给挣了。“健身可以让SB跟你好好说话”“突破模型、算力卡脖子可以让A国跟咱们好好说话”
「浙大DeepSeek系列专题线上公开课第二期」的精彩内容向我们展示了智能时代人机协作的典型模式,并深入探讨了DeepSeek模型在算力与成本优化方面的核心优势,为我们描绘了一幅AI技术赋能未来的生动图景。