近期,浙江大学人工智能科研团队重磅推出【DeepSeek系列专题线上公开课】,作为国内顶尖高校的前沿科技分享平台,这一系列公开课汇聚了AI领域的顶尖学者与行业专家,深入揭示DeepSeek如何突破算力与泛化天花板;探讨当机器开始理解物理规律、掌握社会协作时,人类应如何构建与之共生的新型文明契约。
为了让更多读者轻松理解这些高含金量的内容,谐云将不定期在公众号分享公开课的深度解读与精华整理。我们将带您走进AI的世界,揭秘技术背后的逻辑与故事。无论您是AI领域的从业者,还是对科技充满好奇的普通读者,都能在这里找到属于自己的收获与启发。
公开课01
DeepSeek:回望AI三大主义与加强通识教育
报告嘉宾:吴飞教授
浙江大学本科生院院长、计算机科学与技术学院和软件学院党委书记,人工智能研究所所长、人工智能教育教学研究中心主任。求是特聘教授,国家杰青,CAAI Fellow。中国人工智能学会教育工作委员会主任委员。
吴飞教授从符号主义、连接主义和行为主义三大主义介绍人工智能算法的历史发展,分析三大主义的优劣互补。针对生成式人工智能的热点,介绍了ChatGPT、Sora和DeepSeek之间的联系,认为DeepSeek的精彩表现在于其对算法、模型和系统等进行的系统级协同创新,是众智和众力相互叠加的成果。最后介绍了浙江大学正在开展的人工智能通识教育,认为体系化知识、构建式能力、创造性价值和人本型伦理构成的有机整体是人工智能时代的基本素养。
人工智能发展历程与相关概念
01
人工智能三剑客
达特茅斯启航的人工智能三大主义——符号主义、连接主义和行为主义,奠定了人工智能发展的理论基础与实践路径。
人工智能三剑客之一:符号主义人工智能的逻辑推理
符号主义强调通过逻辑推理和符号操作模拟人类智能,其核心思想是将知识表示为符号系统,并通过规则进行推理,这一理念在专家系统和知识图谱等领域得到了广泛应用。吴教授,只要将所有知识符号化,再用正确的推理手段对符号化的知识进行计算,我们就能源源不断发现人类尚未发现的知识。
1.逻辑
指进行正确推理和充分论证的研究(the studyofcorrectreasoning and good arguments),其关心的是从一个或若干前提出发,是否存在一个有效的论证或推理来支持所得到的结论,也就是说在前提和结论之间架构逻辑结构的桥梁。
2.符号主义人工智能的逻辑推理:推理即计算
① 已知事实:
三峡大坝和葛洲坝同时位于长江流域、两者具有反调节关系:小浪浪底水库和三门峡水库同时位于黄河流域、两者具有反调节关系
② 归纳总结得到新知识:
任何两个水库如果位于同一个水域,则两者具有反调节关系
③ 演绎推理得到新知识:
已知任何两个水库如果位于同一个水域,则两者具有反调节关系;已知大古力水坝和达拉斯水坝都位于哥伦比亚河流域推理得到:大古力水坝和达拉斯水坝具有反调节关系
人工智能三剑客之二:连接主义人工智能的数据驱动
连接主义人工智能(Connectionist AI)是人工智能的一个重要分支,其核心思想是通过模拟人脑神经元的连接和工作机制来实现智能行为。吴教授表示,它拥有像人类大脑一样的神经网络,主张通过大量简单的计算单元(神经元)相互连接来模拟智能,层层递进、逐层抽象。这一思想催生了深度学习革命,推动了计算机视觉、自然语言处理等领域的突破性进展。
以下是连接主义人工智能在数据驱动下的核心思想及其与神经元奥秘的解码:
1.连接主义的核心思想
连接主义认为,智能行为源于大量简单单元(如神经元)之间的连接和交互。通过模拟神经元之间的连接权重调整,模型可以从数据中学习复杂的模式和规律。其特点包括:
分布式表示:信息存储在网络中多个神经元的连接权重中,而非集中式存储。
并行处理:神经元之间的计算是并行的,能够高效处理大规模数据。
学习能力:通过训练数据调整连接权重,使网络能够适应新任务。
2.数据驱动的学习机制
连接主义模型的学习过程依赖于大量数据,其核心是通过数据驱动的方式优化网络参数。
图片来源:清华大学大数据研究中心
输入数据:将数据(如图像、文本、声音)输入神经网络。
前向传播:数据通过多层神经元传递,每一层对数据进行非线性变换。
损失计算:将网络输出与真实标签进行比较,计算误差(损失函数)。
反向传播:通过梯度下降算法,将误差从输出层反向传播到输入层,调整神经元的连接权重。
权重更新:不断迭代优化,使网络的预测结果逐渐接近真实值。
3.解码神经元的奥秘
连接主义模型通过模拟神经元的工作机制,揭示了智能行为的某些本质特征:
神经元的激活:每个神经元接收输入信号,通过激活函数(如ReLU、Sigmoid)决定是否激活并传递信号。
层次化特征提取:深层神经网络能够自动从数据中提取层次化的特征。例如,在图像识别中,底层神经元可能检测边缘,中层检测形状,高层检测复杂物体。
可塑性:神经网络的连接权重具有可塑性,能够根据数据动态调整,模拟人脑的学习和适应能力。
4.连接主义人工智能:概率为王下黑箱效应之困惑
人工智能三剑客之三:行为主义人工智能的百折不挠
与符号主义不同,行为主义人工智能不依赖于对世界的显式建模或符号表示,而是直接通过行为策略的优化来实现智能。行为主义关注智能体与环境的交互,强调通过试错和学习来优化行为策略,强化学习便是这一主义的典型代表。
智能即行为:智能体通过与环境交互产生行为,智能的本质在于行为的表现。
试错学习:通过不断尝试和接收反馈,智能体逐步优化其行为策略。
奖励驱动:行为主义模型通常依赖于奖励信号(Reward Signal)来指导学习过程。
1.行为主义的方法与技术
行为主义人工智能的主要方法是强化学习(Reinforcement Learning, RL),其核心框架包括以下几个要素:
智能体(Agent):学习和决策的主体。
环境(Environment):智能体交互的外部世界。
状态(State):环境在某一时刻的描述。
动作(Action):智能体在某一状态下采取的行为。
奖励(Reward):智能体执行动作后从环境获得的反馈信号。
策略(Policy):智能体在给定状态下选择动作的规则。
强化学习的关键步骤:
探索与利用:智能体在探索新行为和利用已知最优行为之间平衡。
价值函数:评估某一状态或动作的长期收益。
策略优化:通过迭代更新策略,最大化累积奖励。
02
新一代人工智能迅速崛起
从ChatGPT到DeepSeek,体现了人工智能技术在自然语言处理(NLP)领域的快速演进,以及从通用模型到垂直领域应用的深化发展。代表了AI技术在不同阶段和场景下的创新与实践,同时也反映了人工智能从理论研究到商业化落地的完整路径。
GPT
GPT(Generative Pretraining Transformer)是一种基于Transformer架构的自然语言处理(NLP)模型。
Generative(生成式):GPT是一种生成式模型,能够根据输入文本生成连贯、合理的输出文本。例如,它可以完成句子、生成文章、编写代码等。
Pretraining(预训练):GPT模型首先在大量无标签文本数据上进行预训练,学习语言的统计规律和语义表示。
Transformer(变换器):GPT基于Transformer架构,这是一种由Google在2017年提出的深度学习模型,利用自注意力机制(Self-Attention)捕捉文本中的长距离依赖关系。
其中,吴教授以“项庄舞剑意在沛公”为例讲自注意力机制,解释到当这句话在万千语料中都出现时,项庄、舞剑、意在、沛公这四个单词就分别肩负了自身责任去记住左领右舍,那么预测下一个单词的任务就相当于在当前语境之下,基于现有单词预测下一概率最高的单词。
然而,GPT的训练是一个复杂且资源密集的过程。
1.GPT的训练三板斧之一:完形填空形式下文字接龙
在训练时,人工智能模型会不断地在句子中“挖去”一个单词,根据剩下单词的上下文来填空,即预测最合适的“填空词”出现的概率,这一过程为“自监督学习”。
2.GPT的训练三板斧之二:有监督微调(SFT)
让人工智能模型说人话、做人事(supervised fine-tuning)手工设计提示和指令微调被誉为人工智能私语者(Alwhisperer)经师易得、人师难求。
3. GPT的训练三板斧之三:人类反馈下强化学习
AI有三宝:数据是燃料、模型是引擎、算力是加速器
数据:ChatGPT训练中使用了45TB数据、近1万亿个单词(约1351万本牛津词典所包含单词数量)以及数十亿行源代码。据估计全球高质量文本数据的总存量在5万亿token左右,人工智能算法可能在一个数量级内,耗尽世界上所有有用的语言训练数据供应。
模型:包含了1750亿参数,将这些参数全部打印在A4纸张上,一张一张叠加后,叠加高度将超过上海中心大厦632米高度。
算力: ChatGPT的训练门槛是1万张英伟达V100芯片、约10亿人民币,模型训练算力开销是 每秒运算一千万亿次,需运行3640天(3640 PetaFLOPs per day)。
大数据、大模型、大算力下以“共生则关联”原则实现了统计关联关系的挖掘。
03
DeepSeek崛起:模型算法和工程优化的系统级协同创新
DeepSeek模型仍是基于美国谷歌公司于2017年提出的TransFormer架构,虽没有实现改变游戏规则的颠覆性基础理论创新,但它对模型算法和工程优化方面进行了系统级创新,打破了大语言模型以大算力为核心的预期天花板,为在受限资源下探索通用人工智能开辟了新的道路。
能用众力,则无敌于天下矣;能用众智,则无畏于圣人矣。吴教授表示,DeepSeek的精彩表现在于其对算法、模型和系统等进行的系统级协同创新,是众智和众力相互叠加的成果。
1.DeepSeek V3: 混合专家模型灵致、模型参数低秩压缩以及工程化努力
2.DeepSeek Rl:强化学习推理和小模型蒸馏
3.DeepSeek:迈向全社会分享的普遍智能
DeepSeek的开源之举将使得AI像水和电(以及网络)一样触手可及,为实现“时时、处处、人人可用的普遍智能”带来曙光。1月28日,美国“外交学者”(The Diplomat)网站发表题为《中国的DeepSeek是美国人工智能的“斯普特尼克时刻”》的文章指出,DeepSeek此次的开源之举延续了OpenAI的初心使命--为了人类利益推动人工智能发展。
任何人均可从DeepSeek网站自行下载与部署相关模型。可以预见在不久将来,DeepSeek不同大小模型将被部署为不同场景中的人工智能基座,大家都可通过行业自有数据、知识和经验进行专业训练和微调,从而创造无限可能。如果说,传统大模型遵循的是一条“由通到专”的人工智能发展思路,那么DeepSeek的做法将推动形成一条“由专到通”的人工智能发展路径,进一步牵引人工智能软硬件技术生态健康发展,迈向全社会分享的普遍智能之路。
最后,吴教授还介绍了浙江大学正在开展的人工智能通识教育,提到体系化知识、构建式能力、创造性价值和人本型伦理构成的有机整体是人工智能时代的基本素养。
公开课02
Chatting or Acting?——DeepSeek的突破边界与“浙大先生”的未来图景
报告嘉宾:陈文智教授
浙江大学信息技术中心主任、人工智能教育教学研究中心副主任。求是特聘教授,国家“万人计划”教学名师,浙江省信息化教学指导委员会主任,浙江省高教学会教育技术专委会理事长,浙江省计算机学会教育信息化专委会主任。
陈文智教授在线浅析了DeepSeek的技术突破,阐释强化学习对模型认知跃迁的推动作用。进而提出“大模型提供认知底座,智能体实现价值闭环”的双螺旋智能演进的观点,探索两者的协同进化对教育范式变革的推动作用。以精彩实例介绍“浙大先生+DeepSeek+CARSI”落地高校场景,向师生展示未来教育“处处用AI,人人会AI”的美好图景。
DeepSeek的出现,意味着算力效率拐点显现。人工智能已经从成长期到产业化转换,处于用“得上的新技术”到“用的好的新技术”转化点。AI技术创新一直在围绕核心三要素(算法、数据、算力)在动态循环,2025年再次进入算法创新阶段。
01
未来大模型(LLM)的发展需要智能体(Agent)
从1956年计算机专家约翰·麦卡锡提出“人工智能”概念,到2011年Apple公司推出Siri虚拟助手,人脸识别等CV技术得到广泛使用,再到2021年ChatGPT发布,以其自然语言交互与多场景内容生成能力为核心的LLM技术得到广泛关注。2024年,以DeepSeekR1/OpenAl o1 为代表的深度思考模型破圈,人类离AGI时代的到来又近了一步。
而大模型在场景落地时,会存在部署推理成本高、专业知识不足、幻觉问题严重等问题因此在专业级市场,需要基于以下手段,提升大模型在垂直领域的表现。而模型的优化存在以下三个手段:
· 模型蒸馏:是学生通过模仿老师的解题思路,达到和老师相似的知识水平。适用于将大模型的能力迁移到小模型上,以适配更低端的算力环境。
· 模型微调:又叫精调,相当于学生意识到自己某门课有短板,然后自己找参考书恶补了一下,从而补上短板。适用于特定场最下,用特定数据集对通用模型进行小规模训练。
· RAG:“检震增强生成”。简单来说,就是每次先查资料,再回答问题。RAG,不是训练,不改变大模型的自身能力”,但可以作为外挂,提升大模型回答问题的精准性
02
从大模型到智能体,AI应用交互的进化的必然之路
现在的人工智能处于大模型(LLM),LUI交互阶段(自然语言为核心交互方式),它通过语言用户界面,依赖用户给出的清晰明确的指令来完成任务。它通过对话式给出输出,但是无法直接完成用户的目标,即只具备“你问我答能力”,无法实现“你说我做”。
而在未来,人工智能势必将要向着,(智能体)Agent,具备自主能力的新一代AI发展。它将具备推理和规划能力,无需用户给出非常明确的指令,并非辅助用户完成特定任务,而是基于用户提出的目标,自动理解目标并完成用户的任务。智能体可以大模型的目标导向与任务执行,适配多模态与环境交互,帮助其自主性和决策能力,实现个性化与长期交互成长,达到系统整合与协作。
大模型与智能体的螺旋共生关系
智能体(Al Agent)由Instruction、Knowledge、Action、Memory等多个模块组成,在创建助理成功后,可以通过聊天、事件感知、定时等多种触发方式发起对A1助理的运行,在Planning过程中会基于大模型进行思考推理、编排,最终执行Action,逐步完成全部任务。
1.大模型赋能智能体
认知能力提升:大模型(如GPT、BERT等)为智能体提供语言理解、推理和生成能力,使其能够处理复杂任务。
决策优化:大模型通过分析海量数据,帮助智能体做出更精准的决策。
多模态支持:大模型整合文本、图像、语音等信息,增强智能体的多模态交互能力。
2.智能体推动大模型进化
数据反馈:智能体在实际应用中生成大量数据,为大模型提供训练和优化资源。
场景验证:智能体在真实场景中测试大模型,暴露其不足,推动改进。
需求驱动:智能体的多样化需求促使大模型向更高效、更通用的方向发展。
3.螺旋共生的体现
技术迭代:大模型与智能体相互促进,推动技术快速进步。
应用扩展:随着大模型能力提升,智能体应用场景不断扩展,进一步推动大模型优化。
生态共建:两者共同构建技术生态,吸引更多参与者,形成良性循环。
智能体开发
从“开发”转为“创作””,真正的人人都是AI创作者的时代。
1.技术门槛的降低
开发时代:过去,AI技术的应用需要深厚的编程和算法知识,普通人难以参与。开发者是主导者,用户只是被动接受者。
创作时代:如今,AI工具(如ChatGPT、MidJourney、DALL·E等)让创作变得简单直观。用户无需懂代码,只需输入想法或指令,AI就能生成文字、图像、音乐甚至视频。技术门槛的降低让更多人能够参与创作。
2.创作主体的多元化
开发时代:创作主要集中在少数专业人士手中,如程序员、设计师、作家等。
创作时代:AI让创作变得民主化。无论是学生、教师、艺术家,还是普通爱好者,都可以借助AI工具表达自己的创意。创作不再是少数人的专利,而是人人皆可参与的领域。
3.创作形式的多样化
开发时代:创作形式受限于技术和工具,内容生产较为单一。
创作时代:AI让创作形式更加丰富。从文字、图像到视频、音乐,甚至跨媒体融合创作,AI为创作者提供了无限的可能性。例如,AI可以生成一幅画作,也可以为画作配上一段故事或音乐。
4.创作效率的提升
开发时代:创作需要耗费大量时间和精力,效率较低。
创作时代:AI可以快速生成初稿、提供灵感,甚至完成复杂的创作任务。创作者可以专注于创意和优化,而不必纠结于技术细节。例如,作家可以用AI生成故事框架,设计师可以用AI快速生成多种设计方案。
5.创作生态的重构
开发时代:创作生态以专业机构为中心,内容生产高度集中。
创作时代:AI让创作生态更加去中心化。个人创作者可以通过社交媒体、内容平台直接发布作品,获得关注和收益。平台算法和AI推荐机制也让优质内容更容易被发现。
通过多模态能力,让智能体的交互体验比肩APP
通过多模态能力提升智能体的交互体验,是AI技术发展的重要方向。多模态能力指的是智能体能够同时处理和理解多种类型的数据(如文本、图像、语音、视频等),从而提供更自然、更高效的交互体验。
自然交互:用户可以通过语音、文字、图像甚至手势与智能体交互,无需局限于传统的点击和滑动操作。
情境感知:多模态智能体能够结合上下文(如用户的位置、时间、环境等)提供更精准的服务。
无缝切换:用户可以在不同模态之间自由切换,例如用语音提问、用图像补充信息,智能体能够理解并连贯响应。
多个智能体通过“工作流”的定义,实现相互协同,共同完成复杂任务
多个智能体通过“工作流”协同工作,是AI技术迈向更高层次的重要标志。这种协同模式能够将不同智能体的专长结合起来,共同完成复杂任务,类似于人类团队的分工合作。
而智能体协同的实现包含以下几个关键技术:
l 任务分解与分配:将复杂任务拆解为多个子任务,并根据智能体的能力分配任务。
l 通信协议:智能体之间需要统一的通信标准(如API、消息队列)来传递信息和协调行动。
l 状态监控与反馈:实时监控每个智能体的任务状态,及时调整工作流以应对突发情况。
l 知识共享:智能体之间可以共享数据和经验,提升整体效率。
l 冲突解决:当多个智能体的任务目标冲突时,需要有机制进行协调和优化。
未来,多个智能体通过“工作流”协同工作将成为AI技术的主流趋势。这种模式将复杂任务分解为多个子任务,由不同智能体分工协作,实现高效、精准的任务执行。在内容创作中,文本生成、图像设计、语音合成和视频编辑智能体可以无缝协作,生成高质量的多媒体内容。
通过统一的通信协议和动态调整机制,智能体能够实时共享信息、优化任务分配,并适应复杂多变的环境。随着技术的成熟,智能体协同将不仅局限于单一领域,还能实现跨领域协作,解决更宏大的问题。这一趋势将推动AI从工具向伙伴转变,为人类社会带来前所未有的效率提升和创新可能。
「浙大DeepSeek系列专题线上公开课第一期」的精彩内容让我们看到了AI技术的无限可能——从符号主义、连接主义到行为主义的理论演进,再到DeepSeek在教育、科研等领域的创新实践,AI正在以惊人的速度改变着我们的世界。