深度学习模型架构的演进

Aug 7, 2025· 6 min read
深度学习模型架构的演进
type
status
date
summary
tags
category
icon
password
featured
freq
difficulty
深度学习的发展,是一部从“感知”走向“认知”、从“特定任务”走向“通用智能”的演进史。如果说神经网络是 AI 的大脑,那么模型架构就是塑造智能形态的方式。
本文将带你梳理深度学习的主流模型架构及其演进脉络,从基础神经网络,到 Transformer 时代的 模型架构演进。
 

基础神经网络

深度学习的起点来自前馈神经网络(FNN / Feedforward Neural Network)。它由多层感知机(MLP)构成,通过神经元逐层传递与非线性激活,实现从输入到输出的映射。但由于缺乏序列记忆与空间特征提取能力,FNN 在早期更适用于结构化数据任务,主要解决简单分类任务。
为解决序列信息捕捉问题,循环神经网络(RNN)出现了。RNN 通过引入循环结构,使模型具备“记住上一状态”的能力,但训练存在梯度消失与长期依赖问题。改进后的 LSTM 与 GRU 结构在 NLP 时代初期成为标配。
在视觉领域,卷积神经网络(CNN)如LeNet、AlexNet的出现,开启了计算机视觉领域的深度学习浪潮。CNN 利用卷积与池化结构建立空间感知能力,使计算机能够识别图像中的模式与结构。CNN 引领了 ImageNet 革命,让深度学习正式进入大众视野。
 

Attention 与 Transformer

2017 年,Transformer 架构(Vaswani et al., Attention Is All You Need)的提出,通过自注意力机制突破了长距离依赖难题,使得模型不再依赖传统的序列结构,且更精准地捕捉上下文关系。
并且它实现了前所未有的并行计算能力,使得训练效率大幅提升。正是这种突破性的创新,催生了 BERT、GPT 等一系列强大的预训练模型,引领了人工智能的新纪元。
Transformer 架构包含三种典型形式:
结构
代表模型
适用任务
应用
Encoder-only
BERT
理解类任务
文档分类
Decoder-only
GPT 系列
生成类任务
撰写邮件
Encoder–Decoder
T5
输入理解 + 输出生成
翻译
可以说,Transformer 是推动当前大模型时代的基础技术之一。
 

深度生成模型

深度生成模型在深度学习从识别走向生成的过程中扮演了关键角色,涵盖了自回归模型(Autoregressive Models)生成对抗网络(GAN)、变分自编码器(VAE)、Diffusion模型等多种主流技术。
  • Autoregressive Models(如 PixelCNN、GPT):逐步生成序列,适用于文本、图像。
  • GAN(生成对抗网络):通过“生成器与判别器”的博弈训练,使模型不仅能区分真实与生成数据,还能不断优化生成效果,广泛推动了图像生成、风格迁移、图像修复等应用的发展。
  • VAE(变分自编码器):采用编码器-解码器架构,学习数据的潜在分布,擅长生成多样化样本,尽管生成图像相对模糊,但训练稳定且有较强的概率建模能力
  • Diffusion Models(扩散模型):通过逐步去噪过程生成高质量样本,虽然推理速度较慢,但在文本到图像等任务中表现优异,成为当前的研究热点。
此外,Transformer架构与自回归解码技术催生了GPT系列及更强大的多模态模型,使生成式AI在文本、图像、音频等多模态任务中均展现出卓越能力,成为生成式 AI 的核心引擎。
如今,生成式 AI 已不再局限于“模仿”人类,而是在创意、表达和交互方面展现出前所未有的潜力。从图像到文本,从语音到视频,AI 正在逐步成为内容创作的重要参与者,重塑我们与技术的关系,也正逐步成为未来智能社会的重要基础。
 

多模态与统一建模架构

具备广泛适应性和泛化能力的模型设计,能够在多个任务、模态和领域中共享参数、迁移知识、统一推理方式。它们通常具备以下特征:
  • 统一输入输出格式(如文本到文本)
  • 多模态融合能力(文本、图像、语音、结构化数据)
  • 多任务处理能力(分类、生成、检索、控制)
  • 可扩展性与可迁移性(支持增量学习、跨领域迁移)
架构代表:
  • CLIP、BLIP、Flamingo、GIT:图文对齐与生成
  • T5、M6、PaLM-E:统一文本、图像、语音等模态的建模
  • 架构特征:Encoder-Decoder、跨模态 Attention、共享表示空间
 

结语

回顾深度学习架构的发展,会发现一条清晰脉络:MLP → CNN / RNN → Attention → Transformer → 多模态与大模型 → 通用智能架构。
模型架构正在从“为任务设计”走向“为智能设计”。
未来的 AI 不再是单任务系统,而是具备自主推理、知识融合、多模态理解与执行能力的智能体,而其基础仍源自这些模型架构不断演进的力量。
 
上一篇
模型训练的方法与实践
下一篇
Retrieval-Augmented Generation (RAG)