各领域的深度学习模型

Jul 9, 2025· 17 min read
各领域的深度学习模型
type
status
date
summary
tags
category
icon
password
featured
freq
difficulty
人工智能的主流应用领域包括自然语言处理(NLP)、计算机视觉(CV)信息检索(IR)以及推荐系统(RecSys)。近年来,各个应用领域中提出了大量具有创新意义的模型架构。这些架构经历了从依赖特征工程到端到端学习的转变,从单模态感知发展到跨模态理解与生成的范式演进,持续推动着模型性能与能力的提升。
 

自然语言处理 (NLP)

自然语言处理(Natural Language Processing,NLP)领域的模型架构经历了从浅层到深层的显著演变。从早期的依赖特征工程的浅层模型,最终发展到基于大规模预训练的BERT、GPT等模型,极大增强了语言理解和生成能力。

统计建模

早期的模型主要依赖于统计学方法特征工程。浅层模型如隐马尔可夫模型(HMM)和条件随机场(CRF),这些模型用词频、n-gram、词性等人工设计特征进行语言建模与序列标注。

循环神经网络 (RNN)

在 2014 年前后,随着深度学习的兴起,逐步转向能够捕捉序列依赖性的模型:循环神经网络 (RNN) 及其变体,如长短期记忆网络 (LSTM)门控循环单元 (GRU)。它们有效地解决了处理可变长度序列的问题。然而,RNN/LSTM 在处理长距离依赖和并行计算方面存在瓶颈——序列依次计算导致训练效率低,且难以捕获全局语义关系。

Transformers

2017 年,Transformer 架构 的提出标志着 NLP 的重大转折点,它通过引入注意力机制(Attention Mechanism),显著提升了模型对长距离上下文的捕获能力,进而催生了现代大型预训练模型的三大核心架构:
  • 仅编码器(Encoder-only):BERT 及其变体(RoBERTa, ALBERT, DeBERTa, ELECTRA, ERNIE 等)基于Transformer Encoder的双向编码器架构,专注于理解类任务,通过Masked Language Model(MLM)等自监督预训练,广泛应用于文本分类、问答、命名实体识别等任务。 奠定了 “预训练 + 微调(Pretrain–Finetune)” 的范式,成为 NLP 领域从“任务特定模型”向“通用语言表示模型”演进的里程碑。
  • 编码器-解码器(Encoder–Decoder):T5/ BART采用Encoder–Decoder 结构(Seq2Seq)结构,将几乎所有 NLP 任务(分类、翻译、摘要、问答、生成等)统一转化为“文本到文本(Text-to-Text)”任务。这类模型通过共享的生成框架实现了任务无关化,使 NLP 系统具备更强的灵活性和统一性。
  • 仅解码器(Decoder-only):大语言模型LLM 以 Decoder-only 的自回归生成架构为核心,通过预测下一个 token 的方式实现语言生成与理解的统一建模。这类模型在海量语料上预训练,具备强大的上下文理解与生成能力,推动了对话系统、内容创作、代码生成等应用的爆发式增长。代表模型包括 GPT-3 / GPT-4 / GPT-5、PaLM、LLaMA、Mistral、Gemini 等。
 
NLP 模型架构从统计学习 → 循环网络 → 注意力机制 → 预训练 Transformer → 大语言模型统一架构逐步演进,形成以 Transformer 为核心的通用语义建模范式,推动了从“特定任务优化”向“通用语言智能”迈进。
 

计算机视觉(CV)

计算机视觉(Computer Vision, CV)领域的模型架构同样经历了早期依赖边缘、纹理等手工特征的传统方法,到以卷积神经网络(CNN)为代表的深度学习训练模式,再到视觉 Transformer(ViT)以及视觉与语言等多模态统一的多模态与生成式架构的系统性演化。其核心目标始终围绕如何从图像中自动提取对任务敏感的视觉信息、捕捉空间结构,并将其转化为对场景、对象与语义关系的准确理解。

卷积神经网络(CNN)

卷积神经网络(Convolutional Neural Networks, CNN) 是深度学习在视觉领域崛起的起点。 自 AlexNet (2012) 在 ImageNet 竞赛中取得突破后,卷积架构成为视觉任务的主导。 通过局部感受野(local receptive field)、权重共享与层级特征提取,CNN 能够有效捕捉从边缘到物体语义的层级表示。
代表架构:AlexNet (2012),VGGNet (2014),GoogLeNet / Inception (2015),ResNet (2016)。
CNN 架构至今仍是检测、分割、识别等传统视觉任务的核心基石。

Vision Transformer(ViT)

受 NLP 中 Transformer 成功的启发,Vision Transformer (ViT, 2020) 将自注意力机制引入图像建模,通过将图像划分为固定大小的 patch tokens 并输入到 Transformer Encoder 中,实现了视觉特征的全局依赖建模 (建模图像中任意区域间的关系)。从而作为视觉编码器替代 CNN,并且在大规模数据(如 JFT-300M)上展现出优越性能。
代表架构:ViT(Google, 2020),DeiT(Facebook, 2021),Swin Transformer(Microsoft, 2021),ConvNeXt (2022)。

多模态表示模型 (Multimodal)

在进入 2021 年后,视觉模型开始与语言模型深度融合,形成 多模态表示学习架构。 代表性模型 CLIP(OpenAI, 2021) 采用双塔结构:图像塔(Vision Encoder)与文本塔(Text Encoder)共享同一语义空间, 通过大规模图文对比学习(Contrastive Learning)实现了跨模态语义对齐
这种 视觉–语言对齐架构 使得模型在视觉编码的基础上做语义对齐、检索与理解。从而能够在零样本(Zero-shot)条件下完成图像分类、检索、描述生成等任务,成为多模态预训练(VLP, Vision-Language Pretraining)的基础。
代表架构:
  • CLIP (OpenAI, 2021): 双塔对比学习,开启多模态时代。
  • ALIGN (Google, 2021): 超大规模图文对齐预训练。
  • BLIP / BLIP2 / Flamingo: 融合视觉编码与语言生成模型,支持视觉问答与图像描述。

生成式视觉模型

从 2022 年起,视觉领域迎来了以 Diffusion Models 为代表的生成式架构爆发。 与 GAN 不同,Diffusion 模型通过逐步去噪过程生成高保真图像,具备更稳定的训练与可控的生成能力。
Transformer 不仅是编码器或解码器,而是多模态 token 序列的通用计算单元。这使 Transformer 真正成为了多模态生成系统的统一基础架构—— 即,它不再只是“理解图像”,而是“生成世界”。多模态理解和图像生成正朝“终极大一统”方向发展,其架构分为自回归、Diffusion 以及 混合机制三大类。
代表架构:
  • DDPM / DDIM (Ho et al., 2020): 基础 Diffusion 模型。
  • Stable Diffusion (2022): 文本到图像生成的开创者。
  • Imagen / DALL·E 2 / Midjourney: 文本到图像生成的 Transformer + Diffusion 混合架构。
  • Segment Anything (SAM, 2023): 将视觉理解与交互式生成结合。
 

信息检索(IR)

信息检索(Information Retrieval,IR)主要研究如何组织、表示、索引和检索信息。IR是一个包含文本索引与检索、排序算法、用户意图理解、查询处理与重写、向量检索、语义搜索、大规模知识库与倒排索引、多模态检索等多方面的综合技术体系。近年来,IR 已从“查找文档”演进为“理解信息与回答问题”,并与 NLP、知识图谱以及生成式 AI 的融合日益紧密,使系统能够对海量数据进行更高效的理解、组织与推理,支持更智能的搜索与内容获取体验。 信息检索的应用涵盖了搜索引擎、智能问答、企业知识库、多模态检索、电商搜索、代码搜索、图片视频音乐等媒体内容搜索、医学文献检索等众多场景,构成了现代信息系统的重要基础。
搜索系统的模型架构经历了从浅层语义匹配(基于关键字和简单特征匹配的传统检索),到引入学习排序(Learning to Rank)、深度语义匹配(利用深度学习模型实现更精准的语义理解与匹配)、向量检索,再到如今的多阶段生成式理解与回答(借助大规模生成模型,实现直接生成符合用户需求的答案)的演进,体现了对相关性理解的不断深化。

稀疏检索(Sparse Retrieval)

在早期,搜索系统主要依赖于词项匹配机制,如 TF-IDF 和 BM25。这些方法基于倒排索引和词频统计,能够快速检索包含查询关键词的文档,但无法理解词义或上下文。架构上,这一阶段几乎不涉及深度学习,主要依赖索引结构,属于“浅层匹配”范式。

深度语义匹配(Neural Retrieval)

随着深度学习的发展,搜索系统开始引入神经网络进行语义建模,使系统能够理解“意思相近但字面不同”的内容。
例如:
  • 查询:"how to fix a cracked phone screen"
  • 文档:"repairing a broken smartphone display"
即使没有任何关键词重叠,深度模型也能判断它们“语义相似”。
典型架构包括:
1) 双塔架构(Two-Tower),将查询和文档分别编码为向量,用向量相似度(如点积)检索,支持高效向量检索(Approximate Nearest Neighbor, ANN)。代表模型:DPR、ColBERT、Sentence-BERT。
2) 交叉架构(Cross-Encoder),将查询与文档拼接后送入深度模型(如 BERT),利用 Transformer 建模 token 级交互,进行逐词级别的语义融合。交叉架构在效果上优于双塔,但其计算成本较高,通常用于精排或重排阶段。代表模型:BERT cross-encoder, mono-BERT。
这一阶段显著提升了相关性判断能力,并推动 多阶段搜索架构(召回 → 精排 → 重排)成为主流。

生成式检索(Generative Retrieval)

进入大模型时代,搜索架构开始融合生成能力。代表方法如 RAG(Retrieval-Augmented Generation)、FiD(Fusion-in-Decoder)等,将检索与生成结合,不再仅仅返回相关文档,而是直接生成答案、摘要或对话内容。这类架构通常基于 Encoder-Decoder 或 Decoder-only 模型,重塑了搜索的交互方式与用户体验,标志着搜索从“找文档”向“给答案”的跃迁。
 
从基础信息检索到语义理解,再到多模态融合、智能生成,信息检索技术不断提升对用户意图的理解和对信息的组织能力与表达力,也重塑了用户的交互方式,推动从信息查找工具向智能问答助手的转变,极大提升了用户体验。
 

推荐系统 (RecSys)

推荐系统(Recommendation System, RecSys)是以用户为中心、主动向用户推送个性化内容的智能系统。不同于传统的信息检索依赖用户主动发起查询来获取信息,推荐系统主动推送用户最可能感兴趣的信息。尽管两者在技术上有诸多共通点——如都包含召回(retrieval)和排序(ranking)阶段,并且都可以利用向量检索 / embedding 技术来实现语义匹配——推荐系统在此基础上进行了进一步扩展。利用用户行为历史、物品特征和交互数据,经过深度排序模型、多模态特征融合以及个性化打分,生成最终推荐列表。它旨在结合用户偏好、物品特性和上下文信息,实现精细化、个性化的推荐效果,并最大化点击率、购买率等关键指标。
现代推荐系统模型的演进路径清晰可见:从传统的协同过滤特征依赖范式起步,逐步发展为深度排序序列建模等深度学习方法。 当前业界聚焦于图神经网络强化学习大规模预训练多模态融合等,并积极探索大模型与生成式智能的融合。

基于相似度的传统模型

传统推荐方法基于相似度来估计用户与物品之间的相关性或偏好。
  • 协同过滤(CF) 主要依赖用户–物品交互矩阵,通过矩阵分解等技术(如 ALS、BPR)建模潜在偏好;
  • 内容过滤(CBF) 则利用物品的元数据(如类别、标签、主题等)与用户画像进行直接匹配。
这些方法在中小规模场景中具有可解释性强、实现简单等优势。然而,它们在面对大规模数据、稀疏性以及冷启动问题时表现受限。

深度交叉模型

在 2017-2019年 这一阶段,核心是高效的特征表达和融合。以 Wide & Deep、DeepFM、DCN 为代表的模型,通过 Embedding 层结合 多层感知机(MLP) 或特定的交叉网络,取代繁琐的人工特征工程,实现了对特征的自动学习和深度交叉。

多任务学习与序列建模

进入 2019-2021年,技术重点转向用户行为的精细化捕捉,关注序列性与多任务优化多任务模型(如 MMoE) 被引入以联合优化多个业务指标。同时,序列模型(如 DIN、DIEN)基于用户历史行为动态地捕捉其短期兴趣和行为偏好

Transformer与图神经网络

在 2021-2023年 ,推荐系统迈向对复杂关系长依赖的深度理解。Transformer 架构(如 Transformer4Rec)被引入到序列建模中,以更好地处理长序列依赖。同时,图神经网络(如 PinSage、GraphRec) 成为关键技术,用于建模高阶交互和结构化关系。同时,强化学习(RL)广泛应用于列表重排和长周期优化,以最大化用户的长期累积回报。

大模型融合与多模态推荐

自2023年前后,推荐系统迈入了大模型与多模态时代。大规模预训练模型(如P5、UniRec)推动了推荐系统的统一建模架构。模型开始融合文本、图像、语音等多模态信息。LLM 的应用进一步增强了语义召回能力,并实现了生成式推荐推荐解释,开启了高度个性化和可解释性的新纪元。
以下是具有代表性的模型架构及其核心思路:
模型架构
核心思路
代表模型
深度特征交叉 (Deep Feature Crossing)
引入特定的交叉网络结构,来显式 (explicitly) 或隐式 (implicitly) 地学习特征之间的高阶相互作用,取代人工特征工程。
Wide & Deep (Google)DeepFM (Huawei)DCN / xDeepFM (Google)
多任务学习(Multi-Task Learning)
同时优化多个业务目标(CTR、CVR、留存),通过共享专家或门控机制实现表示共享与任务解耦。
MMoE (Google)PLE (Tencent)ESMM / AITM (Alibaba)
图神经网络(Graph Neural Networks)
将用户–物品交互视为图结构,通过消息传递捕捉高阶关联与语义关系,强化冷启动与稀疏场景。
PinSage (Pinterest)LightGCN (Alibaba)GraphFM / DGCF
多模态推荐架构(Multimodal Fusion)
融合文本、图像、视频、音频等多模态内容,构建统一的语义空间,提升冷启动与跨域泛化能力。
CLIP4Rec、M6-Rec、MMRec、UniRec
推荐大模型 (Foundation Models for Recommendation)
利用大规模预训练和统一的 Transformer/LLM 架构,构建一个能够处理多种推荐任务、多种数据模态的通用引擎。
P5 (Salesforce)UniRec (Alibaba)、RecFormer、LLM4Rec、Generative Retrieval (GRL)
 
另一篇帖子 Fan’s BlogFan’s BlogModeling for Modern Recommendation Systems | Fan’s Blog 有更多讨论。

结语

以 NLP、CV、IR 和 RecSys 为代表的主流智能应用领域中,模型架构设计正从”任务特定优化”加速转向“统一建模与共享语义空间”。Transformer 架构是推动这一转变的核心力量,它成功打破了模态间的隔离,使得语言、视觉、语音及图结构数据得以在同一框架下高效协同。伴随生成式模型与大模型的崛起,深度学习的焦点已从传统的“识别世界”迭代至“生成世界”。模型架构还将继续朝着统一化可扩展化自适应化的方向演进,逐步实现跨模态、多任务的综合智能能力。
 
上一篇
The ML Factory: Building Production ML Systems
下一篇
大模型(LLM)关键技术:从基础到落地