Transformer、RAG、LoRA、Agent...看懂这些词,你就不再是 AI 圈外人
让机器具备学习、推理、感知等智能行为的技术总称。今天说的 AI 主要指机器学习,特别是基于神经网络的深度学习。
不靠规则,让机器从数据里自动找规律的方法。是实现 AI 的主流路径。
机器学习的一个分支,使用多层神经网络。2012 年后支撑了大模型、图像识别、语音识别等突破。
模仿人脑神经元结构的数学模型,由多层节点组成,每层节点之间通过权重连接。
用海量数据喂给模型,让它不断调整内部参数以最小化错误率的过程。
训练完成的模型被调用来回答问题、生成内容的过程。你平时用 ChatGPT 就是在做推理。
模型内部可学习的数值总量,常用 B(十亿)标注。如 Llama 70B 表示 700 亿参数。参数越多通常越强但越贵。
模型处理文本的基本单位,可能是一个字、一个词或一个子词。中文平均 1 字 ≈ 1.5 token。
模型一次对话能同时处理的最大 token 数。Claude 200K ≈ 15 万汉字;GPT-4o 128K ≈ 10 万汉字。
模型一本正经地胡编乱造,输出看起来合理但实际错误的信息。所有大模型都有这个问题。
2017 年 Google 提出的神经网络架构,是 ChatGPT、Claude、Gemini 等所有主流大模型的基础。核心是 Self-Attention 自注意力机制。
参数量通常在十亿以上、用海量文本训练的 Transformer 模型。代表:GPT、Claude、Llama、DeepSeek。
OpenAI 的旗舰大模型系列。Generative 生成式、Pre-trained 预训练、Transformer 架构。
能同时处理文本、图像、音频、视频等多种信息的模型。GPT-4o、Gemini、Claude 3.5 都是多模态。
把大模型拆成多个专家子模型,每次推理只激活一部分。用更少算力实现更强性能。DeepSeek V3、Mixtral 都用了 MoE。
图像生成主流架构。先给图片加噪声,再训练模型一步步去噪还原。Stable Diffusion、Midjourney、Sora 都基于此。
变分自编码器。用于图像生成和压缩,扩散模型里常用它把图像编码到潜空间。
把文字/图片转成一串数字(向量),相似内容的向量距离更近。是 RAG 和语义搜索的基础。
你给 AI 输入的指令。Prompt 质量直接决定输出质量。
通过设计更好的 Prompt 来让 AI 输出更准确、更符合预期的工程实践。
在 Prompt 里给几个示例,让模型模仿格式/风格回答。比单纯描述需求效果好得多。
不给任何示例,直接让模型完成任务。能干复杂任务是大模型能力强的标志。
让模型一步步推理再给答案。加一句"请一步步思考"能显著提高数学和逻辑题准确率。
先从知识库里检索相关信息,再把信息和问题一起给大模型生成回答。企业知识库问答首选方案。
在预训练模型基础上,用你自己的数据再训练一遍,让模型适应特定风格或任务。
一种轻量级微调方法。只训练一小部分新增参数,成本比全量微调低 10-100 倍。AI 绘画社区最火。
通过人类反馈做强化学习,让模型输出更符合人类偏好。ChatGPT 能这么好用靠的就是 RLHF。
能自主规划任务、调用工具、执行多步骤动作的 AI 系统。从"对话"进化到"干活"。
Anthropic 提出的开放协议,让大模型能标准化连接本地文件、数据库、外部工具。被视为 AI 界的 USB-C。
让大模型按 JSON 格式调用外部函数(API、数据库、代码执行),是构建 Agent 的关键能力。
Stable Diffusion 的扩展,能精确控制生成图像的构图、姿势、线稿。AI 绘画商用必备。
把模型参数从 FP32 压缩到 INT8/INT4,体积变 1/4 到 1/8,让大模型能在笔记本甚至手机上跑。
开发者调用大模型能力的接口。OpenAI、Anthropic、DeepSeek 等都提供 API,按 token 计费。
嵌入到工作流里的 AI 助手。如 GitHub Copilot 写代码、Microsoft 365 Copilot 做 Office。
模型厂商提供的在线试玩平台,不用写代码也能调参数测效果。OpenAI / Anthropic / Google 都有。
以对话形式提供 AI 服务的产品,如 ChatGPT、Claude、豆包。
理论上具备人类所有认知能力的 AI。目前还没有真正的 AGI,OpenAI/DeepMind 都在追求这个目标。
模型权重公开可下载的大模型。代表:Llama、Mistral、DeepSeek、Qwen、GLM。
只通过 API 或产品提供服务,不公开权重的模型。如 GPT-4、Claude、Gemini。
AI 训练和推理的主力芯片。英伟达 A100/H100/B200 是数据中心标配。
Google 自研的 AI 芯片,专为神经网络优化。Gemini 等模型在 TPU 上训练。
GPU 上的专用内存。大模型推理时需要把参数加载到显存,70B 模型大约要 140GB 显存(FP16)。
每秒浮点运算次数,衡量算力的指标。H100 的 FP16 算力约 989 TFLOPS。
Groq 公司自研的推理芯片。专为大语言模型优化,吞吐是英伟达 GPU 的数倍。
把 GPU 做成云服务按时租用。如 RunPod、Lambda Labs、Replicate、硅基流动等。