序章:无声的惊雷
2017 · Transformer 的诞生
Attention Is All You Need
Google Brain 团队发表论文,提出了 Transformer 架构。这是现代 LLM 的基石,引入了“注意力机制”,让机器可以并行处理文字并理解长距离语义关联。
第一幕:巨兽的蛰伏
2018-2020 · GPT 模型的演进
GPT-1
验证了“预训练 + 微调”范式的有效性,开启了生成式预训练模型的时代。
GPT-2
展示了大规模文本训练下,模型展现出零样本(Zero-shot)任务处理的潜力。因“担心被滥用”而推迟发布完整模型。
GPT-3
1750亿参数的庞然大物。展现了惊人的“少样本学习”(Few-shot Learning)能力,无需调整参数即可学会新任务。量变引起质变的转折点。
第二幕:创世的火焰
2022 · 图像生成的寒武纪大爆发
DALL-E 2
OpenAI 发布,展示了惊人的图像生成能力(如“宇航员骑马”),验证了大规模文生图的可行性。
Midjourney
依托 Discord 社区构建,以独特的艺术风格征服设计师群体,定义了 AI 艺术的审美标准。
Stable Diffusion
Stability AI 开源模型权重,催生了庞大的插件与微调生态(ControlNet, LoRA),标志着“AI 民主化”的开始。
第三幕:对话纪元开启
2022.11 · ChatGPT 的“iPhone 时刻”
ChatGPT
AI 的“iPhone 时刻”。发布 5 天用户破百万,标志着 AI 从实验室技术转变为消费级产品,引发全球军备竞赛。
第四幕:诸神黄昏与平民英雄
2024-2025 · 开源与 DeepSeek 的崛起
DeepSeek
打破算力神话,证明了非美国巨头也能训练出顶级模型。
DeepSeek R1
通过蒸馏和强化学习,用极低成本训练出推理能力媲美 o1 的模型。
第五幕:智能体的觉醒
2024-2025 · 从 Chatbot 到 Agent
Devin
Cognition AI 发布的软件工程智能体,能自主修复 Bug、跑通测试,代表了“垂类智能体”的巅峰。
Manus
被称为“智能体领域的 DeepSeek 时刻”。展示了主动规划、工具使用和环境感知的真正 Agent 能力。
第六幕:重构现实
2023-2025 · 视频与多模态的进化
Runway Gen-1
视频生成领域的先驱,实现了“视频到视频”的风格迁移。
Runway Gen-2
实现了真正的“文生视频”,开启了商业化视频生成的先河。
Sora
OpenAI 发布的世界模型。60秒长视频,展现了对物理世界的惊人理解力,被视为“物理世界的通用模拟器”。
Kling (可灵)
快手推出的视频模型,支持 2 分钟生成,人物动作自然,发布 Video O1 模型融合生成与编辑。
Hailuo 2.5
MiniMax 海螺 2.5 展现极高动态一致性,特别是在“图生视频”领域表现出色。
终章:无尽的未来
2023-2025 · 音乐生成与展望
Suno V1
音乐界的 ChatGPT 初现,具备了初步的歌曲生成能力。
Suno V3
生成广播级音质的 2 分钟完整歌曲,支持任意风格,引发音乐生成热潮。
Udio
由前 DeepMind 研究员创立,以极高的音频保真度和复杂的音乐结构挑战 Suno。
Suno V5
进一步提升了音质和人声的真实感,推出了 Persona 功能。
下一场革命,会在哪里发生?
Where will the next revolution happen?