站在服务端视角看AI
白话大模型原理
近几年以 ChatGPT 为代表的 AI 模型大火,日常使用中大模型仿佛“无所不知、无所不能”,有任何问题直接询问 GPT 就能得到答案,但在服务端开发者眼里,它不应是魔法,而是一个能够进行数值运算的复杂系统。本文将以服务端技术视角对其架构进行链路分析,包含以下三个步骤
输入 -> 处理:由“静态查表的局限性”引出“动态计算的必要性”,解析 token 是什么、为什么需要token。
处理 -> 输出:由“机器懂了”转折到“如何让人懂”,白话分析大模型的核心处理过程。
输出 -> 优化:由“原理上的低效”引出“工程上的优化”,分析模型在工程层面做了哪些优化。
这篇文章可能会解答一些疑惑如:
- 模型都训练完拿到最终参数了为什么使用的时候还要依赖显卡进行计算?
- 为啥提示词会显著影响模型的返回?
- 大模型知道那么多内容,为啥有时候会胡编乱造,只有在用户指出错误后它才能发现?
- 大模型为啥一个字一个字的进行输出?
- DeepSeek 是怎么带来一场革命的?