当前位置：首页 > 问答 > 正文

聊聊ChatGPT那些看似神奇的能力到底是怎么一步步炼成的，技术脉络全解析来了

邝冷亦
问答
2025-12-29 08:37:11
3

（引用来源：李宏毅教授《ChatGPT》系列讲座，台大）（引用来源：OpenAI官方技术博客及论文）（引用来源：多位AI领域研究者如Andrej Karpathy的公开分享）

聊聊ChatGPT那些看似神奇的能力到底是怎么一步步炼成的,技术脉络全解析来了。

我们很多人第一次用ChatGPT时,都会被它惊到：它能写邮件、写代码、讲故事，甚至能跟你讨论哲学问题，感觉它就像一个什么都懂的人，这种“神奇”其实不是凭空出现的，而是一系列技术一步步发展、积累的结果，我们可以把这个过程想象成“三级火箭”，每一级都为下一级奠定了坚实的基础。

第一级火箭：让机器“读懂”文字，学会“完形填空”

ChatGPT的核心是一种叫做“Transformer”的技术，这项技术大概在2017年左右被谷歌的研究者提出来，它解决了一个核心问题：如何让计算机更好地理解一句话里词语之间的关系。“我吃了一个苹果，它很甜。” 这里的“它”指的是苹果，而不是“我”，Transformer通过一种巧妙的机制，能让计算机在读到“它”的时候，去关注前面提到的“苹果”，从而正确理解指代关系。

基于Transformer,研究者们想，怎么让机器学会人类的语言呢？他们用了非常朴素的方法：大量的“完形填空”训练，就是给模型看海量的互联网文本（比如维基百科、新闻文章、书籍等），然后随机遮住一句话中间的某个词，让模型去猜这个词应该是什么。“今天天气真好，阳光____。” 模型需要从它学到的海量文本中，推测出最可能的是“明媚”或者“灿烂”这样的词。

（引用来源：Google Research论文《Attention Is All You Need》）通过这种看似简单的训练，模型其实是在默默学习我们说话写文章的语法、常识和逻辑，它学会了“天气好”通常和“阳光”搭配，也学会了“苹果”后面更可能是“甜”而不是“咸”，这个过程就像是给机器打下了深厚的语言基础，让它成了一个“饱读诗书”的学者，这个阶段的模型，我们通常称之为“预训练模型”或者“基础模型”，比如GPT-1, GPT-2。

第二级火箭：从“懂”到“会”，学会听从指令

但问题是,光是“饱读诗书”的模型，还不太听话，你问它一个问题，它可能不会直接回答，而是继续往下写一段相关的文字，或者答非所问，因为它只学会了“预测下一个词”，并没有学会“回答问题”这个具体的任务。

这时候,就需要第二阶段的训练，叫做“指令微调”，OpenAI的研究员们扮演“老师”的角色，他们精心准备了大量的“问答对”，人类问：“请用Python写一个排序算法。” 然后人类自己给出一个正确的代码示例，模型的任务就是学习这种“一问一答”的配对关系。

（引用来源：OpenAI InstructGPT论文）通过大量的这种训练，模型逐渐明白了：当人类用问句开头时，我应该给出一个答案；当人类说“请写一首诗”，我应该开始创作诗歌，它学会了“听从指令”，而不仅仅是自顾自地续写文字，这就让模型从一个“知识库”变成了一个可以交互的“助手”。

第三级火箭：从“会”到“精”，学会“投你所好”

即使经过了指令微调,模型可能还是会给出一些奇怪、冗长甚至有害的回答，怎么让它变得更靠谱、更符合人类的价值观呢？这就是最关键的第三步，也是ChatGPT真正脱颖而出的“杀手锏”——基于人类反馈的强化学习。

这个方法非常像训练宠物或者教小孩,模型会对同一个问题生成好几个不同的答案，对于“鸡蛋能放进微波炉吗？”这个问题，它可能生成A、B、C三个回答，人类评审员会对这些答案进行排序，比如认为A答案（详细解释了风险，最安全）最好，C答案（简单说可以）次之，B答案（说绝对不行，太绝对）最差。

（引用来源：OpenAI博客关于ChatGPT训练过程的介绍）这些排序数据并不会直接告诉模型“正确答案”是什么，而是被用来训练一个“奖励模型”，这个奖励模型的作用是学会判断什么样的回答是“好”的，什么样的回答是“坏”的，再让最初的ChatGPT模型面对大量问题，它每给出一个回答，就由这个奖励模型来打分，模型的目标就是不断调整自己，让自己说出来的话能获得尽可能高的分数。

通过这种不断的“试错”和“奖励”，ChatGPT最终被调教得越来越像我们期望的样子：有帮助、诚实且无害，它学会了拒绝回答不当问题，学会了用更清晰、更体贴的方式表达，也学会了在不确定时承认自己不知道。

ChatGPT的神奇能力,并不是一个神秘的黑盒子，它是一步步炼成的：先通过海量阅读打下语言基础，再通过指令学习掌握对话技能，最后通过人类反馈的不断打磨，变得善解人意，这背后，是巨大的算力投入、精妙的技术设计和无数人类智慧的共同努力，理解了这条技术脉络，我们或许就能更客观地看待它的能力与局限。

聊聊ChatGPT那些看似神奇的能力到底是怎么一步步炼成的，技术脉络全解析来了