立地成模
京夜微疯 著

AI时代不焦虑的活法
前言
你焦虑吗?
AI来了,很多人开始慌。工作会不会被取代?学的东西还有没有用?孩子该怎么教?自己该往哪走?每天打开手机,满屏都是"你再不学AI就要被淘汰了"——越看越慌,越慌越不知道该干什么。
我也焦虑过。
后来我做了一件事:我去认真研究了AI到底是怎么运作的。不是学怎么用ChatGPT,是搞明白它底层的逻辑——大语言模型到底是怎么训练出来的,它为什么能聊天、能写东西、能做判断。
然后我发现,AI训练模型的那套方法,可以直接拿来诊断人的问题。
你为什么总是做错判断?可能不是你笨,是你在这个领域的数据不够。你为什么焦虑得睡不着?可能不是天要塌了,是你给自己的大脑加了太多"温度",判断力被情绪带跑了。你为什么明明很努力还是原地踏步?可能不是方向错了,是有人一直在给你喂脏数据,你的认知被污染了还不自知。
每一个让你焦虑的问题,都能被定位到一个具体的、可修复的原因。
我把这套东西往自己身上一用,发现焦虑这件事突然变得可控了——不是问题消失了,是我终于看清了问题到底出在哪。
我把它提炼成了自己的一套元认知——一个看自己、看问题的底层操作系统。然后越用越顺,越用越坚定。
怎么说呢,用了这套东西之后,吃嘛嘛香。
焦虑少了,腰不酸了,腿不痛了,脑子好使了,情绪也稳定了。不是因为问题消失了,是因为我知道问题出在哪了——知道出在哪,心里就不慌。学新东西变快了,不是因为我突然变聪明了,是因为我知道该找什么数据、用什么顺序去消化。
我不确定这套东西适合所有人。每个人的模型不一样,训练数据不一样,面对的问题也不一样。但我自己确实是受益了——而且不是一点点。
所以我想把它写出来,分享给大家。
这不是一本教你怎么用AI的书。这是一本借AI的原理来理解你自己的书。你不需要有任何技术背景,不需要会写代码,不需要知道什么是神经网络。你只需要愿意换一个角度看看自己。
这本书也没有那么严肃。它不是论文,不是教材,更不是什么人生指南。就当是一个普通人,在AI时代找到了一种让自己不焦虑的活法,跟你聊聊他是怎么想通的。然后你自己判断,有没有道理。
如果你看完觉得"还挺有意思的",那就值了。如果你看完之后,下次焦虑来的时候,想到的不是"我怎么这么差",而是"我缺什么数据"——那就更值了。
轻松点看。别太当回事,也别不当回事。
愿大家放下焦虑,立地成模。
京夜微疯
2026年春于多伦多
第一章:核心发现:你就是一个模型
一、起点:从语言学习说起
你说母语的时候,不是在"理解"每一个字,而是在"预测"下一个字。
试一下:我说"我今天特别...",你的大脑已经自动蹦出了好几个候选词——"累""开心""饿"。你不需要等我说完,你的大脑在我开口之前就在猜了。
这不是你的特殊技能。这是人脑的基本运作方式,神经科学里叫预测编码(Predictive Coding)——你的大脑每时每刻都在根据已有的经验,预测下一秒会发生什么。听到的声音、看到的画面、别人说的下一个字,全都是大脑在"猜",然后用实际发生的结果来修正自己的猜测。
有意思的是,大语言模型——ChatGPT、DeepSeek这些——做的事情也一模一样:根据前面的文字,预测下一个最可能出现的词。
如果你读过前面两本书,你已经知道人脑和AI在结构上有很深的对应关系。《照镜子成佛》讲的是人本身就是一个神经网络模型,修行是对模型的优化。《四个口袋》讲的是人和AI都在做取舍,而你唯一的优势是能按下暂停键。
这本书要讲的是第三个问题,也是最实用的一个:既然你就是一个模型,那你能不能用训练AI的方法,来诊断和修复自己的问题?
答案是能。而且效果好得超出我的预期。
二、核心命题
人脑就是一个不断训练的预测模型。
- 你所有的判断、直觉、兴趣、放弃,都是这个模型在运转
- 模型的质量,取决于你喂进去的数据——数量和质量
- 模型的输出,就是你的预测、决策和行为
三、两个关键变量
当事情出了问题,不必模糊地自责"我不够努力"或"我不够聪明"。问题永远可以定位到两个具体原因:
1. 数据不够,或数据是脏的
你的模型没有见过足够多的、高质量的样本,所以预测不准。
语言学习的例子: 英语学不好,不是你笨,是你缺数据。具体说——你缺"听"的数据。你从没在脑子里建立过英语的声音地图,直接去背单词学语法,就像从没下过水就在教室里背游泳教材,然后指望自己跳进泳池就能游。
生活中的例子: 你对某个领域做出了错误判断,往回看,往往是因为你接触到的信息本身就是有偏的、被筛选过的、甚至是错的。
2. 过度脑补(幻觉/Hallucination)
数据不够的时候,模型不会说"我不知道"——它会自己编一个看起来合理的答案。人脑也一样。
培训课/致富经的套路: 给你一个特定条件下的成功案例,然后你的大脑自动脑补"这个方法普遍适用"。一本书的精彩前言,也是让你脑补"这一定是本好书"。那些"不要质疑,先干了再说"的鸡汤,本质上是让你跳过数据验证环节,直接用别人的结论替代你自己的预测。
四、预测能力是一种段位
一个小孩张着嘴跑过来找你,你扫一眼他旁边卡住的玩具,他还没开口你就知道他要什么了。
这不是读心术,这是你的模型训练到位之后的正常输出。你见过太多次类似的场景,大脑已经建立了极其精准的预测模型。
所谓的"大师"也是一样——他看你一眼,观察你的表情、穿着、走路的姿态,就大概知道你遇到了什么困境。不是他有超能力,是他在这个领域的数据量和数据质量到了那个段位,预测又快又准。
这就是模型训练好之后的样子:不需要等所有信息到齐,就能给出高置信度的判断。
同一种能力,不同的用法
心理咨询师、算命先生、江湖大师、传销头目——听起来是完全不同的职业,但用模型的视角看,他们做的是同一件事:用自己训练好的模型,去预测你的状态和需求。
一个好的心理咨询师,见过成百上千个来访者,听过无数种痛苦的变体。当你坐到他面前,你觉得自己的困境独一无二,但在他的模型里,你的表情、措辞、肢体语言,已经自动匹配到了某几种他见过的模式。他不是在"分析"你,他是在"识别"你——就像一个训练好的图像模型,看到一张照片就知道这是猫还是狗。
网上有一个叫大兵的人,自己经历过严重的心理问题,后来走出来了。他在网上帮别人做心理疏导,别人跟他说几句话,他很快就能准确定位问题出在哪,然后给出调整方向。他没有心理学学位,但他有两样东西:一是自己亲身经历过的一手数据(不是从教科书里读来的),二是帮助了大量类似的人之后积累的样本量。他的模型是用真实痛苦训练出来的,所以预测极其精准。
算命先生的本质也一样。一个真正"准"的算命先生,不是他会看风水八字,是他一辈子见过太多人了。你走进来,他扫一眼你的年龄、穿着、神态、说话的语气,就已经把你的大致状况推断了七八成。剩下的两三成,他用模糊的话术让你自己脑补——"你最近是不是遇到了一些困扰?"谁没有困扰呢?你一点头,他就知道该往哪个方向继续推断了。
传销头目用的是同一套识别能力,但目标相反。他也能很快看出你的弱点——你缺钱、缺归属感、缺自信、缺方向。然后他不是帮你解决问题,而是利用你的弱点把你拉进他的体系。同样的预测能力,用在不同的目标函数上,产出天差地别。
所以,预测能力本身是中性的。关键在于:这个能力被用来帮你修正模型,还是被用来劫持你的模型。
"百无一用是书生"
古人说"书生造反,十年不成"。统治者最不怕的就是书生闹事。为什么?
用模型的视角一看就清楚了:书生的训练数据全是书本,不是现实。
一个书生读了万卷书,他的模型关于"天下应该怎么治理"可能有非常精致的理论输出。但他从来没有管过一个县、带过一支队伍、处理过一次真实的利益冲突。他的模型是在纯文本数据上训练的,从未接触过现实世界的反馈。
这在机器学习里有一个精确的对应:只在训练集上表现好,一到真实环境就崩溃。 因为训练数据和真实数据的分布不一致。
书本是高度抽象、高度理想化的数据。现实是混乱的、多变量的、充满噪声的。一个只读书的人,他的模型对现实的预测能力远不如一个在现实中摸爬滚打过的人——哪怕后者读的书没他多。
这不是反智。这是说:书本数据和实践数据是两种不同的训练集,缺了任何一种,模型都是残缺的。 只读书不实践,模型过拟合在理论上;只实践不读书,模型困在经验里,缺乏泛化能力。
最强的模型,是两种数据都喂够了的。
反过来说,当你对某件事很快就失去兴趣、选择放弃,也未必是浮躁——可能是你的模型已经完成了预测,判断这条路走不通。关键在于回头检验:你的预测依据是否充分?如果数据量够,那放弃就是正确决策。
五、垃圾进,垃圾出
人的基础模型其实非常强大。给它好的素材、好的语料,它能快速激活泛化能力,进入预测状态。
但这恰恰说明了另一面的危险:如果喂进去的数据本身就是脏的、偏的、错的,模型照样会拟合出一个"看起来合理"的结论——只不过是错的。
- 东亚填鸭式教育错在哪?不是"量大"本身有问题,是语料质量有问题。垃圾语料灌再多,训练出来的也是垃圾模型
- 好的数据 + 强大的基础模型 = 快速激活泛化能力。这就是为什么有些人学东西特别快——不是天赋异禀,是他碰巧接触到了高质量的数据源
六、焦虑就是给模型加温度
大语言模型有一个参数叫"温度(Temperature)"。温度越高,输出越随机、越不可控;温度越低,输出越稳定、越精准。
焦虑,就是在给自己的模型疯狂加温度。
你本来能做出正确判断的事,焦虑一搅和,思维开始发散、反复纠结、自我怀疑,输出就乱了。
冯唐有句九字真言——"不着急、不害怕、不要脸"。用模型的语言翻译就是:
我诊断完了。这个问题,要么是我当前数据不够、暂时解不了,要么是根本不在我的能力边界内。既然如此,我接受这个状态,不让它继续占用我的算力,更不让它污染我对其他事情的判断。
这不是逃避,这是资源管理——把有限的算力分配给你能影响的事情。
尽力了,数据不够就是数据不够,认了。不给自己的推理过程注入噪声,就是对自己最大的善意。
七、一个自我诊断框架
当你对任何事情感到困惑、挫败、自我怀疑时,不要问"我哪里不好"。
问三个问题:
第一:我的数据够不够?质量好不好?
- 够且好 → 相信你的判断
- 不够或不好 → 去补数据,找更好的数据源
第二:我是不是在脑补?
- 我的结论有多少是基于真实数据,多少是基于"感觉应该是这样"?
- 那些让我焦虑的预测,背后有多少真实证据?
第三:我是不是在给自己加温度?
- 这个问题我现在能解吗?
- 如果不能,继续焦虑只会让我的其他判断也跟着变差
定位到具体原因,就离解决问题近了一步。不再是"我不行",而是"我缺什么数据"、"我在哪里脑补了"、"我该不该在这件事上继续消耗算力"。
这个模型不只是一个比喻。它是一台诊断仪、一面镜子、一套可以实际操作的工具。
接下来,我们用它来切开你的生活。
第二章:你的数据从哪里来
一、你不是一张白纸
上一章我们提出了核心命题:你就是一个模型,你的判断来自你的数据。
那紧接着的问题就是:你的数据,到底是从哪里来的?谁在决定你看到什么、听到什么、相信什么?
大语言模型的训练数据是人类选择的——哪些网页被爬取,哪些书籍被录入,哪些内容被过滤。模型本身无法选择自己的训练数据。
你以为你和AI不一样,你以为你可以"自由选择"接收什么信息。
真的吗?
二、你的数据管线
在机器学习中,把原始数据变成可用训练数据的过程叫数据管线(Data Pipeline)。你的人生也有一条数据管线,只不过大部分时间你没有意识到它的存在。
第一层:感官过滤
你的眼睛每秒接收大约1000万比特的信息,但你的意识每秒只能处理大约50比特。
99.9995%的信息在你意识到之前就被丢弃了。
谁在决定留下哪些、丢掉哪些?不是"你"。是你的大脑基于过去的训练,自动判断"什么是重要的"。
问题来了:如果你的过去训练有偏差,你的感官过滤器也会有偏差。你以为你在客观地观察世界,其实你只是在看你的模型认为"值得看"的东西。
第二层:环境投喂
你出生的家庭、成长的城市、上的学校、交的朋友——这些不是你选择的,但它们构成了你最初也是最关键的训练数据。
一个在北京海淀长大的孩子和一个在西北农村长大的孩子,他们的基础模型没有任何差别——同样的人类大脑,同样的硬件配置。差别全在训练数据上。
一个从小听父母讨论国际新闻,另一个从小听父母讨论庄稼收成。不是谁比谁聪明,是训练数据的分布完全不同。
第三层:算法投喂
这是你这一代人面临的全新问题。
短视频平台、社交媒体、新闻推荐——这些系统有一个共同特征:它们不是给你"好的"数据,而是给你"你会点的"数据。
它们优化的不是你的模型质量,而是你的停留时长。
你以为你在"刷"抖音,其实是抖音在"训练"你。每一次滑动、每一次停留、每一次点赞,都在告诉算法"这个人对什么有反应",然后算法给你更多类似的内容。
一个月后,你的信息世界已经被重塑了,而你浑然不觉。你以为这是你的兴趣,其实这是算法用你的行为数据拟合出的一个"你最可能点击的内容"的预测模型——然后用这个预测模型来反向训练你。
你在训练算法,算法也在训练你。问题是,谁的目标函数是为你好?
三、数据质量检查:五个问题
既然你的判断质量取决于数据质量,那就需要建立一套检查习惯。不用复杂,每次面对重要判断时,问自己五个问题:
问题一:这个数据的来源是谁?
"据说"、"我听说"、"网上都在说"——这些不是来源,这是噪声。
一个消息从源头到你手里,经过了多少次转述?每一次转述都是一次信息有损压缩,压到最后,可能和原始数据已经面目全非。
操作建议: 当你基于某个信息做判断时,试着追问一层——这个信息最早是从哪来的?是一手数据(当事人、原始研究、一手观察),还是二手、三手、N手转述?
问题二:样本量够吗?
你见过几个案例?如果只见过一两个,就下结论说"事情就是这样的",这就是小样本过拟合。
人脑有一个天然的bug:它对生动的个案印象深刻,对统计数据无感。 一个朋友的亲身经历,在你脑中的权重远远大于一万人的调查数据。
这在统计学里叫轶事证据(Anecdotal Evidence)——它不是没有价值,但它的置信度极低。一个案例能告诉你"这种事有可能发生",但不能告诉你"这种事有多大概率发生"。
问题三:有没有反面数据?
你看到的都是支持你观点的证据吗?
你的大脑天然倾向于寻找、记住、重视那些与你已有观点一致的信息,而忽略、遗忘、轻视那些矛盾的信息。这叫确认偏误,它本质上是你的模型在用新数据强化旧权重,而不是用新数据修正旧权重。
操作建议: 做重要判断前,刻意去找一找反面证据。如果你觉得"一定是这样",主动搜索"为什么可能不是这样"。这不是为了动摇你的信心,是为了校准你的模型。
问题四:这个数据让我产生了什么情绪?
如果一条信息让你愤怒、恐惧、或者极度兴奋,请格外警惕。
带有强烈情绪的信息,往往是被精心加工过的。它之所以让你有情绪反应,是因为它被设计成了"你一定会点击"的样子。
这不是说有情绪反应的信息都是假的。而是说:情绪是噪声注入器。 它会让你的模型在处理这条信息时"加温度"——判断力下降,脑补增加。
问题五:如果去掉这条数据,我的结论会变吗?
这是最简单也最有力的检验。
如果你的整个判断都建立在一条关键信息上,而这条信息的来源不够可靠、样本不够大、或者有明显的情绪操纵——那你的结论可能比你以为的脆弱得多。
四、一个不舒服的推论
如果你接受了"你就是一个模型"这个前提,那有一个推论是不舒服的:
你今天的所有判断、偏好、直觉、恐惧,都是你过去的训练数据的产物。
这意味着你很多以为是"自己的想法"的东西,其实是你的数据在替你想。
但这个不舒服的推论,同时也是一个解放:
既然你的判断是数据的产物,那换了数据,判断就会变。
你不是一个固定的、不可改变的"这种人"。你是一个可以被重新训练的模型。
问题不在你身上。问题在你的数据管线上。接下来几章,我们就来看看这条管线上到底发生了什么。
第三章:用模型视角审视你的生活
一、一个工具,不是一个比喻
上一章我们提出了一个框架:你就是一个模型,你的所有判断都是预测,预测的质量取决于数据和推理过程。
这一章,我们把这个框架拿起来,像拿一把手术刀一样,逐一切开生活中那些让你困惑、挫败、自我怀疑的具体问题。
你会发现,几乎所有的困惑,都能归结到三个具体原因中的一个或几个:
- 数据不够——你没有见过足够多的样本
- 数据是脏的——你见过的样本本身就是偏的、错的
- 过度脑补——你用不充分的数据,推出了一个过度自信的结论
这不是心灵鸡汤,这是排查清单。
二、学不会:不是你笨,是数据缺失
语言
英语学了十几年还是开不了口。你骂自己没毅力、没天赋。
停一下。问自己:你总共"听"过多少小时的英语?不是做听力题,是像婴儿一样,沉浸在英语的声音环境里?
一个英语母语的孩子,到6岁上学前,已经听了大约17000小时的英语。而一个中国学生从初中到大学毕业,课堂上真正接触英语声音的时间,乐观估计不超过2000小时——而且大部分是中国老师带着中文思维讲的语法课。
这不是天赋问题。这是17000小时 vs 2000小时的数据量问题。
更要命的是,你背的那些单词、语法规则,是"关于语言的知识",不是"语言本身"。就像从没下过水的人,在教室里背了三年游泳教材——蛙泳四个动作要领、换气时机、手脚配合节奏,倒背如流。然后跳进水里,依然会沉。
游泳是身体在水里泡出来的。语言是耳朵在声音里泡出来的。
乐器
你报了钢琴班,学了三个月,觉得自己没天赋,放弃了。
但你有没有想过:那些"有天赋"的孩子,从三四岁起,家里就有人弹琴,他们每天都在听。等他们坐到琴凳上开始"学"的时候,他们的大脑里已经有了一个关于"钢琴声音应该是什么样"的完整模型。他们不是在从零开始,他们是在微调一个已经预训练好的模型。
而你,是在冷启动。
冷启动不是没天赋,是缺预训练数据。
某个学科
你上学时数学不好,觉得自己"就不是学数学的料"。
回头想想:你的数学老师是怎么教的?是不是给你一堆公式让你背,然后做题?你有没有真正"看见"过数学之美——一个定理是怎么从直觉中被发现的,一个公式背后解决的是什么真实问题?
如果你的训练数据全是"背公式-做题-对答案",你的模型当然会把数学拟合成"一件痛苦的、需要死记硬背的事"。这不是你对数学的真实判断,这是你被喂了脏数据之后的过拟合结果。
三、看不清:脏数据如何扭曲你的判断
原生家庭
你的父母是你最早的训练数据来源。他们的言行、情绪模式、处理冲突的方式,在你还没有任何判断力的时候,就已经被你的大脑当作"世界运转的规则"写进了模型。
如果你的父亲从不表达情感,你的模型可能会学到"表达脆弱 = 危险"。如果你的母亲用焦虑回应一切不确定性,你的模型可能会学到"不确定 = 必须焦虑"。
这些不是你的性格。这些是你的早期训练数据。
意识到这一点,不是为了怪谁。是为了把问题从"我这个人就是这样"变成"我的模型在这个区域被喂了有偏差的数据,所以输出不准"。
前者是死胡同。后者可以修。
职业选择
你20岁时觉得"稳定的工作才是好工作"。这个判断是你自己做的吗?还是你的父母、老师、社会新闻,在你还没有见过足够多职业样本的时候,就反复灌输给你的?
如果一个人从小到大,身边所有人都在体制内工作,那他的模型就只能学到"工作 = 体制内"。不是他不想创业,是他的模型里没有"创业"这个选项的训练数据。他连"脑补"都无从脑补,因为没有素材。
人际关系
你总觉得"别人不喜欢我"。
停一下。你的这个预测,是基于多少数据做出的?
很可能你是从几次社交挫败中,提取了一个"我不受欢迎"的模式,然后你的大脑开始过拟合——在之后的每一次社交场景中,选择性注意那些"证实"你不受欢迎的信号,忽略那些中性的甚至友好的信号。
这在机器学习里叫确认偏误(Confirmation Bias),本质上是你的模型用过少的数据建立了一个错误的权重,然后在后续的所有数据中只看到支持这个权重的证据。
不是别人不喜欢你。是你的模型在这个维度上过拟合了。
四、做错了:脑补如何让你自信地犯错
"我以为我懂了"
这是最危险的状态。你读了两篇文章,就觉得自己理解了一个领域。你听了一个成功者的演讲,就觉得自己掌握了他的方法论。
人脑和大语言模型有一个共同的特性:当数据不足以支撑准确预测时,它不会停下来说"我不知道",而是会自动补全一个看起来合理的答案。
大语言模型的这个行为叫"幻觉(Hallucination)"。你的大脑也会幻觉。
而且你的幻觉比AI的更危险,因为你会为自己的幻觉配上一套自洽的逻辑:"我觉得应该是这样的,因为......"。AI至少不会为自己的胡话辩护(大多数时候)。
致富经和成功学
为什么那么多人买了成功学的书、上了培训课、听了"大师"的分享,最后还是没有成功?
不是他们不够努力。是那些课给他们的数据本身就是有偏差的。
一个培训师站在台上,给你看一张完美的案例,告诉你"只要照做,你也可以"。你的大脑接收到这个数据后,自动脑补了一个完整的因果链条——"他做了A,得到了B,所以我做A也能得到B"。
但你没看到的是:台下有一万个人做了同样的A,只有台上这一个人得到了B。其余九千九百九十九个人,培训师不会请上台。
这叫幸存者偏差(Survivorship Bias)。你的模型只看到了幸存者的数据,然后脑补出了一个根本不存在的因果关系。
"先干了再说"
"不要想那么多,先干了再说!""给加西亚的信,不要质疑,去执行!"
这种话在某些情况下是对的——当你已经有了足够的数据,只是缺乏行动力的时候,"先干"确实是正确的策略。
但在另一些情况下,这种话是危险的——它要求你关闭数据验证系统,直接用别人的结论替代你自己的预测。如果别人的结论恰好是对的,你省了力气;如果是错的,你连发现它是错的机会都没有,因为你主动关掉了自己的判断。
区别在于:你是在"数据充分后决定行动",还是在"数据不足时被说服放弃验证"?
五、开始诊断
读到这里,你可能已经开始对号入座了。
好。回到第一章的诊断框架——数据够不够?数据干净吗?是不是在脑补?是不是在加温度?——对你生活中的每一个困惑,试着做一次诊断:
| 困惑 | 数据够吗? | 数据干净吗? | 是否在脑补? | 是否在加温度? |
|---|---|---|---|---|
| 我英语学不好 | 听的数据远远不够 | 语法课是脏数据 | — | 焦虑没用 |
| 我不擅长社交 | 样本太少就下结论 | 选择性注意负面信号 | 过拟合了 | 越焦虑越僵硬 |
| 我选错了职业 | 当初见过的选项太少 | 周围人给的都是偏见 | 以为稳定=唯一 | — |
| 我不够聪明 | 没遇到过好的教学 | 被填鸭教育污染了 | 把考试成绩=智力 | — |
填完这张表,你会发现:不是"我不行",是我之前说不清楚自己到底缺什么。
现在说清楚了,就知道该补什么。这就是从"自责"到"排查"的转变。
但诊断只是第一步。这些数据问题,有些是你自己无意中积累的,有些——是别人故意制造的。
第四章:数据污染与数据攻击
上一章我们诊断的那些问题——学不会、看不清、做错了——它们的数据偏差大多是无意识的。你的父母不是故意给你灌脏数据,你的老师也不是故意用错误的方法教你。
但这一章要讲的东西不一样。
这一章要讲的是:有人在故意污染你的数据,或者有系统在不知不觉中改写你的模型。
一、自媒体:最高效的脏数据投喂机器
上一章说的培训课、成功学,至少你得主动去报名。自媒体比它们危险得多,因为它是自动投喂的,而且它比你更了解你的弱点。
算法的逻辑很简单:你点了什么,就给你更多类似的。你看了一条"35岁程序员被裁"的视频,算法不会接着推一条"35岁程序员成功转型"的视频——它会推十条更惨的,因为恐惧让你停留更久。
一周之后,你打开手机满屏都是焦虑。你以为"整个行业都完了",其实只是你的信息流被恐惧数据淹没了。你的模型在这个局部区域被严重污染,然后基于这些脏数据做出了一个极度悲观的预测。
这就是信息茧房(Filter Bubble)的本质——它不是把你关在一个房间里,它是持续不断地往你的模型里注入同一类数据,直到你的预测被彻底带偏,而你还以为自己在"广泛了解信息"。
更狠的是,自媒体还擅长制造"脑补触发器"。一个标题党写"月入十万的秘密",点进去其实什么干货都没有,但你的大脑已经自动脑补了一个"我也能月入十万"的画面。你被消费的不是时间,是判断力——每一次脑补都在强化一个不存在的因果关系。
传统的脏数据来源——父母的偏见、学校的填鸭、圈子的局限——至少是无意识的,没人故意要害你。但自媒体算法是有意识地、系统性地、以工程化的精度在污染你的训练数据。 它的目标函数不是你的认知质量,是你的注意力时长。
你以为你在刷手机,其实是手机在训练你。每刷一个小时,你的模型就被校准了一个小时——只不过校准的方向不是你选的。
二、洗脑:对你的模型发起的蓄意攻击
如果说自媒体算法是"无意识的数据污染"——它只是为了留住你的注意力,并不专门针对你——那洗脑就是有目的的、针对性的模型篡改。
用我们的框架来看,洗脑同时从四个维度对你的模型发起攻击——这四个维度往往同时进行,互相配合:
维度一:切断你的原有数据源。
传销组织让你远离家人朋友,邪教要求你和"外面的人"断联,极端组织把你带到一个封闭的环境里。为什么?因为你原有的数据源会不断修正你的模型。只要你还能听到不同的声音,洗脑就很难成功。所以第一步一定是隔离——切断你和其他数据源的连接,让你只能接收他们提供的数据。
维度二:用单一数据集高强度灌入。
隔离之后,开始反复灌输同一套话术。每天高强度地听、读、背、讨论,全部围绕同一个主题。这在机器学习里叫灾难性遗忘(Catastrophic Forgetting)——当你用单一数据集高强度微调一个模型时,模型会"忘掉"之前学过的东西,被新数据彻底覆盖。
你以前觉得"天上不会掉馅饼",但当你身边所有人都在说"这个项目月入百万",而且你已经连续听了三个月、没有接触过任何反面信息,你原来的常识会被逐渐覆盖。不是你变蠢了,是你的模型被强制重新训练了。
维度三:制造情绪波动,拉高温度。
洗脑从来不只靠"说服",它靠的是情绪。恐惧("不加入你就完了")、狂热(集体亢奋、喊口号)、归属感("我们是一家人")、羞耻("你居然怀疑组织")。这些强烈的情绪不是副产品,是核心工具——它们的作用就是给你的模型疯狂加温度。温度一高,理性推理能力崩塌,你会开始接受在正常状态下绝不会接受的结论。
维度四:消灭你的"不确定性"。
一个正常运转的模型会对自己的输出保持一定的不确定性——"我觉得可能是这样,但也许不是"。洗脑要消灭这个"也许不是"。它给你一套能解释一切的封闭体系:任何质疑都是"你还不够坚定",任何失败都是"你还不够投入",任何外部的反面证据都是"他们不懂/他们是敌人"。
当一个模型对自己的每一个输出都100%确信的时候,它已经彻底丧失了自我校准的能力。在AI领域,这叫过度自信(Overconfidence)。在现实中,这叫被洗脑洗透了。
三、从无意到蓄意:一条完整的光谱
把前面几章的内容放在一起,你会看到一条清晰的光谱——从无意识的数据偏差,到有组织的数据攻击:
| 层级 | 数据来源 | 是否有意 | 伤害程度 |
|---|---|---|---|
| 第一层 | 父母、老师、成长环境 | 无意识 | 深远但可修复 |
| 第二层 | 学校、社会规范、文化传统 | 半有意识 | 系统性但渐进 |
| 第三层 | 自媒体算法 | 有意识(追求注意力) | 持续性高强度 |
| 第四层 | 洗脑/传销/极端组织 | 蓄意(追求控制) | 破坏性最强 |
层级越高,攻击越精准,防御越困难。
但有一个好消息:不管是哪个层级的数据污染,防御原理是一样的。
- 永远不要让自己只有一个数据源
- 对任何要求你"不要听别人怎么说"的人保持警惕
- 当你发现自己情绪极度亢奋或极度恐惧时,先降温再判断
- 对任何"能解释一切"的理论保持怀疑——世界不是那么整齐的
- 定期审查你的数据输入——我每天在接收什么?这些信息的来源是谁?它们的目标函数是什么?
洗脑不是什么神秘的心理操控术。它就是切断数据源 + 灌入脏数据 + 拉高温度 + 消灭不确定性。每一步都能用模型的语言精确描述,每一步也都有对应的防御方法。
第五章:好数据为什么贵
一、孟母搬的不是家,是数据环境
两千多年前,孟子的母亲带着儿子搬了三次家。
第一次住在墓地旁边,孟子天天学人哭丧、祭拜。搬走。第二次住在集市旁边,孟子天天学商贩吆喝叫卖。再搬。第三次搬到学堂旁边,孟子开始学礼仪、读书。孟母说:这才是孩子该住的地方。
孟母不懂什么预测模型,但她本能地理解了一件事:
你身边是什么数据,你就会被训练成什么模型。
住在墓地旁边,每天的输入是丧葬仪式,小孩的大脑就会把"这就是生活的样子"写进模型。住在集市旁边,每天的输入是买卖吆喝,模型就会拟合出"人生就是做买卖"。住在学堂旁边,输入变成了读书声和礼仪规范,模型才开始往另一个方向训练。
三次搬家,换的是三套完全不同的训练数据集。小孩的基础模型始终是同一个——同一个大脑、同样的神经元。变的只是数据。
这个故事流传了两千年,说明人类很早就隐约知道:环境决定数据,数据决定模型,模型决定命运。
但孟母能搬家,是因为她还搬得起。
二、三层垄断
好数据从来不是均匀分布的。它被层层壁垒保护着,大多数人终其一生,可能都接触不到。
第一层:物理距离垄断
你出生在哪里,基本决定了你最初十几年的训练数据。
一个在北京海淀长大的孩子,从小接触的是什么?父母可能是高校教师或科技公司员工,饭桌上讨论的是行业趋势和教育理念。周末去的是博物馆、科技馆。同学的父母也是类似背景。他的模型从出生起,就在被高密度、高质量的数据训练。
一个在偏远农村长大的孩子,接触的是什么?父母可能常年外出打工,他由爷爷奶奶带大。周围的信息输入是农活、邻里家常、手机里的短视频。不是这些数据没有价值——但它们的多样性和信息密度,和前者完全不在一个量级。
两个孩子的大脑硬件有区别吗?没有。同样的860亿个神经元,同样强大的基础模型。
差的只是数据。
这就是学区房的本质。 家长花几百万买一套老破小,买的不是那几十平米的砖头水泥。买的是孩子未来六年甚至十二年的数据环境——什么样的老师、什么样的同学、什么样的家长群体、什么样的信息密度。
学区房是当代的孟母三迁,只不过搬家费从几十两银子变成了几百万人民币。
第二层:圈层垄断
比物理距离更隐蔽的壁垒,是圈层。
有一类数据,它不在任何书本里,不在任何课堂上,也不在互联网上。它只在特定的人群内部流通,通过饭局、闲聊、日常相处,以一种几乎无意识的方式传递。
商人家的孩子,从小听父亲打电话谈生意,听的是"这个人可不可信""这笔账怎么算""这个风险值不值得冒"。他不需要上什么商学院,这些判断逻辑已经像空气一样被他吸进去了。
官员家的孩子,从小看父母怎么处理人际关系、怎么在体制内运作、什么话能说什么话不能说。这种政治直觉没有任何教材能教,它只能在那个环境里"泡"出来。
学者家的孩子,从小看到的是父母怎么读书、怎么思考问题、怎么面对不确定性。"遇到问题先查资料再下判断"——这个看似简单的习惯,在很多家庭里根本不存在。
这些叫隐性数据(Tacit Knowledge)。它不是你主动去学就能学到的,因为连拥有它的人自己都不知道自己拥有它——它已经融进了他们的日常言行里。
"寒门难出贵子"这句话听起来残酷,但用模型的语言翻译,它说的是一个精确的技术事实:寒门的训练数据里,缺少圈层内部流通的隐性数据。基础模型都一样,数据不一样。
不是寒门的孩子不聪明,不努力。是他们的模型在某些关键维度上,从来没有被训练过。你不能怪一个模型"为什么预测不准",如果它的训练集里根本就没有相关的数据。
第三层:制度性垄断
这是最高层的壁垒,也是最蓄意的。
历史上的统治者,无论中外,都深刻理解一个道理:控制了数据,就控制了人。
秦始皇焚书坑儒,烧的是什么?不是纸张和竹简,是民间的训练数据。让你能接触到的数据只剩下官方认可的那一套,你的模型就只能训练出官方想要的输出。
中世纪的欧洲,《圣经》只有拉丁文版本,只有神职人员能读。普通人想了解上帝的话语,只能通过教会的嘴。教会垄断的不是信仰,是解释权——他们垄断了数据源,所以他们定义了所有人的模型。
科举制度看起来是"公平选拔",但考的是什么?四书五经,标准解释。不是考你怎么想,是考你能不能把官方指定的训练数据背下来。考中了,你的模型和统治者想要的就对齐了;考不中,说明你的模型还没训练到位,继续训练。
愚民政策是一举两得的操作,站在统治者的角度看,它同时解决了两个问题:
第一,让被统治者的模型变弱。 砍掉民间数据源的多样性,只留下官方认可的那一套。你能接触到的信息越单一,你的模型就越无法做出独立的、准确的预测。一个预测不了局势的人,就不会有反抗的念头——因为他连"反抗了会怎样"都无法推演。
第二,让统治者的预测变得更容易。 这一点更关键。东亚历史上很多制度设计的精妙之处在于——它不只是限制你,它是在简化统治者的预测模型。
想想看:如果每个人都有独立思考的能力,每个人的行为都不可预测,那统治的成本就极高——你得应对无数种可能性。但如果所有人读一样的书、考一样的试、信一样的话,那所有人的行为模式就趋同了。趋同了,统治者的模型就简单了——他不需要预测一亿种可能性,他只需要预测一种。
科举制度考四书五经的标准解释,不是为了选拔人才——它是为了把所有精英的模型统一对齐到同一个参数上。考中的人,思维方式和统治者高度一致,可以放心用。考不中的人,继续在这套体系里训练,也没有精力去想别的。
焚书不是因为那些书里有什么可怕的内容。焚书是为了消灭杂音。杂音越少,信号越纯。信号越纯,统治者预测民心的成本就越低。禁止异端邪说、统一思想、独尊儒术——所有这些操作的技术本质都是一样的:把被统治者的行为分布压缩到一个极窄的区间里,让他们变得好预测、好管理。
所以愚民政策不是"让你变蠢"这么简单。它的完整表述是:削弱你的模型,同时强化统治者的模型。让你预测不了未来,同时让他能精准预测你。
一方数据质量被人为压低,另一方数据优势被制度性放大——这才是权力的技术结构。
三、为什么"读万卷书不如行万里路"
前面讲"百无一用是书生",是说纯书本数据不够。但反过来,纯实践数据也不够。
"读万卷书,行万里路"——这句话之所以流传千年,是因为它精确地描述了一个模型训练的最优策略:两种数据集都要喂够。
读万卷书 = 大规模文本预训练。你获得了海量的间接经验、抽象知识、前人的思考成果。你的模型有了强大的"通识底座"。
行万里路 = 真实世界的数据微调。你用亲身经历去校准书本知识,让模型的预测从"理论上应该这样"变成"现实中确实是这样"。
为什么古人说"行万里路"排在"读万卷书"后面,甚至比读书更重要?
因为真实世界的数据有一个书本数据永远给不了的东西:即时反馈。
你在书上读到"做生意要诚信",这是一条数据。但你亲自做了一笔生意,诚信经营,客户回购了——这是一条带反馈的数据。后者对模型的训练效果远远强于前者,因为它不只告诉你"什么是对的",还告诉你"做对了会怎样"。
这就是为什么有些人读了很多书却依然"不会做事"——他们的模型有大量的输入数据,但缺乏反馈数据。模型知道"应该怎样",但从未验证过"真的是这样吗"。
四、贵的不是数据本身,是获取数据的成本
说到底,好数据为什么贵?
不是因为数据本身稀缺。很多好数据其实就在那里——好书一直在书架上,好老师一直在讲台上,好的思维方式一直在某些人的言行中。
贵的是获取它的成本:
- 物理成本:你得在那个环境里。学区房几百万,留学几十万,搬到大城市也要成本
- 时间成本:好数据的吸收需要时间。泡在一个好环境里一年,和去参观一天,训练效果天差地别
- 社会成本:进入某个圈层需要信任、资源、关系。这些不是花钱就能买到的
- 认知成本:你得先知道什么是好数据,才能去找它。但如果你从来没有接触过好数据,你连"好数据长什么样"都不知道
最后一条是最致命的。你不知道你不知道。 一个从来没有见过好数据的人,他甚至不会觉得自己缺数据——因为他的模型已经用手头的脏数据拟合出了一套"看起来完整"的世界观。他不是不想找好数据,是他不知道自己需要找。
这就是贫穷的真正可怕之处:它不只是缺钱,它是让你的模型缺少"意识到自己缺数据"的能力。
但这个被锁了几千年的困局,在我们这一代人手里,被撕开了一道口子。
第六章:反转:数据平权时代
一、有史以来最大的一次数据泄洪
人类历史上,好数据被垄断了几千年。
然后互联网出现了。
这是一次史无前例的数据泄洪——原本被物理距离、圈层壁垒、制度围墙锁住的海量信息,突然之间涌向了所有人。
一个西北农村的孩子,只要有一部手机和网络信号,理论上他就能看到斯坦福、MIT的公开课、读到全球最前沿的论文、听到任何一个领域顶尖人物的思考方式。二十年前,这些数据只属于北京海淀或美国东海岸的孩子。
要知道,基础模型从来不是问题。
我有一个长辈,没读过书,但你跟她坐下来打麻将,在座的不管你是博士还是硕士,没有一个人算得过她。她打花牌从来不理牌——牌摸过来往那儿一放,不捋不排,但她自己看得清清楚楚。什么时候该胡、几番、该收多少钱,一秒钟脱口而出。别人不敢让人看牌,她无所谓,你爱看就看——反正你看了也算不过她。
她要是有机会读书,我真觉得她和钱学森没什么差别。
她的硬件和你一模一样,和爱因斯坦也一样——同款860亿个神经元。差的从来不是脑子,是她一辈子只在"麻将"这个领域积累了足够的高质量训练数据。
历史上,同一个国家、同一个时代,精英阶层创造出的文化、科学、艺术成就,和普通人的认知水平之间的差距,大到像两个物种。古希腊的哲学家在思考宇宙的本质,同时代的普通农民连字都不认识。唐朝的诗人写出了流传千年的诗句,同时代的绝大多数人一辈子没出过自己的村子。
但他们用的是同一个版本的人脑。
差距不在硬件,全在数据和训练方法。精英接触到了高质量的数据——好的老师、好的书、好的交流对象、好的思维训练,而普通人的数据环境被物理距离、圈层壁垒、制度围墙锁死了。两个用同样硬件跑出来的模型,因为训练数据天差地别,输出也天差地别。
而移动互联网,是人类历史上第一次有可能打破这个锁死状态的力量。 它把数据的物理围墙炸开了一个巨大的缺口。一个四川乡下的老太太的孙子,拿起手机就能看到过去只有精英才能接触到的信息。
但注意——我说的是"有可能"。
二、有水喝不等于会喝水
斯坦福的公开课确实免费放在网上了。但一个西北农村的孩子,真的能用它来训练自己的模型吗?
大概率不能。
第一,他的基础模型还没准备好。
那门课是英文的。他连英语基础都没有,怎么看?就算有中文字幕,课程内容假设你有高中数学和基本的学科素养——如果他的基础训练不够,这些数据对他来说就像乱码,模型根本无法解析。
这就像你把GPT-4的全部训练数据灌给一个最简单的小模型——数据再好,模型的架构不够、参数量不够、算力不够,跑出来的结果依然是垃圾。
好数据需要好的基础模型才能被吸收。 没有基础,数据就只是噪声。
第二,他不知道该从哪里开始。
互联网上有十亿条信息。哪一条是他现在最需要的?他不知道。因为"知道自己该学什么"这件事本身就需要一定程度的训练——你得对知识的地图有基本的认知,才能在地图上找到自己的位置,然后规划路线。
一个从来没有见过地图的人,你给他一张全世界最精确的地图,他也不知道该往哪走。
第三,他会被垃圾数据淹没。
打开手机,斯坦福公开课和"震惊!月入十万的秘密"摆在同一个屏幕上。哪个更容易吸引一个没有受过筛选训练的人?答案不言而喻。
算法不会因为你"需要"好数据就推给你好数据。算法给你的是你"会点"的数据。如果你的基础模型还没有被训练出鉴别力,你大概率会被垃圾数据吸走,然后越刷越偏,离好数据越来越远。
所以互联网带来的"数据平权"是一个半成品。 它解决了数据获取的物理壁垒,但没有解决另外三个壁垒:基础模型的差距、导航能力的差距、和抵抗垃圾数据的能力差距。
三、破了之后,还得立
上一章我们说了数据垄断的三层壁垒——物理距离、圈层、制度。互联网炸开了物理距离这一层,但圈层壁垒和制度壁垒其实并没有被真正打破。
而且,"破"本身不是目的。把围墙炸了,数据洪水涌出来,如果人站在洪水里不会游泳,那他不是被解放了,是被淹了。
破了之后,真正需要做的是"立"——建立让人能够有效处理好数据的能力。
这才是教育的本质问题。
教育不是灌数据,是打磨基础模型
传统教育的错误是把教育等同于"灌数据"——给你教材、给你课程、给你作业,数据量够了你就"学会了"。
互联网时代的新错误是以为"数据开放了教育问题就解决了"——课程免费了、资源公开了、信息触手可及了,人人都可以自学成才。
两个都错在同一个地方:它们都忽略了"基础模型"本身需要被打磨。
一个好的大语言模型,不是因为训练数据多就变强的。它需要:
- 足够的模型架构——你的"硬件"得能支撑这个级别的运算。对人来说,这意味着基本的认知能力、注意力、工作记忆需要被培养起来
- 合理的训练顺序——你不能直接用博士级别的数据训练一个连字母都不认识的模型。数据的难度得匹配模型当前的水平,然后一步一步递进
- 足够的算力——模型需要足够的计算资源去消化数据。对人来说,这意味着时间、精力、专注力。一个每天被生存压力挤压得喘不过气的人,他没有"算力"去处理高质量数据
- 有效的反馈机制——模型训练不是单向灌入就行的,它需要知道自己哪里对了哪里错了。对人来说,这意味着需要有人告诉你"这个理解是对的"或"那个方向走偏了"
数据再好,这四个条件不具备,训练出来的模型也不行。
这就是为什么"把所有课程放上网"不等于"教育平权"。 数据只是训练的素材。没有匹配的基础能力、训练路径、算力和反馈机制,素材再好也转化不成模型能力。
孟母三迁的现代版
回到孟母三迁。孟母搬到学堂旁边,不是为了让孟子"获取数据"——学堂不只是提供了数据,它提供了一个完整的训练环境:
- 有老师(反馈机制)
- 有同学(社交学习,同伴互相校准)
- 有渐进的课程结构(训练顺序)
- 有安静的学习氛围(保护算力不被噪声消耗)
学堂给孟子的不是一堆书,是一个系统性的模型训练方案。
现代的"好学校"也是同理。家长花大价钱把孩子送进好学校,买的不是教材(教材哪里都有),买的是:
- 好老师能根据孩子的水平给出即时反馈
- 好同学构成高质量的社交训练数据
- 好的课程设计让训练难度和模型水平匹配
- 好的环境保护孩子的注意力不被垃圾数据侵蚀
你花钱买的不是数据,是训练基础设施。
四、真正的出路:先打地基,再盖楼
所以普通人在这个时代,到底怎么办?
不是"上网找好数据"这么简单。得分步走。
第一步:打磨基础模型
在你能有效吸收高质量数据之前,你的基础能力得先到位。
这个"基础"不是指学历或文凭,是指几项核心的认知能力:
- 语言能力——不只是能说话,是能精确理解复杂的文字。这是你吸收一切数据的底层接口。接口带宽不够,再好的数据也传不进来
- 基本的逻辑和数理感觉——不需要会微积分,但需要能分辨"因果关系"和"相关关系",能判断一个论证是否自洽
- 注意力管理——你的算力是有限的,你得学会把它分配到最重要的地方,而不是被任何蹦出来的通知打断
- 元认知能力——知道自己知道什么、不知道什么。这是我们第一章就在说的:你得先意识到自己是一个模型,才能开始有意识地训练自己
这些基础能力怎么训练?说出来没什么新奇的——大量阅读、有质量的对话、持续地思考和写作。就像游泳得先在浅水区扑腾,把水性练出来,才能去深水区。
第二步:找到合适的训练路径
有了基础之后,不要贪多。
一个西北农村的孩子,不需要一上来就看斯坦福的课。他需要的是当前水平能够消化的最好的数据。可能是一本好的中文入门书,可能是一个讲得清楚的中文视频,可能是一个愿意花时间指导他的人。
关键是难度匹配。训练数据的难度略高于模型当前的水平——这在教育学里叫最近发展区(Zone of Proximal Development),在机器学习里叫课程学习(Curriculum Learning)。太简单学不到东西,太难消化不了。
每一步都在你能力边界的外面一点点。一步一步走,每一步都踩实了再迈下一步。快不了,但也不会走弯路。
第三步:建立反馈回路
没有反馈的学习就是在黑暗中射箭——你可以射一千支箭,但如果不知道每支箭射到了哪里,你的技术不会有任何提高。
反馈可以来自很多地方:
- 一个好老师或好导师——最理想的,但不是人人都有
- 真实世界的结果——你学了一个技能,去实际用,结果好不好就是反馈
- 同伴互评——找到和你水平相近、但视角不同的人,互相看彼此的输出
- AI工具——这是这个时代真正的新变量。一个AI辅导员不会累,不会不耐烦,可以24小时回答你的问题,可以根据你的水平调整难度
第四步:保护你的算力
这一点容易被忽略。
你每天的认知资源——注意力、精力、思考的时间——是有限的,就像一台电脑的算力是有限的。
如果你的算力全被生存焦虑、短视频刷屏、社交媒体的情绪垃圾消耗掉了,你就没有剩余算力去处理高质量数据。哪怕好数据就在你面前,你也没有余力去吸收它。
贫穷对模型最大的伤害不是"没有数据",是"没有算力"。 一个每天为温饱发愁的人,他的大部分认知资源被分配给了"今天怎么活下去"这个任务,哪还有多余的带宽去思考"怎么提升自己"?
这就是为什么扶贫的第一步不是"给教育资源",而是"减轻生存压力"——你得先释放出算力,人才有可能去处理更高级的数据。
五、新的分水岭
说到这里,这个时代真正的分水岭已经清楚了:
过去,差距在"能不能接触到数据"。
现在,差距在"有没有能力处理好数据"。
"能力"这个词拆开来看就是:
- 基础模型够不够强(认知基础)
- 训练路径对不对(难度匹配,循序渐进)
- 有没有反馈机制(知道自己对了还是错了)
- 有没有算力(时间、精力、注意力没有被垃圾消耗)
四个条件全具备的人,哪怕出身再普通,互联网时代给了他前所未有的机会——他可以用几乎为零的成本,获取过去只有特权阶层才能接触到的数据,然后用这些数据训练自己的模型。
四个条件缺了任何一个,再好的数据摆在面前也没用。
所以"数据平权"这个词需要被重新定义。它不是"让所有人都能上网"。它是"让所有人都具备处理好数据的基础能力"。前者是基础设施问题,后者才是教育的真正使命。
六、这也是这本书想做的事
这本书不是给你数据。数据你有的是,你的手机里装了整个互联网。
这本书做的是一件更基础的事——给你一个理解自己的框架。
当你知道自己是一个模型,你就知道了:我的判断来自我的数据,我的数据可以被选择,我的基础能力可以被训练。
这个认知本身,就是你基础模型的一次升级。
它不告诉你该学什么、该往哪走。但它给你装了一个之前没有的东西——一面镜子,让你看清自己的模型当前是什么状态、缺什么数据、哪里过拟合了、哪里在脑补。
看清了,才能开始修。
而修的路径,从来没有被封死过。互联网这扇门确实开了——只是你得先有能力走过去。
有人分享过一个做法:拿一部新手机,装一个抖音或者B站,什么都不点,只点学习相关的内容。坚持一两周,算法就会把你的信息流重塑成一个高效的学习频道——商业的、技术的、英语的,你想学什么它就给你推什么。同样的算法,同样的平台,别人用来刷段子,你用来训练自己的模型。
这个做法很聪明,但它恰恰证明了前面说的:你得先有判断力,知道该点什么不该点什么,才能把算法变成你的工具而不是你的驯化者。 如果你没有这个判断力,一条搞笑视频弹出来你手一滑就点了,多停留了几秒。算法立刻记下来:"他对这个有反应。"然后推第二条、第三条,都是类似的。你又点了,又停留了。算法这时候已经成功预测你了——它知道该给你喂什么。接下来你的信息流里会涌入越来越多的段子、八卦、情绪化内容,一周前精心训练出来的学习频道被冲得干干净净。你坐在那里一刷就是两个小时,刷完之后什么也没学到,只是给自己的模型灌了两个小时的垃圾数据。这叫吃赛博猪食——平台给你端上来,你自己埋头吃。
工具是中性的。算法是中性的。关键永远在于使用工具的那个模型——你——训练到了什么水平。
怎么练出这个能力?下一章我们具体来讲。
第七章:打磨你的基础模型
一、好数据 ≠ 好模型
前面几章我们一直在说数据——数据从哪来、好数据为什么贵、数据怎么被污染。
但有一个问题一直没有正面回答:如果好数据就在你面前,你就一定能变强吗?
不一定。
斯坦福的公开课免费放在网上。一个西北农村的孩子打开手机就能看到。但他大概率看不懂——英语不行、基础知识不够、甚至不知道该从哪门课看起。
数据再好,你的基础模型如果跑不动,灌进去的也只是噪声。
这就像你把世界上最好的训练数据给一个最简单的小模型——数据的质量是顶级的,但模型的架构撑不住、算力不够、训练流程不对,跑出来的结果照样不行。
好数据是必要条件,但不是充分条件。你还需要一个够格的基础模型来消化它。
所以这一章不再讲数据了。这一章讲你自己——怎么打磨你的基础模型,让它配得上好的数据。
二、基础模型的四个维度
一个模型能不能有效消化数据、做出好的预测,取决于四个维度:
维度一:接口带宽——你能吸收多快、多深
你的语言能力、阅读能力、听力理解能力——这些不是"技能",它们是你吸收一切数据的底层接口。
接口带宽不够,再好的数据也传不进来。一个英语不好的人,全球80%的高质量信息对他来说是锁着的。一个阅读理解能力弱的人,哪怕是母语的深度文章他也消化不了。
怎么练: 大量阅读。不是刷短文章、看碎片信息,是读完整的、有深度的长文本。每一次你啃完一本有难度的书,你的接口带宽就被扩展了一点。另外,学好至少一门外语——不是为了考试,是为了打开另一个数据世界的大门。
维度二:推理引擎——你能不能分辨因果
你的逻辑能力、批判性思维、分辨"因果关系"和"相关关系"的能力——这是你模型的推理引擎。
推理引擎弱的人,数据喂进去之后会拟合出大量错误的因果关系。"我吃了这个保健品,然后感冒好了,所以保健品治好了我的感冒"——这就是把"先后关系"当成了"因果关系"。
怎么练: 养成一个习惯——每次你觉得"A导致了B"的时候,追问一层:有没有可能是C同时导致了A和B?有没有可能B本来就会发生,和A无关?这个追问的习惯本身就在训练你的推理引擎。
维度三:注意力分配——你的算力怎么用
你每天的认知资源——注意力、精力、专注的时间——是有限的。这就是你的算力。
算力分配不当的人,哪怕数据质量再好也处理不了。如果你的算力全被短视频、社交媒体、各种通知消耗完了,你就没有剩余算力去处理那些需要深度思考的高质量数据。
怎么练: 审查你的注意力流向。如果一天结束后你觉得"很累但好像什么都没干",大概率是你的算力被碎片化地消耗了。试着每天留出至少一个小时的"无干扰时间"——关掉手机通知,专注做一件事。这一个小时的高质量算力,可能比你散漫的八小时产出更多。
贫穷对模型最大的伤害也在这里——不是"没有数据",是"没有算力"。一个每天为温饱发愁的人,他的大部分认知资源被"今天怎么活下去"占满了,哪还有余力去处理更高级的数据?这就是为什么扶贫的第一步不是"给教育资源",而是"减轻生存压力"——先释放出算力,人才有可能去消化更好的数据。
维度四:元认知——你知不知道自己不知道
这是最高阶的维度,也是这本书从头到尾在训练你的东西。
元认知就是"知道自己知道什么、不知道什么"的能力。一个元认知强的人,他清楚自己模型的边界在哪——哪些领域他有足够的数据来做判断,哪些领域他的数据不够,需要补充了再说。
元认知弱的人就是我们前面说的"脑补"——不知道自己不知道,所以自信满满地输出错误的预测。
这个维度值得多说几句,因为它是前面三个维度的总开关。你的接口带宽再大、推理引擎再强、算力分配再合理,如果你不知道自己的模型在哪个地方有盲区,你就会在那个盲区里自信地犯错——而且你连自己在犯错都不知道。
为什么元认知是一切的基础
马斯克经常提到的"第一性原理",本质上就是一种元认知操作。别人告诉你"火箭就是贵",这是一个预测结果。第一性原理是什么?是退回去看——这个预测是基于什么数据得出的?那些数据还成立吗?有没有被验证过?还是只是大家都这么说,所以你也这么信了?
这不是什么高深的哲学。这就是在问:我的模型在这个问题上的数据质量如何?我的预测是基于一手数据,还是基于别人的脑补?
市面上有无数的课程、方法论、思维模型,包装得花里胡哨——什么"十大思维模型""顶级CEO的决策框架""硅谷精英的底层逻辑"。听起来一个比一个厉害,好像你不学就落后了。
但你仔细看,它们说的都是同一件事的不同包装:在做判断之前,先搞清楚你的判断是基于什么。
"你是一个模型"这个视角,就是一个足够简洁、足够坚固的元认知工具。你不需要学二十种思维模型。你只需要在做任何判断的时候,问自己三个问题:我的数据够不够?我是不是在脑补?我的温度正常吗?
就这三个问题,足够应对你生活中绝大多数需要做判断的场景。不是因为这三个问题多高明,是因为它们直接命中了人类犯错的三个最常见的根源。简洁的东西如果足够坚固,它的力量比复杂的东西大得多——因为你真的会用,而不是学完就忘。
亲身验证
我自己就是用这个方法的受益者。AI时代到来之后,用"我是一个模型"的视角看待自己和周围的一切,很多原来困扰我的问题突然就清楚了——不再焦虑,因为我知道焦虑只是在加温度;学新东西变得很快,因为我知道该找什么数据、该用什么顺序训练;面对陌生的领域也不慌,因为我知道这只是数据空白,补上就行。
这不是什么天赋。这是元认知到位之后的自然结果——你知道自己的模型是怎么运转的,你就知道该在什么地方下手。
元认知不是锦上添花。它是你所有能力的坐标系。
牛顿三定律不是一种力,它不会让苹果落得更快。但没有它,你就不知道力是怎么运作的,所有的实验都是盲人摸象。有了它,你才知道该怎么设计实验、预测结果、纠正误差。牛顿三定律是物理学的坐标系——有了坐标系,所有的力才变得可描述、可计算、可操控。
元认知也是一样。它不会让你变聪明,但它告诉你:你的聪明正在用在哪里,你的盲区在哪里,你的方向对不对。没有它,你的能力可能在拼命往一个错误的方向跑——跑得越快偏得越远。有了它,你才知道该把力气用在哪。
怎么练: 这本书本身就是一次元认知训练。当你开始用"我是一个模型"的视角看自己,你就已经在做元认知了。保持这个视角,定期做一次自检:我最近的判断准不准?哪里偏了?偏了是因为数据变了还是我在脑补?
三、训练的正确顺序
基础模型不是一步到位的。它需要按照正确的顺序训练,就像你不能让一个婴儿先学微积分一样。
第一步:先找到你当前能消化的最好数据
不要贪多。一个基础薄弱的人不需要一上来就看世界级的内容。他需要的是当前水平能够消化的、最好的那一层数据。
可能是一本好的中文入门书,可能是一个讲得清楚的视频教程,可能是一个愿意带你的人。关键不是数据有多高级,是数据的难度和你当前的模型水平匹配。
有人说"只要努力就行""只要不断重复就行"。但有人说过一句很扎心的话:你让一个从来不懂ABC的老太太,在面前放一辈子西班牙语广播,让她磨耳朵磨到死,她也听不懂一个词是什么意思。
为什么?因为那些声音对她来说是纯噪声。她的模型里没有任何锚点能把这些声音和意义挂钩——没有一个词她认识,没有一个句式她见过,没有任何上下文能帮她推测含义。数据确实在灌入,但她的模型没有办法对这些数据做任何有效的参数更新。听一万遍和听一遍,效果一样:零。
这就是"努力"的陷阱。数据量不等于训练效果。如果数据的难度远超你模型当前的水平,灌再多进去也是白噪声。
真正有效的训练,数据难度必须和模型水平匹配。
在教育学里这叫最近发展区(Zone of Proximal Development)——你能学会的东西,不是太简单的(已经会了学不到新东西),也不是太难的(根本消化不了),而是在你能力边界外面一点点的。
在机器学习里这叫课程学习(Curriculum Learning)——先用简单的数据训练,等模型稳定了再逐渐加难度。跳过基础直接灌高阶数据,模型反而会训练崩溃。
拿学英语来说。我自己亲身经历过最有效的提升阶段,不是背单词,不是刷题,是听与我难度匹配的文章慢读。一篇文章,语速放慢,内容我能听懂七八成,剩下两三成靠上下文推测。就这个状态——不是完全听不懂(那是噪声,模型处理不了),也不是全听懂(那是重复训练,学不到新东西),而是刚好在我能力边界外面一点点。
每天听,反复听,听到那两三成也变成自然理解。然后换一篇稍微难一点的。一步一步走,每一步都踩实了再迈下一步。快不了,但也不会走弯路。
这就是课程学习在现实中的样子。
第二步:建立反馈回路
没有反馈的学习就是在黑暗中射箭——你可以射一千支箭,但如果不知道每支箭射到了哪里,你的技术不会有任何提高。
反馈可以来自很多地方:
- 一个好老师或导师 —— 最理想的。他能看到你看不到的盲区,在你偏了的时候及时纠正。这就是为什么"拜师"在任何时代都是最高效的学习方式——师父提供的不只是知识,是交互式的、带反馈的、包含隐性数据的高质量数据流
- 真实世界的结果 —— 你学了一个技能,去实际用一次。用得好不好就是反馈。这种反馈不会骗你,也不会客气
- 同伴互评 —— 找到和你水平相近但视角不同的人,互相看彼此的产出。你看不到自己的盲区,但别人可能一眼就看到了
- AI工具 —— 这是这个时代真正的新变量。一个AI不会累,不会不耐烦,可以24小时回答你的问题、检查你的理解、指出你的逻辑漏洞。它不能替代真人导师,但它大幅降低了获取基本反馈的门槛
第三步:用输出倒逼输入
大多数人是"看到什么就吸收什么"——被动输入。这就像一个没有训练目标的模型,你给它什么数据它就学什么,最后学成一个什么都知道一点、什么都不精的通用模型。
换一种方式:先确定你要解决什么问题,然后围绕这个问题去找数据。
你不需要读所有的好书。你需要在你要解决的问题上,找到最好的十本。
有了明确的输出目标,你的输入就有了方向。你不再是漫无目的地"学习",而是在针对性地训练你的模型在某个维度上的预测能力。
第四步:保护你的训练环境
训练一个好模型不只需要好数据和好方法,还需要一个不受干扰的训练环境。
如果一个模型在训练过程中不断被注入噪声数据,训练效果会大打折扣。你的情况也一样——如果你在学习的同时不断被短视频、社交媒体、无关的信息打断,你的模型就一直在好数据和垃圾数据之间来回切换,怎么可能训练好?
保护你的训练环境:
- 给自己固定的"深度学习"时间段,这期间切断一切干扰源
- 定期审查你的信息输入流——哪些是你主动选择的,哪些是算法推给你的?
- 和能给你正向数据的人在一起。一个人的朋友圈就是他的训练环境——你身边的人在说什么、在做什么、在关心什么,这些都是你每天无意识吸收的数据
四、不是改变自己,是升级数据源
读到这里,你可能觉得"这不就是要我改变自己吗?"
不是。
"改变自己"是一种痛苦的叙事——它暗示"你现在不好,所以需要变成另一个人"。
但模型视角说的是另一件事:你的基础模型没有问题。你出生时就有的那860亿个神经元,和人类历史上所有天才用的是同一个版本的硬件。
需要升级的不是你。需要升级的是你的数据源、你的训练路径、你的反馈回路、你的算力分配。
这是工程问题,不是人格问题。工程问题有具体的解法,一步一步来就行。
不再是"我不够好,我要改变"。而是"我的训练方案可以优化,让我来调整一下"。
前者让你自我否定。后者让你动手干活。
第八章:创新的本质
一、最准的模型不会创新
前面几章我们一直在说:好的模型需要好的数据,好的数据带来准确的预测。
但这里有一个悖论:一个预测极其准确的模型,永远不会创新。
为什么?因为预测的本质是"根据过去推断未来"。模型见过什么,就预测什么。预测越准,越接近已有的模式。而创新恰恰是已有模式里不存在的东西。
达尔文在研究物种变异的时候,读了一本和生物学毫无关系的书——马尔萨斯的《人口论》,讲的是人口增长和资源竞争的经济学理论。一个"完美预测"的生物学模型,会把这本经济学著作过滤掉,因为它和生物学"无关"。但达尔文的模型偏离了——他把"资源竞争导致优胜劣汰"这个经济学概念,映射到了物种演化上。
自然选择理论就这么诞生了。
这不是预测。这是偏离。
创新的起点,是模型的一次"不正确"的输出——它偏离了最可能的预测方向,但偏到的那个地方,恰好是有价值的。
二、有用的"错误"
1945年,雷神公司的工程师珀西·斯宾塞站在一台军用雷达的磁控管旁边测试设备。他口袋里的巧克力棒融化了。
按照正常思维,这是一个小事故——雷达设备在散热,巧克力被烤化了,擦掉继续工作。他的模型作为一个雷达工程师,预测的标准操作就是"忽略,继续测试"。
但他没有忽略。他停下来想了一件他的模型"不该想"的事:这个磁控管产生的微波,能不能用来加热食物?
他跑去弄了一袋爆米花放在磁控管旁边。爆米花炸了。第二天他又弄了一个鸡蛋。鸡蛋爆了。
微波炉就这么诞生了。一个改变了全球几十亿人日常生活的发明,起点是一块融化的巧克力棒和一个"不该有"的念头。
再看一个例子。
1968年,3M公司的化学家斯宾塞·西尔弗接到一个任务:研发一种超强粘合剂。他在实验室忙了很久,最后做出来一种东西——粘性极弱,一撕就掉,贴上去轻轻一揭就下来了,表面干干净净不留任何痕迹。
按照他的目标(超强粘合剂),这是一次彻底的失败。不是小失败,是方向完全反了——你要超强的,他给你做了个超弱的。
西尔弗觉得这个东西有意思,但他说不清它有什么用。他在公司内部到处推销这个"可以反复粘贴的弱胶",同事们礼貌地听完,然后继续干自己的活。没有人觉得一种"粘不牢"的胶水有任何价值。
这个"失败品"在3M公司里躺了将近十年,没人理它。
直到1977年,另一个工程师阿特·弗莱碰到了一个微小的日常烦恼:他在教堂唱诗班唱歌,用小纸条夹在赞美诗集里当书签,但纸条老是掉出来,翻到那一页的时候手忙脚乱。
就在这个瞬间,他想起了西尔弗那个"没人要"的弱胶——粘得住但撕得掉,不就是一个完美的书签吗?
他回到公司,用西尔弗的胶做了第一批样品。试用之后所有人都疯了——不只是书签,它可以贴在任何地方做标记、写备注、留言,用完撕掉不留痕迹。
1980年,便利贴正式上市。之后的事情你知道了——今天全世界每年卖出超过500亿张便利贴。它出现在每一间办公室、每一个教室、每一台电脑显示器边上。3M靠便利贴这一个产品线每年营收超过10亿美元。
一个"失败"了将近十年的弱胶,最终变成了一个价值数十亿的全球产品。
这两个案例的共同点是什么?
创新不是"想出一个新东西"。创新是"在一次预测偏差中,发现了一个有价值的方向,并且有勇气跟着它走下去"。
关键词有三个:偏差、发现、勇气。缺任何一个,创新都不会发生。
三、跨数据集的涌现
1440年代,古登堡为什么能发明活字印刷术?不是因为他比别人聪明。
是因为他的模型里同时有两组完全不同领域的高质量数据:一组是葡萄酒酿造(他熟悉酿酒用的螺旋压榨机的机械原理),一组是金匠工艺(他懂得怎么把金属铸造成精确的小型模具)。这两个行业在当时没有任何人认为它们有关系。
但在古登堡的模型里,这两组数据碰撞出了一个全新的东西:用金匠铸模的工艺做出可替换的金属字母,用酿酒压榨机的原理把字母压印到纸上。印刷术就这么诞生了——不是从天上掉下来的灵感,是两个毫不相关领域的底层结构在同一个模型里发生了连接。
这个发现不在任何一组数据里。酿酒的数据里没有写着"我可以用来印书",金匠的数据里也没有写着"我可以和压榨机配合"。这个连接是古登堡的模型自己涌现出来的——两组数据提供了素材,但最终的组合是模型内部产生的新结构。
在机器学习里,这叫迁移学习(Transfer Learning)——在一个领域训练好的模型,发现它的某些内部表示在另一个领域也适用。
但有一个前提条件:模型在两个领域的训练都必须足够深。
浅尝辄止是不行的。如果古登堡只是在酒庄参观过一次,他不会理解压榨机的机械原理;如果他只是见过金匠干活,他也不会掌握精密铸模的工艺。只有当两个领域都训练到了"能抽象出底层结构"的深度,跨领域的连接才有可能发生。
所以创新需要的不是"什么都知道一点",而是"在至少两个领域都知道得足够深"。 广度提供连接的可能性,深度提供连接的质量。只有广度没有深度,你只能做肤浅的类比;只有深度没有广度,你只能在一个领域里打转。
乔布斯的故事值得细说。
1972年,乔布斯上了里德学院,六个月后退学了——交不起学费。但他没有离开校园,而是赖在学校里蹭课。他蹭的不是计算机课、不是商业课,而是一门书法课。
里德学院的书法课在当时全美有名。教的不是"怎么把字写好看"这种表层的东西,而是字体设计的底层逻辑——衬线和无衬线字体的区别、字母之间的间距关系、不同字体传递的不同情绪、排版的留白比例。这是一套关于"视觉秩序如何被精确设计"的完整知识体系。
一个退学的穷小子,蹭一门和就业毫无关系的书法课。在当时看来,这完全是在浪费时间。他自己后来也说,当时不知道这东西有什么用。
十年后,他做第一代Macintosh。当时所有的个人电脑——包括IBM的——屏幕上的字体都是一种:等宽、丑陋、千篇一律。没有人觉得电脑屏幕上的字需要好看,因为电脑是工具,不是艺术品。
但乔布斯的模型里有一组别人没有的数据:那一学期的书法课。他的模型知道"视觉秩序可以被精确设计",知道字体不只是传递信息的载体,字体本身就在说话——它传递情绪、传递品味、传递对细节的尊重。
这组数据和他做电脑的数据碰撞了。Mac成了第一台拥有多种精美字体的个人电脑。后来Windows跟进了。再后来,你今天用的每一台电脑、每一部手机上的字体美学,都能追溯到那个退学的穷小子蹭的那门"没用"的书法课。
如果他只是路过书法教室看了一眼,这个连接不会发生。他坐下来学了一整个学期,学到了字体设计的底层结构,这个结构才有可能在十年后和计算机工程产生碰撞。
四、损失函数决定创新的生死
前面说创新需要模型"偏离"。但偏离是有代价的。
在机器学习里,每次模型做出一个输出,都会有一个损失函数(Loss Function)来评判:"这个输出有多错?"如果损失很大,模型就会调整自己,下次不再往这个方向偏。如果损失很小或者为零,模型就知道"这个方向可以继续走"。
损失函数定义了什么是"错"。而什么是"错"的定义,决定了创新能不能活下来。
当"不同"等于"错误"
科举制度考八股文,题目来自四书五经,答案必须按照圣人的标准解释来写。你写出一个前所未有的深刻见解?对不起,不合规范,落榜。
这个损失函数惩罚的不是"错误",是"不同"。
在这个损失函数下训练出来的模型,会学到一条铁律:任何偏离标准答案的输出都会导致惩罚。 于是模型会自动收敛到一个极窄的输出范围——只输出最安全的、最符合预期的、最不可能被惩罚的结果。
这样的模型预测很稳定,输出很可靠,完全符合统治者的需要。但它永远不会产生新东西。因为创新的第一步——偏离——已经在萌芽阶段就被损失函数杀死了。
这不是古代的事。今天的教育体系里,标准化考试做的是同样的事。当一个孩子在考试中写出了一个非标准但有洞察力的答案,如果老师给了零分,这个孩子的模型就学到了:"有创意 = 被惩罚"。几次之后,他再也不会尝试非标答案了。
当"不同"被容忍甚至奖励
硅谷为什么能持续产生创新?
不是因为那里的人更聪明。是因为那里的损失函数不一样。
创业失败了?简历上不是污点,是资历。很多投资人甚至更愿意投"失败过"的创业者——因为失败意味着这个人的模型已经用真实数据校准过了,比一个从未试过的人更可靠。
一个员工提出了一个"疯狂"的想法?不会被嘲笑,至少会被听一听,可能还会拨一笔小预算让他试试。Google的"20%自由时间"就是这个逻辑——你可以用五分之一的工作时间去做任何你觉得有意思的事,哪怕它和你的本职工作毫无关系。Gmail就是这么来的。
这个环境的损失函数容忍偏离。 它不会因为你的输出"不标准"就立即惩罚你。它给了你一个缓冲区——你可以偏离一段距离,如果偏到了有价值的方向,你会得到奖励;如果偏到了没价值的方向,你只是回来重新开始,代价很低。
创新需要三个条件同时成立:一个人的模型产生了非标预测;他没有因为"不一样"而被惩罚;这个非标预测的价值被人识别出来,并且获得了继续发展的资源。
三个条件缺任何一个,创新都不会发生——要么想法被自我审查掐死在萌芽里,要么出来了就被打压回去,要么出来了但没人认得它的价值就自然消亡了。
创新就是违规
吴晓波在一次演讲里说过一句话,大意是:什么是改革?改革就是违规。
这句话用模型语言翻译过来就是:改革是偏离了现有制度预设的标准输出。 在现行制度的损失函数里,改革的每一步都是"错误"——因为它不在标准答案范围内。
创新的本质也一样。创新就是违规。它违背了你的模型基于过去数据做出的"正常"预测。
理解了这一点,你再看那些追求"零误差""绝对精准""不允许犯错"的系统——不管是一个公司、一个学校、还是一个社会——你就知道它们在做什么:它们在把损失函数调到极端严格,任何偏离标准输出的行为都会被立即惩罚。
这种系统短期内看起来很好——效率高、可控、运转稳定、没有意外。但它的代价是:模型被彻底锁死在已有的模式上。
一个不允许犯错的公司,员工只会做最安全的事,绝不会尝试任何新方向。一个不允许失败的学校,学生只会背标准答案,绝不会提出自己的问题。一个不允许"违规"的社会,所有人的行为都被压缩到一条极窄的轨道上——稳定是稳定了,但轨道通向哪里呢?
历史上所有的重大突破——科学革命、技术创新、制度变革——都是有人在当时的规则框架里做了一次"违规"操作。哥白尼说地球不是宇宙中心,在当时那就是违规。中国改革开放初期,个体户做买卖,在当时的制度下就是违规。
一个把"不犯错"当成最高目标的系统,等于宣布了自己不会再进步。因为进步的每一步,在旧系统看来,都是一次错误。
所以,那些宣称"精准管控""零容差""绝对执行"的理念,听起来很专业,用模型视角一看就知道是扯淡——它们在训练一个永远不会偏离的模型。这个模型在已有的轨道上可以跑得很顺畅,但它永远无法到达一个新的地方。
五、过度训练杀死灵活性
还有一个维度:模型被训练的程度。
为什么小孩天然有创造力
小孩会把积木当电话、把纸箱当火箭、把面条当虫子。大人觉得荒谬,但从模型的角度看,这恰恰是一个未充分训练的模型的正常表现。
小孩的模型约束少。他还没有被训练成"积木就是积木、电话就是电话",所以他的模型在不同概念之间的连接是自由的。他不知道"这个不能和那个放在一起",所以他什么都试。
大部分尝试是无意义的——面条确实不是虫子。但偶尔,他会做出一个大人想不到的、极其精彩的连接。
创造力,就是模型在不同概念之间建立非标连接的能力。 约束越少,连接的自由度越高,创造力越强。
教育的代价
教育的过程,本质上是在给模型加约束。
你学了物理,就知道"人不能飞"——约束加了一条。你学了经济学,就知道"天上不会掉馅饼"——又加了一条。你学了社会规范,就知道"在公共场合不能大喊大叫"——再加一条。
每一条约束都让你的模型更准确、更适应社会、更能做出"正确"的预测。但每一条约束也关闭了一些连接的可能性。
到了成年,大多数人的模型已经被训练成了一台精密的预测机器:给定输入,输出最可能的、最安全的、最符合预期的结果。创造力?早就在无数次"这样不对""那样不行"的训练中被修剪掉了。
这就是禅宗说的"初心"(Beginner's Mind)——铃木俊隆说:"初学者的心里有无数种可能性,专家的心里只有寥寥几种。"
用模型的语言翻译:初心就是抵抗过拟合。保持模型的开放性,不让它收敛到唯一的预测路径上。
这不是说教育是坏事。没有约束的模型什么也做不了——一个什么都"可以"的系统,等于什么都"做不到"。关键在于:哪些约束是必要的(让你不掉进坑里),哪些约束是多余的(让你不敢离开已知的路)。
创新者和普通人的区别,往往不是谁更聪明,而是谁保留了更多"非必要的自由度"。
六、为什么有些土壤长不出创新
现在回到一个更大的问题:为什么有些文化、有些制度,系统性地无法产生创新?
把前面的分析合在一起看:
| 创新需要什么 | 创新杀手做了什么 |
|---|---|
| 数据多样性 | 统一教材、统一思想、消灭杂音 |
| 训练深度 | 填鸭式教育只求记忆,不求理解 |
| 允许偏离 | 标准答案制度,偏离即惩罚 |
| 低失败成本 | 一考定终身,失败代价极高 |
| 跨领域碰撞 | 学科壁垒森严,文理割裂 |
| 保持初心 | 从小训练服从,好奇心被系统性消磨 |
每一行,都精确地对应着一个创新的必要条件被摧毁的过程。
这不是某个人的问题,不是"这一代人不够创新"。这是一个系统级别的模型训练方案——它的目标函数就不是创新。它的目标函数是稳定、可预测、好管理。在这个目标函数下,系统运转得越"好",创新就越不可能发生。
创新不是一种才能,是一种生态。 你需要多样的数据、足够的深度、容忍偏离的损失函数、低代价的试错空间、跨领域的连接机会、和一颗没有被训练成"标准答案机器"的大脑。
这些条件中的任何一个被拿掉,创新就会减少。全部被拿掉,创新就会消失。
七、对个人的启示
这一章说的是宏观——制度、文化、环境。但落到每个人身上,启示是一样的:
你想让自己的模型能产生创新,就需要做几件事:
- 喂多样的数据。 不要只在自己的专业领域里转。去接触一些和你的本职工作完全无关的东西——不是为了"有用",是为了给你的模型提供跨域连接的素材。
- 在至少一两个领域训练到足够深。 浅尝辄止的广度不会产生创新。你需要深到能抽象出底层结构,才有可能和其他领域的底层结构产生碰撞。
- 修改你的内在损失函数。 如果你的模型被训练成"犯错 = 惩罚",你就会永远只输出最安全的答案。试着把损失函数改成"不尝试 = 惩罚"。
- 降低你的试错成本。 不要把每一次尝试都当作"一定要成功"。给自己留出一些"可以失败"的空间——一些时间、一些资源、一些心理余裕。
- 保持初心。 定期问自己:我是真的相信"事情只能这样",还是我的模型过拟合了?有没有可能我认为不可行的方向,其实只是我的训练数据里没有出现过?
创新不是灵光一闪。创新是一个被正确训练的模型,在一个允许偏离的环境中,做出的一次有价值的非标预测。
你控制不了环境。但你可以训练自己的模型。
第九章:各行各业的诊断与处方
前面几章,我们建立了一套完整的框架:你是一个模型,你的判断来自你的数据,数据有好有坏,你可以主动训练自己。
这一章,我们把这个框架当作一台诊断仪,对准不同的人、不同的处境,逐一扫描。每一个案例都走完"症状→诊断→处方"的完整流程。
你不一定在每个案例里都看到自己。但你一定会在某个案例里停下来,想说"这说的就是我"。
[由于篇幅限制,第9章的完整8个案例已在前面的详细文件中读取,包括:案例一至八,涵盖职场焦虑、创业失败、教育焦虑、学生迷茫、老人被骗、感情选择、管理困境、道理懂不做到等核心场景]
第十章:面向未来:处理你还看不见的问题
前面八章,我们做了两件事:
第一,建立框架——你是一个模型,你的判断来自数据,数据可以诊断,模型可以训练。
第二,用框架回头看——解释了学习困难、职场焦虑、教育问题、被骗被操控、选错人、做不到......一系列已经发生的问题。
但这个框架如果只能解释过去,它的价值就只有一半。
一个真正有用的模型,不仅能解释已经发生的事,还能帮你应对还没有发生的事。
这一章,我们往前看。
一、未知问题的结构
你未来会遇到什么问题,我不知道,你也不知道。但有一件事是确定的:
所有你未来会遇到的问题,在模型视角下,都逃不出四种结构:
结构一:数据空白
你遇到了一个全新的领域、全新的角色、全新的处境——你的模型在这个区域完全没有训练数据。
比如:你第一次当父母、第一次移民到陌生国家、第一次面对亲人的重病。
这类问题的特征是:你不是判断错了,你是根本不知道该怎么判断。你的模型输出的是"我不知道"——但大脑不会让你停在"不知道"上面,它会自动脑补一个答案,而这个答案大概率是错的。
应对原则:识别出"这是数据空白",然后有意识地去补数据,而不是凭脑补行动。
具体操作:承认自己不知道,这不丢人,这是精确的自我诊断;找到在这个领域有充分经验的人,获取他们的一手数据;从小范围试错开始,不要在数据空白的情况下做大决策。
结构二:数据冲突
你有了两组数据,它们指向相反的方向。你不知道该信哪一组。
比如:一个医生说要手术,另一个说保守治疗就行。你的经验告诉你应该跳槽,但你的家人都劝你留下。
这类问题的特征是:不是没有数据,是数据互相矛盾,你的模型无法做出明确的预测。
应对原则:不要急着选边站。先搞清楚两组数据的质量差异。
具体操作:评估每组数据的来源(谁提供的?数据量够不够?有没有利益相关?);补充第三方数据(有没有独立于这两组数据的其他信息?);如果评估完还是无法判断,选那个可逆性更高的选项——给自己留退路。
结构三:数据过载
信息太多了,多到你的模型处理不过来。你觉得每一条都重要,但你无法同时消化所有的信息。
比如:你在做一个重大决策(买房、换城市、转行),网上的信息铺天盖地,正的反的都有道理,你看得越多越困惑。
这类问题的特征是:你的"算力"不够用了。不是没有好数据,是你没有足够的认知资源去处理这些数据。
应对原则:主动做减法。你不需要处理所有数据,你需要处理对的数据。
具体操作:先定义你的核心问题是什么——一个问题,不是五个;围绕这一个问题,只找最直接相关的、最高质量的数据。其他的暂时屏蔽;设定一个决策截止时间。收集数据不能无限延续——在截止时间之前,用你手头有的数据做出最好的判断;接受"不完美的判断"。在数据过载的情况下,追求完美判断本身就是一种脑补。
结构四:温度失控
你遇到了突发事件——被裁员、被分手、亲人出事、意外变故。你的情绪剧烈波动,模型的温度被瞬间拉到极高。
这类问题的特征是:你的模型暂时失灵了。不是数据的问题,也不是能力的问题,是温度太高导致任何数据都无法被正常处理。
应对原则:先降温,再思考。在温度正常之前,不做任何重大决策。
具体操作:给自己72小时。任何重大决策,尤其是在情绪剧烈波动时做出的,都延后72小时再执行;用身体降温。散步、运动、睡觉——这些不是逃避,是在物理上降低你的模型温度;找一个信任的人说出来。说出来本身就是在整理数据,而对方的回应可以帮你校准;等温度降下来之后,你会发现你的模型又能正常运转了。那时候再做判断。
二、元能力:学会学习
上面四种结构,是你面对具体问题时的应对策略。但还有一个更深层的能力,它不是解决某个具体问题的,而是让你在任何问题面前都不至于完全束手无策。
这个能力叫元学习(Learning to Learn)——学会怎么学习。
用模型的语言说:不是训练模型去做某个特定任务,而是训练模型快速适应新任务的能力。
在机器学习里,这叫元学习(Meta-Learning)。一个元学习能力强的模型,面对一个从未见过的任务,只需要很少的数据就能快速上手——因为它已经学会了"怎么从有限的新数据中快速提取有用的模式"。
人也一样。有些人到了一个全新的环境,总能比别人更快适应。不是他们更聪明,是他们的模型已经被训练出了一种更高阶的能力——从有限的新数据中快速建立有效的预测模型。
这种能力怎么练?
- 多次经历"从零开始"。 每换一个新环境、学一个新技能、接触一个新领域,你的元学习能力就被训练了一次。那些一辈子只待在一个环境里的人,他们的特定领域可能很强,但元学习能力很弱
- 每次学习都反思"我是怎么学会的"。 不只是学内容,还要学过程。你用了什么方法?什么数据最有效?在哪个环节卡住了?怎么突破的?这些过程数据就是训练你元学习能力的语料
- 保持一定程度的不舒服。 如果你永远在舒适区里,你的模型就不需要适应新环境,元学习能力就不会被激活。适度的不舒服是元学习的训练信号
三、AI时代的新变量
这本书一直在用AI来比喻人脑。但现在,AI不只是一个比喻——它是一个真实的工具,正在改变"训练自己的模型"这件事的玩法。
AI作为数据放大器
过去你要学一个新领域,需要自己去找书、找课、找人。现在你可以直接问AI——它可以在几秒钟内,把你需要的入门知识、核心概念、常见误区整理出来。
这不是说AI替代了你的学习。AI提供的是经过压缩和整理的数据。你仍然需要自己去消化、去用真实经验校准。但AI大幅降低了"获取初始数据"的成本。
AI作为反馈机制
前面说过,反馈是训练的关键。过去好的反馈很贵——需要好老师、好导师、好同伴。现在AI可以充当一个不会累、不会不耐烦、24小时在线的反馈源。
你写了一段文字,AI可以告诉你哪里逻辑不通。你做了一个方案,AI可以帮你找漏洞。你学了一个概念,AI可以从不同角度提问来检验你是否真正理解了。
AI作为镜子
这是最微妙也最有价值的一点。
当你和AI对话的时候,AI的回答其实是你提问的镜像。你问了什么样的问题,暴露的是你的模型当前的状态——你关心什么、你忽略了什么、你的盲区在哪里。
一个好的提问者,能从AI那里获得极高质量的输出。一个不知道该问什么的人,面对同样的AI,也得不到什么有价值的东西。
AI不是答案。AI是放大器——它放大你现有模型的能力。你的模型越强,你从AI那里获得的价值越大。你的模型越弱,AI给你的东西你也消化不了。
这又回到了第六章的核心观点:好的数据(包括AI的输出)需要好的基础模型才能吸收。AI没有改变这个底层逻辑,它只是加速了这个过程。
四、持续校准
最后说一件事:你的模型永远不会"训练完"。
世界在变,你的处境在变,新的数据不断涌来。一个曾经准确的模型,如果停止更新,它的预测会越来越偏——因为它还在用旧的数据来预测一个已经变了的世界。
在机器学习里,这叫概念漂移(Concept Drift)——数据的分布变了,但模型还是老的,所以模型的预测越来越不准。
人也一样。你二十岁建立的世界观,如果到了四十岁还一成不变,它大概率已经和现实脱节了。不是你错了,是世界变了而你的模型没有跟着更新。
所以,"训练自己的模型"不是一个一次性的任务。它是一种持续的生活方式:
- 定期审查你的数据来源——它们还可靠吗?有没有新的、更好的数据源?
- 定期检查你的预测——你最近的判断准不准?哪里偏了?偏了是因为数据变了还是你脑补了?
- 定期给自己降温——你有没有在某些问题上情绪化?这些情绪有没有在污染你的判断?
- 保持开放——你有没有在某些问题上过拟合了?有没有可能你坚信的东西,其实只是你的训练数据的局限?
五、写在最后
这本书的起点是一个简单的观察:你说母语的时候,和大语言模型做的事情一模一样——预测下一个词。
从这个起点出发,我们一层一层地展开:你是一个模型,你的数据决定了你的判断,你的数据可能被污染了,好数据被垄断着,你可以主动训练自己,你甚至可以用这个模型做出创新。
但这本书最想给你的,不是某一条具体的建议。
它想给你的是一面镜子。
当你对自己失望的时候,看一看这面镜子——不是"我不行",是我的数据在某个地方缺了或者偏了。
当你被焦虑淹没的时候,看一看这面镜子——不是天要塌了,是我的温度太高了,先降下来再说。
当你面对一个全新的、从未经历过的困境时,看一看这面镜子——不是我完了,是我的模型在这个区域还没有训练数据,我需要去补。
问题从来不在你身上。问题在你的数据管线上、在你的训练路径上、在你的温度设置上。
这些都是可以修的。
你的基础模型——那个你出生时就有的、860亿个神经元组成的、和人类历史上所有天才用的是同一个版本的硬件——它没有任何问题。
需要训练的不是它。
需要训练的是你喂给它的数据、你为它建立的反馈回路、和你为它选择的目标函数。
你读完了这本书。这本书本身就是一组数据——它刚刚被你的模型处理了。
如果你读完之后,看待自己的方式和翻开第一页之前不一样了,那你的模型已经经历了一次数据更新。
下次你对自己失望的时候,你会问的不再是"我为什么不行",而是"我缺什么数据"。
祝大家都能跑出自己的最优版本!
附录:AI术语人话版
这本书用了不少AI和机器学习的术语。你不需要记住它们,但如果好奇某个词到底是什么意思,翻这里。
模型(Model)
机器学习的核心概念,指从大量数据中训练出来的一套预测系统——给它输入,它输出结果。你的大脑就是你的模型,你见过什么经历过什么,决定了你怎么判断下一件事。
基础模型(Base Model)
AI领域中,指模型在被针对特定任务训练之前的通用状态,已经具备广泛的基础能力。对人来说,就是你出生时那个860亿神经元的大脑——什么都能学,关键看后面接触什么。
训练数据(Training Data)
用来训练AI模型的原始信息和样本,数据的质量和数量直接决定模型的能力上限。你听过的话、见过的人、经历过的事、读过的书,全是你的训练数据。
微调(Fine-tuning)
在已有的基础模型上,用某个特定领域的数据进一步训练,让模型在那个方向上变得更专业。比如一个人本来什么都懂一点,当了十年厨师之后,他在做菜这件事上就被"微调"过了。
预测(Prediction)
模型的核心功能:根据已学到的模式,推断下一个最可能出现的结果。听到"我饿了,我们去吃..."你的大脑自动补出"饭"——这就是预测。
预测编码(Predictive Coding)
神经科学中的一个理论,认为大脑不是被动接收信息,而是主动预测下一刻会发生什么,再用实际结果来修正预测。你走熟悉的路不需要认真看每一步,因为大脑已经在"猜"路的样子了,只有出现意外时才会"惊讶"并更新。
幻觉(Hallucination)
AI模型在数据不足时,自信地生成一个看起来合理但实际是错误的输出。人也一样——你不确定的事,大脑会自动补一个"感觉应该是这样"的结论,而且你自己还挺相信的。
过拟合(Overfitting)
模型在训练数据上学得太"死",把数据中的偶然特征也当成了普遍规律,导致面对新数据时判断失灵。比如被一个人骗过一次,从此认定"所有人都不可信"——用一个样本得出了一个太绝对的结论。
确认偏误(Confirmation Bias)
认知心理学概念,指人倾向于只关注支持自己已有观点的证据,自动忽略矛盾的证据。你觉得某个人不靠谱,之后就只注意他不靠谱的时刻,他靠谱的时候你视而不见。
温度(Temperature)
大语言模型生成回答时的一个核心参数,控制输出的随机程度。温度设得高,模型会更"放飞自我",什么离谱的结果都可能蹦出来;温度设得低,模型就老老实实输出最可能的答案。焦虑就是在给自己的大脑加温度——判断开始飘,什么离谱的担忧都冒出来。
损失函数(Loss Function)
机器学习中用来衡量"模型的预测离正确答案有多远"的数学函数,模型的整个训练过程就是在努力让这个值变小。放到人身上,就是谁在定义"什么是错"——考试分数、父母的脸色、社会的评价,这些都是你的损失函数,你的行为会不自觉地朝着"少犯错"的方向调整。
目标函数(Objective Function)
模型训练时要优化的目标,和损失函数一体两面——损失函数说"别往那边走",目标函数说"往这边走"。放到人身上,就是你到底在追求什么。很多时候你自己都没意识到你在优化什么。
数据管线(Data Pipeline)
AI工程中,把原始数据经过清洗、转换、筛选变成模型可用的训练数据的完整流程。你的大脑也有一条——外部信息先被眼睛过滤掉绝大部分,再被注意力筛一遍,最后理解能力决定你能消化多少。管线的任何一个环节出问题,好信息也到不了你脑子里。
灾难性遗忘(Catastrophic Forgetting)
AI模型在用新数据集高强度训练后,会丢失之前学到的知识,新数据把旧数据彻底覆盖。一个人被关在封闭环境里天天只听一种声音,听三个月之后以前相信的东西就可能被彻底冲掉。
迁移学习(Transfer Learning)
把模型在一个领域训练出来的能力,应用到另一个不同的领域。古登堡把酿酒压榨和金匠铸模的经验组合出了印刷术——前提是他在那两个领域都学得足够深,深到能抽象出底层结构。
课程学习(Curriculum Learning)
一种训练策略:按照从易到难的顺序给模型喂数据,比一上来就灌最难的数据效果好得多。先学加减法再学微积分,先听慢速英语再听正常语速。跳级听起来很酷,但模型消化不了。
最近发展区(Zone of Proximal Development)
教育学概念,指学习者当前能力边界外面一点点的区域——在这个区域里学习效率最高。大概能懂七八成、剩下两三成需要使点劲的那个地带。
概念漂移(Concept Drift)
机器学习中,指现实世界的数据分布随时间发生了变化,但模型还是按照旧的分布在做预测,导致准确率下降。二十岁总结出来的经验,四十岁可能不适用了——不是你当时错了,是情况变了而你没跟着更新。
元学习(Meta-Learning)
让AI模型学会"怎么快速学习新任务"的训练方法,目标不是学某个具体技能,而是学"学习"这件事本身。经历过很多次从零开始的人,再到一个全新环境会比别人更快上手。
元认知(Metacognition)
认知科学概念,指一个人对自己认知过程的认知——知道自己知道什么、不知道什么。这是所有能力的坐标系,有了它你才清楚自己的判断哪些靠得住、哪些其实在猜。
信息茧房(Filter Bubble)
互联网现象:推荐算法根据你的点击习惯,只给你推你"爱看"的内容,导致你接触到的信息越来越单一。你以为在自由浏览,其实只是在算法给你画的圈子里转。时间久了,你会以为那个圈子就是整个世界。