从大数据到好猜想：关于大模型时代消费者的理解

大数据大模型时代消费者理解

范凌的泛谈 | 2025-08-05 23:40

【数据猿导读】一位品牌客户说：“我们想通过分析社交媒体数据，进行新品研发、竞品对比、销售卖点提取。能不能爬取各个平台的全量数据来分析？小红书、抖音、微博、B站...越全越好。”

00. 一个常见的商业需求

一位品牌客户说：“我们想通过分析社交媒体数据，进行新品研发、竞品对比、销售卖点提取。能不能爬取各个平台的全量数据来分析？小红书、抖音、微博、B站...越全越好。”

确实，社交媒体是个数据宝藏。每天有数亿用户在上面分享他们的真实想法、使用体验、购买决策。如果能把这些“全量数据”都抓取下来，进行分析和归因，似乎就能洞察一切。

但是，我想追问几个问题：

爬取全量数据合法合规吗？（大部分平台明确禁止）
爬取全量数据要多少成本？（一个平台就要数百万）
爬取数据更新频次是多少？（实时？每天？每周？）
如何清洗这些数据？（虚假内容、水军、广告...）
最关键的：如何从噪音中提取信号，产生真正的商业洞察？（热门≠真实，声量≠影响力）

这个需求隐藏着一个追问：

我们追求正确的目标的方法足够正确吗？

更让人深思的是，就在这次会议的同一周，我了解到一个仅有40人的新消费品牌，没有爬取任何“全量数据”，只是深度访谈了30个用户，却准确预测了一个细分市场的爆发，半年内做到了细分类目第一，区别在哪里？

01. 橙汁理论

用一个思想实验来解释这个悖论。想象两个实验室都在研究橙汁：

实验室A

配备了最先进的光谱仪和色谱仪。他们精确分析出：水分85.97%，蔗糖4.23%，果糖3.82%，葡萄糖1.95%，柠檬酸0.92%，维生素C 47.3mg/100ml...数据精确到小数点后两位。

实验室B

只有一个目标：调配出让你的味蕾产生“这就是鲜榨橙汁”反应的饮料。他们不断尝试，不断调整，直到10个品鉴师中有9个说：“这就是橙汁的味道。”

实验室A得到“真实”（Real）——橙汁的客观组成；

实验室B得到“真相”（True）——橙汁的主观体验。

如果你是品牌方，想推出一款橙汁饮料，你会选择哪个实验室的方案？

“真实”告诉你边界——什么是安全的、合法的、可行的。

“真相”告诉你方向——什么是用户真正想要的、会为之买单的、能创造价值的。

在商业世界，我们经常容易找到了“真实”，但不一定能找到“真相”。

我们知道用户的每一个点击（真实），却不知道点击背后的渴望（真相）；

我们测量了每一个转化率（真实），却不理解转化背后的动机（真相）；

我们统计了每一个关键词（真实），却不明白词语背后的情感（真相）。

02. 大数据的局限

回到开头那个美妆品牌的故事。他们的数据分析无懈可击：

“天然成分”提及量增长892%；

“敏感肌友好”互动率提升34%；

竞品平均价格区间35-45美元；

目标人群Instagram活跃时间晚8-10点。

基于这些“洞察”，他们推出了主打天然成分、敏感肌适用、定价39.99美元的产品线，并把营销预算的70%投在了Instagram晚间时段。

但他们没有理解的是：

当25岁的Emma在说“我想要天然护肤品”时，她真正表达的是“我想要一个不那么复杂的生活”。她刚从大学毕业，面对职场压力，怀念校园时代的简单。“天然”对她来说，不是成分表上的植物提取物，而是一种“回归简单”的生活态度；

当28岁的Jessica提到“敏感肌”时，她其实在说“我受够了不断试错”。她的梳妆台上有17瓶半用完的护肤品，每一瓶都代表着一次失望。“敏感肌友好”对她来说，不是低刺激配方，而是“这次不会再让我失望”的承诺。

那个成功的新品牌做对了什么？

他们只深度访谈了30个用户，每次2小时。创始人亲自参与每一场访谈，不是问“你喜欢什么成分”，而是问“早上照镜子时，你在想什么？”最后，他们的产品文案不是“98%天然成分”，而是“让护肤回归到只需要三步的简单”。不是“敏感肌专用”，而是“我们测试了1000次，所以你不用再试错”。

销量差异的背后，是理解深度的差异，

是用“好数据”来实现对“大数据”的祛魅。

03. 归纳主义的困境

为什么真实的数据不一定代表真相？答案藏在一位英国量子物理学家的书里。大卫·多伊奇在《无穷的开始》中讲了一个发人深省的故事：

大数据_大模型时代_消费者理解-1

火鸡每天早上9点被喂食。它们中的科学家收集了数据：

第1天：9点，食物出现 ✓

第2天：9点，食物出现 ✓

第3天：9点，食物出现 ✓ ...

第364天：9点，食物出现 ✓

基于364个数据点，火鸡的科学家得出结论：“每天9点必然有食物”。

它甚至可以计算出置信度：99.7%。

第365天是感恩节。

这就是归纳主义的致命缺陷：无论你有多少数据，都无法保证下一次会发生什么。

多伊奇指出，归纳主义错误有三个层次：

第一、逻辑层面：从特殊到一般的推理本身就是谬误

想象你是Netflix的数据科学家：

观察：用户A看完《纸牌屋》后看了《绝命毒师》
观察：用户B看完《纸牌屋》后看了《绝命毒师》
观察：用户C、D、E...都是如此
结论：看完《纸牌屋》的人会看《绝命毒师》

但这个结论是怎么得出的？多伊奇提醒我们：在逻辑上，你永远无法从“所有观察到的天鹅都是白的，推出所有天鹅都是白的”。因为你的观察永远是有限的。

第二、实践层面：相关性不等于因果性

即使相关性是真的，也不意味着你理解了原因：

数据显示：冰淇淋销量与溺水事故高度相关
归纳推理：冰淇淋导致溺水？
真实原因：夏天（你没测量的变量）

在商业中，这种错误每天都在发生：

❌使用深色界面的App用户留存率更高 → 所以都改成深色模式？
❌购买有机食品的人更长寿 → 所以卖有机食品能让人长寿？
❌周二的转化率最高 → 所以把所有营销预算投到周二？

第三、认识论层面：知识不是从数据中“提取”出来的

这是多伊奇最深刻的洞察。他问了一个问题：如果知识来自归纳，那么第一个知识是从哪里来的？

答案揭示了一个惊人的真相：知识是被创造的，不是被发现的。

04. 科学进步来自于猜想

多伊奇提出了一个革命性观点：科学理论并不是“推演”而来的，它们就是一些猜想——大胆的推测。正如他所说：“发现一种新的解释，本质上是一种创造性的行为。要把天空中的光点解释成白热的、直径数百万千米的球体，必须先对这类球体有一个概念...这样的想法不会自发产生，也无法根据任何事物机械推演而得：它们必须是猜出来的——随后可以接受批评和检验。”

多伊奇用科学史上最伟大的发现来证明他的观点：

爱因斯坦的相对论：不是因为他有更多实验数据，而是他猜想：“如果光速是恒定的会怎样？”这个猜想违反直觉，但解释了所有已知现象，还预测了新现象。

达尔文的进化论：不是因为他观察了更多物种，而是他猜想：“如果生命通过自然选择演化会怎样？”这个猜想统一了生物学的所有观察。

魏格纳的板块构造理论：不是因为地质学家收集了更多岩石样本，而是魏格纳猜想：“如果大陆在漂移会怎样？”这个当时被嘲笑的猜想，最终解释了地震、火山、山脉的形成。

多伊奇认为：

科学进步的模式不是“观察→归纳→理论”，

而是“问题→猜想→批判→更好的猜想”。

但是，不是所有猜想都有价值。多伊奇定义了“好猜想”的标准，我把它翻译成商业语言：

1. 难以篡改（Hard to Vary）：

多伊奇用了一个精妙的例子，为什么科学理论比神话更好？古希腊神话解释冬天：冥后珀耳塞福涅被劫持到冥界，大地女神得墨忒尔伤心，植物停止生长。科学解释冬天：地球轴倾斜23.5度，导致不同季节接收太阳辐射量不同。

区别在哪？神话可以随意修改（为什么是伤心不是愤怒？），但你不能随意把23.5度改成30度——这个数字是被物理规律锁定的。

商业中的应用：

❌坏猜想：“用户不买是因为价格太高”——这个解释太容易改了，价格低了还可以说“质量感知不足”；
✅好猜想：“千禧一代拒绝抗衰老产品是因为购买行为与自我认知冲突”——这个解释很难随意修改，它指向特定的心理机制。

2. 可以检验（Testable）：

好的猜想必须冒着被证伪的风险。如果一个理论怎么都是对的，那它什么都没说。

商业中的应用：

❌坏猜想：“用户想要更好的体验”——怎么验证？什么叫"更好"？
✅好猜想：“职场女性购买护肤品是在购买‘掌控感’”——可以设计实验验证：强调“掌控”vs强调“呵护”的文案转化率

3. 解释深度（Explanatory Depth）：

多伊奇特别强调好的解释不仅要说明“是什么”，更要解释“为什么”。而且这个解释应该能统一看似无关的现象。

商业中的应用：

❌坏猜想：“用户喜欢简约设计”——只解释了表象
✅好猜想：“信息过载让用户将‘简约’等同于‘可信赖’”——解释了现象背后的心理机制，还能预测其他行为（比如为什么用户也偏好精简的产品线）

05. 大数据比好猜想易操作

如果好猜想这么重要，为什么大多数公司还是采用大数据的归纳主义呢？

首先，猜想需要勇气，数据提供安全感：跟老板说“基于数据显示...”永远比说“我的理论是...”更安全。即使失败了，你也可以说“数据当时确实是这样”。

其次，猜想需要跨界的思维模型，理解“身份认知冲突”需要心理学知识，理解“社会资本信号”需要社会学知识。但看懂“点击率提升23%”只需要会看数据报表。

另外，猜想很难规模化，数据可以自动化，一个优秀的用户研究员一年可能产生10个好猜想。一套数据系统一天可以产生10000个图表。

在KPI驱动的组织里，你选哪个？最后，猜想的价值很难即时证明，“用户购买奢侈品是在购买‘理想自我’”——这个洞察可能需要整个营销战役才能验证。但最深层的原因是：我们没有工具来增强猜想能力，所以我们用数据简单归纳取代了猜想。

06. 大模型带来的商业启蒙

启蒙运动的核心是人类开始相信通过理性思考和科学方法，我们可以理解世界的运作规律，而不仅仅依赖权威和传统。在商业世界中，我们也可以从依赖数据权威转向理性地理解用户行为的深层机制。大语言模型，有机会让“规模化的猜想”成为可能，Atypica.AI就是我们的一个尝试。

还记得橙汁的比喻吗？传统的社媒聆听（Social Listening）就像采用“大数据”的方法分析橙汁的化学成分；而Atypica.AI采用了“大模型”的方法——它像是将橙汁提炼成浓缩粉，然后用语言模型作为“水”，重新还原成橙汁。

这杯“合成橙汁”虽然不是天然的（真实），但它努力模拟橙汁的完整体验——不仅包括口感、色泽、营养特征（真相），更重要的是模拟了人们品尝橙汁时的认知过程和情感反应。Atypica.AI通过构建“真实人格智能体”（Real Person Agents），这些智能体保持一致的认知模式、情感反应和决策框架，能够在85%的准确率上模拟真实人类的行为决策。

为什么这种方法能够产生好的猜想？当Atypica.AI基于社媒数据或访谈语料构建消费者智能体时，它实际上是在回答一个核心问题：“什么样的心理机制和认知框架能够产生这样的表达和行为？”这不是归纳统计，而是解释性理论的构建过程——一种对人类决策机制的科学猜想。

传统方法研究用户就像研究橙汁的化学成分，即使掌握了所有标签，也难以完全重构用户的复杂性。而大模型方法通过“语言模型”来理解商业中的主观因素，自动构建人格画像、进行访谈、分析模式，揭示人类选择背后的情感和认知因素。这个过程的原理和效果可以参见《为什么AI可以模拟真实消费者》一文。

让我们看看下面的案例：

案例一：一家食品公司想推出针对年轻白领的圣诞礼盒。

社媒数据显示：

“精美包装”提及率68%

“实用价值”关注度52%

“创意设计”互动率增长35%

Atypica.AI的发现：

有一群“创意礼物探索者”人格的消费者，他们不是在买礼物，而是在寻找“表达自己品味的载体”；

41%的用户抱怨包装过于复杂——不是因为难拆，而是“感觉像在炫技而不是送礼”；

关键洞察发现，迷你组合装受欢迎，不是因为“尝试多样”，而是“降低送礼失败的风险”。

案例二：护肤品不是护肤品

某国际护肤品牌想了解为什么在中国市场表现不如预期。

社媒数据显示：

价格偏高（提及3421次）

效果一般（提及2156次）

不适合亚洲肤质（提及1832次）

Atypica.AI的发现：

中国消费者购买高端护肤品时，不是在购买产品，而是在购买一种“掌控感”；

“效果一般”的背后，是“看不到每天的微小进步”的焦虑；

真正的竞争对手不是其他护肤品牌，而是医美项目——“立竿见影”vs“日积月累”

基于这个洞察，品牌推出了“肌肤日记”APP，用AI技术追踪每天的细微变化，销量增长230%。

大模型之所以有机会解决归纳主义问题并形成好猜想，关键在于它有可能改变了认知的基本方式。Atypica.AI不是在归纳数据模式，而是在科学的构建用户认知的猜想。当大模型基于“访谈”或“社媒数据”等语料构建“消费者智能体”时，它实际上是在回答：“什么样的机制能够产生这样的表达和行为？”这是解释性理论的构建过程，而非归纳推理。但是与科学探索不同，在原来的商业环境中往往需要在短时间内得到结论，因此很难大规模进行快速的创造性猜想。大模型建构的消费者智能体恰好解决了这个问题：

多元思维模型：大模型可以同时调用多个思维模型框架（心理学、社会学、行为经济学等），生成关于用户心理机制的多元假设，这相当于拥有了一个跨学科的“猜想生成器”。
认知一致性建模：大模型形成的消费者人设不是标签的简单重组，而是通过智能体构建一套具有内在一致性的，并模拟人的认知系统。
透明的验证过程：多伊奇强调好解释必须可检验。消费者智能体的独特价值在于其思维过程是“透明”的——我们可以观察它如何从价值观推导出具体行为，验证我们的心理机制理论是否成立。

大数据_大模型时代_消费者理解-2