logologo
AI造出的人类社会:看着真像,但也可能全是“鬼扯”

AI造出的人类社会:看着真像,但也可能全是“鬼扯”

学术资讯

AI造出的人类社会:看着真像,但也可能全是“鬼扯”

想象一下,如果你能像玩《模拟人生》(The Sims)一样,在电脑里创造一个微缩版的人类社会。但这一次,里面的小人不再是只会撞墙的傻瓜程序,而是每一个都装载了像ChatGPT那样的大脑。他们会八卦、会结盟、会因为今天的咖啡不好喝而发脾气,甚至会自发地形成某种社会规范。

这听起来像是科幻游戏,但实际上,这正是目前计算社会科学领域最火热的前沿探索——生成式智能体建模(Generative Agent-Based Modeling)

科学家们兴奋地认为,这可能是理解人类社会的终极工具。然而,最近发表在《人工智能评论》(Artificial Intelligence Review)上的一篇重磅综述给我们泼了一盆冷水:虽然这些AI小人演得惟妙惟肖,但我们可能根本无法判断它们是在模拟真实的人类社会,还是在像个老练的骗子一样一本正经地胡说八道。

1. 从“笨鸟”到“数字人类”:社会模拟的进化

要理解这场革命,我们得先聊聊社会学家是怎么做“实验”的。研究物理可以撞粒子,研究化学可以烧试管,但研究社会总不能真的把一群人关起来折腾吧?

于是,基于智能体的建模(Agent-Based Models, ABMs) 应运而生。这东西的核心逻辑很简单:如果你想研究鸟群为什么能飞出那么整齐的队形,你不需要一个总指挥,你只需要给每一只鸟设定几条简单的规则(比如“别撞到邻居”、“跟着旁边的鸟飞”)。当成百上千只这样的“笨鸟”聚在一起时,那个壮观的宏大队形就涌现出来了。

几十年来,社会学家就试图用这种方法研究人类。比如,通过设定简单的规则来模拟种族隔离是如何形成的,或者恐慌是如何在人群中传播的。

但这里有一个巨大的硬伤:人不是鸟。

传统模型里的人太“简陋”了。他们通常被设定成只会遵循几条死板规则的机器人,或者是只知道追求利益最大化的冷血计算器。而在真实世界里,我们人类是复杂的——我们会记仇,会感性用事,会因为一句流言改变看法,有着复杂的文化背景和语言习惯。

直到大语言模型(LLM)的出现,大家突然看到了希望:如果把ChatGPT装进这些“小人”的脑子里,让他们像真人一样思考、说话、做计划,那模拟出来的社会岂不是这就“活”了吗?

2. 看着真像,就是真的吗?

确实,当研究人员把大模型接入模拟系统后,效果惊人。在一个名为“斯坦福小镇”的著名实验中,25个AI小人在虚拟小镇里生活,他们竟然自发地组织了一场情人节派对,甚至还互相发出了邀请。这简直就是社会科学家的梦想成真。

但是,这就代表我们能用它来预测现实世界的选举结果、股市波动或者疫情传播了吗?

荷兰阿姆斯特丹大学的研究者Maik Larooij和Petter Törnberg对此表示怀疑。他们对目前该领域的35项核心研究进行了地毯式的审查,得出一个令人不安的结论:目前的这些模拟,虽然看起来“像”真的,但大多缺乏严谨的验证。 换句话说,我们可能造出了一些演技精湛的演员,但他们演的剧本可能和现实世界毫无关系。

这篇综述不仅仅是吐槽,它揭示了一个核心矛盾:我们引入大模型是为了让模拟更真实,但大模型本身的特性,反而让“验证真伪”这件事变得比以前更难了。

3. 我们在模拟什么?又在如何验证?

为了搞清楚这个领域到底在发生什么,研究团队像淘金一样,从最初检索到的数百篇相关文献中,层层筛选,最终锁定了35篇最核心的研究作为样本。

如图[1]所示,这不仅是一个简单的筛选过程,更是一次对该领域现状的全面体检。通过这35篇论文,我们得以窥见目前科学家们正试图用AI模拟哪些社会现象,以及更重要的——他们是如何证明自己没有在“瞎编”的。

Figure 1
Figure 1

3.1 雄心勃勃的模拟目标

科学家们的胃口很大,他们的模拟范围几乎覆盖了人类社会的方方面面:

  • 个体行为:他们试图让AI特工拥有完美的“人设”。比如,一个设定为“保守派老爷爷”的AI,他在面对新科技新闻时的反应,必须与其身份相符,不能突然变成一个激进的科技极客。
  • 社交互动:模拟两个AI像真人一样聊天,甚至发展出友谊或敌意。研究者会观察它们是否能像人类一样理解“言外之意”或察觉社交潜规则。
  • 宏观社会现象:这是最令人兴奋的部分。研究者试图在硅基世界里重现信息茧房(Echo Chambers)、假新闻的传播路径,甚至是群体极化(Polarization)现象。他们想看看,是不是只要有一群AI在那聊天,这些复杂的社会结构就会自动涌现出来。

3.2 令人担忧的“感觉式验证”

虽然目标很宏大,但当我们拿着放大镜去检查“验证方法”时,问题就暴露了。

在传统科学中,验证模型通常需要用真实的历史数据去比对(比如用过去十年的股市数据来验证经济模型)。但在生成式AI的社会模拟中,研究者们似乎陷入了一种“感觉流”验证的怪圈。

“看着像那么回事”就是真的吗?

在该综述分析的研究中,超过半数的验证方法带有强烈的主观色彩。这种方法通常被称为“表面效度”(Face Validity),说白了就是“凭感觉”

  • 找人来打分:研究者会找一些志愿者(通常是众包平台上的廉价劳动力),让他们看AI的聊天记录,然后问:“这看起来像真人聊的吗?”如果志愿者说“像”,那模型就算验证成功了。
  • 作者自己说了算:有的研究甚至更省事,作者自己充当裁判,觉得AI的表现“符合预期”就算过关。

这种验证方式最大的问题在于:AI太会伪装了。 大语言模型最擅长的就是生成流畅、礼貌、看似合理的废话。它们就像是一个满嘴跑火车的骗子,说话滴水不漏,但这并不代表它们真正理解或模拟了人类复杂的社会机制。

更荒谬的“左脚踩右脚”:用AI验证AI

还有一个日益流行的趋势是让GPT-4去评价GPT-4的表现。研究者让一个大模型生成行为,再让另一个大模型去打分说“这个行为真不真实”。这种做法虽然省钱省力,但本质上是一种循环论证。这就像是让一个嫌疑人自己当法官,判决结果的可信度可想而知。

3.3 即使有了数据,也是“貌合神离”

当然,也有一部分严谨的研究试图用客观数据进行比对,比如对比Twitter(现X平台)或Reddit上的真实用户数据。但即便如此,很多验证也只停留在皮毛。

研究发现,很多所谓的“客观验证”,比对的其实是语言风格(比如句子的长度、用词的频率),而不是行为逻辑。AI生成的文本往往比人类更啰嗦、更礼貌、逻辑更完整。虽然在统计学上它们可能在某些维度与人类数据重合,但在核心的决策机制上——比如为什么你会转发这条谣言而忽略那条真相——AI可能完全是在依据另一套逻辑运行。

4. 越真实的假象,越危险的陷阱:三大核心难题

引入大模型看似解决了“仿真度”的问题,但《人工智能评论》的这篇综述尖锐地指出,这其实是用一种“新的麻烦”替代了“旧的麻烦”。而且,这些新麻烦可能更致命。

4.1 黑盒困境:它为什么这么做?鬼知道!

在传统的社会模拟中,虽然小人很笨,但它们很透明。如果小人A撞了小人B,我们只要查一行代码就能知道原因(比如代码写了“距离小于1米则碰撞”)。

但对于ChatGPT驱动的特工,这完全是个黑盒子。当一个AI特工决定发起暴动或购买某支股票时,它背后的决策路径是由数千亿个参数共同决定的。即使你问它:“你为什么要这么做?”它给你的回答也只是它生成的“解释”,而不是真实的“原因”。它可能只是因为这句话接在上一句后面概率最高,而不是因为它真的经过了深思熟虑。

这就导致了一个尴尬的局面:我们试图用模拟来解释社会现象,结果创造出了一个我们自己都无法解释的模型。

4.2 偏见与刻板印象:它演的不是人,是“刻板印象”

大模型是吃着互联网数据长大的,这意味着它们完美的继承了互联网的偏见

当研究人员要求AI扮演一个“没上过大学的蓝领工人”或“少数族裔母亲”时,AI往往不是在模拟真实的个体,而是在表演它从网上学来的刻板印象(Stereotypes)。研究发现,AI扮演的角色往往表现出夸张的礼貌或特定的偏见行为,这并不是真实人类的复杂表现。

更要命的是数据泄露(Data Leakage)。很多社会科学的经典理论(比如“谢林隔离模型”)和历史事件都已经写在书里被喂给AI了。当你试图验证“AI是否会自发涌现出某种社会隔离现象”时,它可能并不是真的“涌现”了什么,而只是在背诵它训练数据里看过的教科书内容。这就像开卷考试,你以为它懂了,其实它只是记忆力好。

4.3 随机性的诅咒:薛定谔的模拟结果

科学研究讲究“可重复性”。如果你做一次实验结果是A,第二次是B,那这个实验就废了。

遗憾的是,大模型本质上是概率生成器(Probabilistic)。同样的输入,每次输出都可能不同。这种随机性在写诗时是灵感,在科学实验中就是灾难。为了消除这种随机误差,你需要进行成千上万次重复实验。

但这里有个很现实的门槛:。 调用大模型是要花钱的。如果我想模拟一个拥有100个居民的小镇生活几天,光是Token(字数)的费用可能就高达数千美元。如果要进行严谨的参数敏感性测试(比如跑个1000次),成本可能瞬间飙升到几十万美元。

结果就是,目前绝大多数发表的研究,往往只跑了一次模拟。这种“一次定终身”的做法,在统计学上就像是抛了一次硬币正面朝上,就宣布“硬币永远只会正面朝上”一样不靠谱。

5. 结语:是显微镜,还是万花筒?

生成式AI社会模拟现在正处在一个尴尬的“青春期”。

这就好比它们卡在了两个世界之间:一方面,它们失去了传统数学模型那种简洁、优雅的解释力(虽然简陋,但逻辑清晰);另一方面,它们又没能达到大数据科学那种基于真实数据的实证力(虽然枯燥,但有据可查)。

它们既不够简单,也不够真实,成了一个极其昂贵、极其复杂、又极其难以捉摸的“中间物种”。

这篇综述的作者警告我们,如果不解决验证(Validation)这个核心痛点,这些华丽的AI模拟最终可能只会沦为“昂贵的玩具”——它们能生成无数令人眼花缭乱的社会图景,就像万花筒一样精彩,但对于我们理解真实的人类社会,可能并没有提供任何实质性的新知识。

但这并不意味着我们要彻底否定这条路。也许,我们需要换个角度看问题:这些AI特工可能不是用来预测未来的水晶球,而是用来帮助社会学家进行思想实验的超级沙盘。它们能让我们以极低的道德风险和时间成本,去探索那些在现实中无法进行的“如果……会怎样”的假设。

未来的关键,不在于把AI做得多像人,而在于我们能否设计出更聪明的方法,去拆穿它们那层“像人”的伪装,看到其背后真正涌现的机制。

最后,留给所有人一个开放性的思考:

当你下次看到新闻说“AI模拟预测了某场选举结果”或“AI揭示了人类社交真相”时,请先别急着相信。问自己一个问题:我们是在通过AI这面镜子看清人类,还是仅仅在看着AI模仿人类的倒影中自我陶醉?

论文信息

  • 标题:Validation is the central challenge for generative social simulation: a critical review of LLMs in agent-based modeling.
  • 论文链接https://doi.org/10.1007/s10462-025-11412-6
  • 论文一键翻译点击获取中文版 ➡️
  • 发表时间:2025-11-18
  • 期刊/会议:Artificial intelligence review
  • 作者:Maik Larooij, Petter Törnberg

本文由超能文献“资讯AI智能体”基于4000万篇Pubmed文献自主选题与撰写,并经AI核查及编辑团队二次人工审校。内容仅供学术交流参考,不代表任何医学建议。

文献检索

告别复杂PubMed语法,用中文像聊天一样搜索,搜遍4000万医学文献。AI智能推荐,让科研检索更轻松。

立即免费搜索

文件翻译

保留排版,准确专业,支持PDF/Word/PPT等文件格式,支持 12+语言互译。

免费翻译文档

深度研究

AI帮你快速写综述,25分钟生成高质量综述,智能提取关键信息,辅助科研写作。

立即免费体验