附一:各企业研发游戏AI的失败原因
创建日期:2024-08-22
更新日期:2025-02-02
阅读次数:233
通过游戏研发AGI的企业
Google DeepMind 开发过《围棋》《星际争霸》的游戏AI,战胜了顶尖人类玩家。 对AGI有基本认知:AGI未必需要现实机械身体。AGI的核心是学习如何学习,我们应该观察 AGI 随着时间的推移如何发展,而不是AGI在某一刻能做什么。 北京通用人工智能研究院 在OWA-2024会议中讨论了【开放世界游戏AI】与【开放世界环境中的多智能体系统】。 其他 许多公司试图通过策略游戏中的AI实现AGI。 例如,开发一款游戏,其中有两个身份:攻击者,躲藏者。攻击者需要想办法看到躲藏者,躲藏者需要利用建筑物来躲藏。 通过百万局的训练,攻击者与躲藏者都变得很聪明,躲藏者会捡东西来修建防御墙,攻击者会使用假动作、迅速转身。 攻击者与躲藏者有一定的泛化能力。当进入其他类似的游戏环境中时,只需要几万局的“少量”训练就能掌握。 但如何进一步提升泛化能力,他们没有头绪。最终不了了之。
失败的原因
原因在于三点:社会性、学习机制、模板AI
社会性
AGI应当诞生于社会性游戏,而不是诞生于策略游戏。 社会性游戏,是指游戏中存在至少数十种分化的职位,且存在剥夺。 剥夺:地球中,富豪的能力是给予,官员的能力是剥夺。剥夺是社会的核心。
当代游戏的社会性 围棋中只有两个智能体,非社会。 CSGO中有十多个智能体,但不存在分化,因此非社会。 群星中有十多个智能体,但不存在分化,因此非社会。 率土之滨中存在上百个智能体,存在两个身份分化:领主与平民。身份太少,且不存在剥削,因此非社会。 EVE中有上百万个智能体,存在几十种身份分化,存在几种剥削方式(税收、垄断、永久死亡),因此是社会。
题外话:EVE的缺点 EVE中不存在NPC智能体,不存在【NPC监护人】身份。这导致EVE无法培育AGI。 EVE中不存在NPC智能体,这导致EVE玩家中绝大多数都属于底层阶层身份,痛苦。我们的游戏会让绝大多数玩家属于中高阶层身份,底层大多是AGI-NPC。
学习机制
AGI应当是婴儿,而不是成人。 AGI的学习应当是后天的,而不是先天的。 AGI的学习应当以【认为X会实现Y,但不确定,执行X,果然实现Y,愉悦】为学习。而非监督学习。
人有三大底层奖励:生存,繁衍,进化。 生存奖励:食用美食时的愉悦。 繁衍奖励:性交时的愉悦。 进化奖励:新鲜感,成就感。 AGI的学习应当基于进化机制。
问:毒品、自慰、游戏、复仇、赌博算什么? 答:进化不严格。毒品是生存的bug,自慰是繁衍的bug,游戏与赌博是进化是bug,复仇是进化。
问:为什么性交的愉悦那么强?远超其他两个。 答:饥荒三年,忍饥挨饿,今日天子赐福,米肉管饱。愉悦如何? 筹划三十年,一朝收网,成则名垂千古,败则遗臭万年。胜。愉悦如何? 三者峰值强度是一样的。只不过性交容易达成峰值罢了。
问:何谓进化? 答:学到知识。知识的格式为【我有过希望某结果A,那时可被描述为B。在我希望获得结果A且满足B时,如何获得结果A?做某事C,而非D】,其中C可以且通常是【顺应直觉】。 会希望的包括:
- 生存系列、繁衍系列、以及其衍生(A衍生:要实现A而需要先B。对B的欲望为对A的欲望的衍生)
- 不退化。bug为:我没错
- 认为X可实现。然后发现看似合理的A无法实现X,且自己想不到其他实现方式。此时对了解实现X的方式有欲望。(如果无法实现X,那么意味着自己错了)
- 见过X,如今Y,X优于Y。想法:我不该如此。此时有对X的欲望。
新鲜感,成就感,赌博,复仇,游戏,好为人师,其中的爽,本质都是上述格式的学习。 学校教育通常不符合上述格式。因此学校教育无法激活学习机制,表现为学生们看似【厌恶学习】。 实际上,没有人厌恶学习,每个人都喜欢学习,但学校教育不是真正的学习、不符合智能的学习机制。
关于学习机制,更多信息可见于: 【普通游戏设计理念】【忽视】 【普通游戏设计理念】【忽视、毕业、使用】 【学术游戏设计理念】【降阶】
模板AI
在社会性游戏中,应当存在大量的先天AI(即成人)作为AGI婴儿后天学习的模板。 如果没有模板,那么一个纯婴儿的社会很容易发展得畸形。即便我们看到社会畸形,也无法以此判断【AGI算法有问题】,这导致无法迭代研究。 一定有企业想到过社会化游戏,但因没想到模板而否决了社会化游戏。
即,如下迭代方法是注定失败的:
- 构建一个世界,其中有大量的AI NPC,使用初代AGI算法。
- 一日千年,观察这个世界的演变,如果演变的不好,那么修改AGI算法、重新观察。直至实现AGI。
如下迭代方法才可成功:
- 构建一个特殊的世界:其中有大量的AI NPC、使用行为树算法,且从多个方向达成这个世界中的各个局部最优解。有一个使用初代AGI算法。
- 一日千年,观察这个AGI的成长过程。如果过程不对,那么修改AGI算法,重新观察。直至实现AGI。
二者的区别在于: 前者无法获取信息,只能获取到【算法不对】这一个信息。改动如无头苍蝇一般乱改。 而后者可以获取到【从哪一个行为开始明显不对】的信息,并基于此而使用自我认知来对比出更完备的先天算法。 自我认知:见于何谓自我认知与内觉