【译介】设计测试:使用吸引力指标使创新的游戏设计快速进化
原文为Daniel Cook 2005年的一篇文章Design Testing: The use of addiction metrics to force rapid evolution of innovative game designs.
本文内容为我在机翻的基础上润色得出,难免错漏,也会在拿不准的地方给出原文。此外,考虑到不同语境的区别,将文中的addiction,或者addictive译为了吸引力、引人入胜的等意思。
由于文章已是2005年的旧文,或许有一些内容已经不具有时效性。但是惊人地从17年之后会看,其中一部分内容已成为现实。关于我个人的观点将会附在文章的最末。
以下为正文
我(Daniel Cook)写这篇博客的目的之一是构想出一种新的游戏开发方法论,来给小人物们权力(empowers the little guy,或许是意为给开发者相对于投资人更多权力),帮助游戏行业创新发展。我们如何更迅速地、更低风险地制作出创新的,引人入胜的游戏呢?测试出一些指标,并将其应用于提升游戏对玩家的吸引力或许会是答案之一。(Part of the answer is the rigid application of gaming metrics to the process of improving player addiction.)
“野路子”设计师的遗产(The Legacy of Cowboy Designers)
传统的设计者大多是“野路子”出身。当代游戏设计是一个“野路子”设计师构建游戏时主观地遵循混乱的、内容向的过程。
“野路子”程序员
这个形容的方法来自于编程圈,早起的程序员会在尽可能短的时间内打出“牛逼”的代码。这些“野路子”程序员是独行侠,是领域中专家级的人物,对自己的程序有着直觉上的深刻理解。
代码规范、方法论、甚至于是团队协作对于这些远古“野路子”程序员来说都是禁忌。他们的代码高深莫测,许多的决策过于武断。随着行业的发展,不可避免的问题出现了:无法构建大规模的项目,许多项目也因为bug过多而结束了。最终,有人总结出了更好的编程方法,这些方法更可靠、风险更低并且产出更好。感谢上帝!
“野路子”设计师:这种“随意”状态的复刻
“野路子”设计师在许多方面上与之相同。当遇到一些决策时,他们随机地去做选择(shoot from the hip,腰射,大概是形容选择结果的正确率低),依托不断调整某种“乐趣”的感觉去设计系统或者撰写需求文档。这种关于“乐趣”的直觉是在内化了同品类大量类似的游戏玩法后建立的。
这种经验上的知识在复制一个玩法或者专注于游戏后期的大模式是很有用的,做错了也不会过大破坏整个游戏。毕竟为宝可梦添加第101个精灵的风险和添加第100个精灵时一样,基本上是不会犯错的。对现有的玩法进行“微小的”或者说“精心的”改动正是许多“野路子”设计师的工作。许多设计师的(对于同样的设计组合)“我可以做得更好”综合征不仅是创新停滞的一个因素,还被大多数发行商积极鼓励,以降低开发新游戏的风险。
“野路子”设计师扼杀了创新
凭直觉的“野路子”设计师最大的问题是当设计涉及到开发出一种崭新的核心玩法时的失败率很高。当试图把新的规则相组合,创造出动态不同的体验时,先前积累的其他品类的经验不见得在这里就会适用,反而可能会导致以下情况发生:
- 缝合怪设计。设计者混合了两种成熟的玩法。由于是根据经验而非对玩家心理的研究做出的缝合,导致结果常常是并不好玩。
- 乱糟糟设计。这种设计将未经测试是否合适的多个玩法随意地混合在一起。随机设计出的游戏往往成功率非常低。
无论是那种情况,最终的结果都是团队解散、游戏失败。也难怪发行商不会大量投资给创新。
过程不好,人不坏
本可不必是这样的。我们只是用了错误的设计方法,老派的“野路子”方法只适用于制作“射击游戏#64”。(Shooter Clone #64,似乎是讽刺只能做出复制的游戏,只赋予编号,都懒得为其命名)这种方法在尝试设计新东西时惨遭失败,不过只要有了正确的设计方法论,降低创新设计的风险,就会迎来创造力的蓬勃发展。
反馈简介:神奇的设计工具
我们真正需要的是一个可靠的反馈机制,降低投资的风险,以便更自由地去创新。
现代反馈荒漠
考虑游戏设计中传统的反馈周期。你花费了12-18个月制作一部游戏,大部分的反馈来自于传统的游戏测试人员和内部的团队测试。这部分信息非常游泳,但同样会有以下几个问题:
- 这些信息是主观的。大多数反馈是定性的,并且过滤自一个预设观点的硬核游戏开发团队。
- 反馈在统计学上是无效的。测试是在少数测试者中进行的,他们不能准确地代表目标市场,他们的意见也不一定符合大市场上的其他玩家。
在这个阶段,你几乎没有什么机会做出反应。所有的修复都发生在游戏的“表层”(不去修改核心玩法),因为其风险较低。你可以替换一些美术素材或者一些变量,但很难有时间去修改核心机制,因为修改一个内容繁杂的系统中的成本太大了!
一旦游戏发布并“落入”玩家手中,这是终于可以获得关于整个开发过程中的设计决定的第一批准确反馈。要么卖得好,要么见光死,如果你的游戏碰巧失败了,就不再有第二次机会了。如果第一次没有作对,整个团队都可能被大失所望的发行商砍掉。
这并非一个健康的反馈循环。从早期阶段就很难做出有意义的改变,而犯了错的人将会受到严峻的惩罚。幸存下来的人们看到路边这些惨淡的同行,也就认识到冒险创新是危险的。
明确一个有用的反馈机制
我们需要一个这样的反馈机制:
- 当设计使游戏不平衡时迅速得到反馈
- 在无风险的情况下测试玩法的多种变化
- 在大量投入之前预见到改变引起的效果
这样的设计工具允许对游戏设计进行“渐进式”的投资。如果犯了一个错误,可以回滚这个设计,而非让其成为潜藏的爆破项目的炸弹。由于修改、反馈、确定的周期更短,团队可以通过一系列的修改快速迭代。
引入标准
有很多测试新系统可以给我们提供有趣的反馈,例如:
- 单元测试
- 市场测试
- 设计测试
我将简要地介绍前两点,并解释设计测试如何从根本上改变游戏的设计方式。
单元测试
单元测试是游戏开发中最常见的测试手段,借用自敏捷编程的方法论。在各种书籍和网站中都有广泛的介绍,主要关于代码的完整性和可重构性。这固然是很重要的东西,并且在游戏开发过程中是必须的。但是单元测试只解决游戏程序的风险,而不是设计上的风险。
市场测试(也称市场调查)
市场测试是另一种常见的产品测试方法,即将产品样本交给用户,让他们评价购买的可能性。市场测试包含许多内容,从小组访谈(focus groups),到概念测试(concept testing),再到全面的市场测试和成品的大规模上线。
传统的市场测试在应用于游戏设计时会出现如下问题:
- 昂贵。这限制其只能用于最大的游戏开发商和发行商。
- 结果有限。第二点也是最糟糕的一点:如果没有真去玩一个游戏,你怎么知道它到底吸不吸引你呢?我可以给你看一个盒子,上面有一个拿着枪的人,然后去问潜在的玩家是否会购买。但是这样调查不会提供任何有意义的信息,也不会让开发者知道手上的这款游戏是下一个光环还是下一个大刀(Daikatana,根据wiki据说这游戏是游戏界最让人失望的游戏之一)。“怎么玩的?”是竞争中最关键的信息。
游戏,作为一种可测试的产品,依旧存在于市场研究的真空中。许多经过多年消费产品研究验证的传统技术根本不适用,它们不能捕捉到游戏的“吸引力”,即游戏本质的竞争力。
设计测试
我们需要测试和标准来捕捉游戏一闪即逝的“乐趣”和“吸引力”。
是什么让我认为我们可以测试“乐趣”和“被吸引”?我相信,游戏的核心机制依赖于一个相对简单的心理上的奖励机制,一个被游戏吸引的玩家会表现出某些容易识别的行为。通过统计学上的方式跟踪这些行为,设计者就可以或者他们游戏系统中的那些部分是更吸引玩家的。
设计测试的常用指标
测试吸引力比你想象得要容易。以下指标就可以衡量全系统对于玩家的吸引力,而且很容易收集:
- 游玩时间长度
- 游玩强度
- 再次游玩的意愿
- 两次游玩的间隔
- 游玩次数
- 退出点调查
Game Token Metrics
(这部分有点拿不准,感觉此处token可以是街机的代币,代表一种玩法付费,也可以是氪金,氪金时间点、氪金体验……但是考虑到此文时间在2005年,买断制应该是绝对主流。在我个人的理解中,token指的是每个玩法原子,这里就保持token原文了。如果不明白建议查看原文)
你还可以得到更多的原子,并测量每个token的指标,以便深入了解为什么会出现特定的吸引模式。
- 每个token的使用时间
- 使用token的频率
- 使用token的间隔
- 对于token使用体验的准确调查
投资回报率指标
最后,你可以通过上述指标的信息与项目跟踪中生产成本的信息相结合,计算出投资回报率指标。这将为你提供一些有趣的信息,说明你的开发投入在哪里得到了回报。
- 每个token的投资回报率。根据使用时间/开发成本计算。
- 每个游戏系统的投资回报率。
一旦你计算投资回报率指标,会得到许多耐人寻味的结果。某些投入的回报很低,你可以增加一些新怪物或者新关卡,但是游戏不会变得更吸引人,反之,如果加入了一个强化/升级系统,就能发现游戏明显的变得更有吸引力了。
控制图
你可以在控制图上跟踪这些指标。这种简单的制图方法跟踪特定指标随时间的变化。当一个系统被改变时,你可以在控制图中立即看到结果。
一般来说,会有一两个关键指标(关键表现指标,或KPI),给你一个“强而有力”的指示,让你的游戏系统更具有吸引力。其他指标将是影响你KPI的次要因素。例如,强化/升级系统的重复使用时间并不是游戏中最重要的单一因素,但它会影响总的游戏时间(反应游戏吸引力的重要指标)。
使用数据
一旦你用数据填充了控制图,就可以按照明确定义的变更方案进行简单的处理。
- 创建一个设计变更
- 在玩家中测试这个改变
- 收集、处理数据
- 如果与以前的基准相比,变化是积极的,则保留该功能
- 如果变化是负面的或混合的,则创建一组新的修改
- 追踪关键指标,保证有稳定的提升。
未来可探索的方向
上文是对设计测试中所涉及的技术的一个非常粗略的概述。这是一个既广泛又深入的领域,它借用了市场研究和流程工程中许多成熟的想法,并将它们应用于游戏设计的问题。其他方法包括:
批量测试(batch testing):同时测试大量的游戏设计机制的变化。取出最佳结果并进一步探索。
将KPI与投入上的结果挂钩:使用回归分析,将关键统计数据与有财务意义的结果联系起来。对于在线游戏,记录订阅的回购率。对于基于广告的游戏,测量客户推荐率和印象数量。对于买断游戏,则测量初始购买率。设计测试的局限性
设计测试是一种相当激进的新游戏设计方法的核心。其中也有一些局限性。不是每个游戏都可以被设计测试
设计测试并不适合每个团队,也不适合每种类型的游戏。借用敏捷程序员世界的一个术语,大多数现代游戏设计的重构性都很差。它们是笨拙的、非面向对象的、由“野路子”设计师和他们自满的美术和程序员团队串联起来的一团乱麻。典型的现代游戏设计具有以下特征:
- 改变很昂贵。
- 测试很漫长。
- 开发周期长。
- 静态内容多。(Static content is king)
这些都不利于建立一个有效的可测试的设计系统。我一想到将设计测试应用于一个冒险游戏就不寒而栗。大量的静态关卡内容与内容的线性排序相结合,导致一个系统中一个地点的改变对其他任何地点都没有影响。玩家很可能只玩一次游戏,而且要花40个小时才能完成。祝你获得任何及时的反馈。
可设计测试的游戏的需求
为了将设计测试作为我们过程的一部分,我们需要一个可以修正的游戏设计,以彻底应用该技术。以下是可进行设计测试的游戏的一些关键特征:
- 重构的设计:游戏是由高度可重用的面向对象的元素组成的。对这些元素的改变会在整个游戏系统中传播。
- 重游戏机制,而非内容。很少使用关卡设计、有顺序的Boss攻击、固定的情节点等形式的静态内容。相反,重点是有趣的游戏规则、游戏原子、动态生成的关卡,以创造一个令人愉快的游戏体验。
- 自动更新机制。设计者可以迅速向部分游戏玩家群体推送变化。
- 实时指标。当做出改变时,关于当前玩家使用情况的统计数据会立即被送回数据统计的表。最常见的是通过一个基于互联网的跟踪系统直接连接到游戏中。
- 庞大的游戏玩家群体。如果你没有相关的人口进行调查,统计数字就会变得更糟糕,甚至毫无意义。可测试的游戏需要有大量活跃的游戏玩家。这表明在游戏完成之前,要有广泛的公开测试和其他机制来鼓励玩家互动。基于订阅的模式也能很好地满足这一要求。
设计测试的市场已经成熟
网络游戏有一个明显的优势。许多跟踪系统已经内置于游戏中,你已经有日志和数据库准备好接收数据。你可以保证信息100%正确,因为你“看到了”发生的一切。大型多人在线游戏们已经在做这篇文章中的许多事情,他们的成功是显而易见的。
游戏机在下一代中会转移到网上,大多数电脑游戏已经在网上了。技术上已经没有什么阻碍了。只需要有足够创新的团队来改进他们的开发过程。独立游戏、NDS游戏和大众市场的消费级游戏都是新方法可能开花结果的地方。
设计测试是否值得
如果你想做一个可测试的游戏设计,你需要抛开几十年来高度打磨过的游戏设计经验和理论。你需要依靠冷酷的衡量标准,而不是你温暖的模糊的“我可以做得更好”的“野路子”设计师的本能。你需要避开那些与你一起长大并在你的游戏者内心最深处热爱的普通且内容繁杂的类型。
失去的
设计测试从根本上改变了游戏的开发方式。
- 漫长的开发周期、远离大众的闭门造车。反馈对产品的成功至关重要,A测,封测,公测……变成了制作一个完美游戏的基本工具。
- 离线游戏。如果你不在线,你就没有办法收集关于游戏的数据。
- 静态关卡设计。你需要一个可重构的游戏设计,允许快速做出改变。
- 制表。(给投资人看)如果投资回报率不在那里,就删了了它。你已经有数据证明你可以花你的开发时间去做更好的事情。
得到的
你得到的回报是有能力制作吸引人的、竞争力更强的游戏,而且失败的风险更低。
- 提升你的竞争力。另一个开发者正在花费所有的努力,只是为了保持他在品类中的头部位置。他投资于成熟的品类,每一款新游戏都会让他的铁杆粉丝消耗一些。你可以带着一个新鲜的游戏登场,比他目前的产品更吸引人。当他的FPS游戏仅仅是诸多的竞争者之一时,你的游戏就是一个独一无二的“必须拥有”的游戏。
- 降低你的成本。与其投入上百万美元在制作电影级的关卡内容,不如在可知可控的游戏机制中提升游戏的吸引力。结果就是成本更低,因为你的设计中包含了投资回报率的指标。
- 降低失败风险。从开发的一开始,你就知道你的游戏对你的目标市场有多大的吸引力,精确到小数点。这可以让你及早剔除游戏中不良的部分,并将你的努力集中在游戏中有益的部分上。
如果我能做出一个能做到上述三点的游戏,我宁愿放弃所有对可设计测试游戏不起作用的游戏设计传统。
其结果是一个可重构的、有利于创新的游戏设计方法。你可以承担风险并取得成功。你可以花更少的钱,但仍然可以打败大公司。随着下一代游戏的到来,小型游戏开发商有了选择。他们要么更聪明地工作,要么就得死。设计测试是避免后者的好工具。
Danc.
——End——
写在最后
翻译的部分已经结束了,以下就是个人的一些观点。
当我读完这篇文章的时候,我惊讶它写于2005年,因为其中描述的许多远景已经成为了常见的现象甚至是某种共识。一个游戏在发行后的不断开发,丰富内容在今天已经是习以为常的事情,而在小时候我还常常疑惑为什么一个游戏可以玩到了却称之为“公开测试”,不是已经发行了吗?
关于及时测试获得反馈的方法,已经能在许多商业化游戏、独立游戏中看到这种方法的运用。
- 对于商业化游戏,许多项目早期就会进行多轮面向市场的测试,譬如买量测试,投放游戏的广告,可以是仅仅有美术素材,测试风格是否吸引人点进广告,也可以是简单的仅仅有几天可玩内容的早期版本,测试转化量,7日留存等数据……已经形成了一套比较成熟、非常量化的测试方法了。
- 对于独立游戏,也经常采取抢先体验的模式进行开发,尽快面对玩家获得反馈,每开发一部分新内容,就直接将其推送给玩家,进行测试……我也希望尽早地让玩家见到游戏,最近在着手于将一个48h开发的gamejam级的项目在一段时间的内容完善和打磨之后发布,进行测试,然后再进行长期维护开发内容……
关于敏捷、可重构的开发方式,在如今的技术条件下也更容易实现。以Unity为例,提供了预制体等工具迅速更改游戏内的一类内容,进行快速的调整。让我想起了之前的一个简单的独立游戏项目,我们在游戏中设置了动态的区块式的关卡加载机制,如果需要调整流程中的某个部分,不需要重新修改整个关卡,只需要修改那个部分就可以了。
我曾在某个寿命接近于上面那篇文章的项目进行过短期的实习,其中大量的历史遗留问题真的很难解决,当然并不是没有改善游戏的方法,但是风险太大、成本过高,导致只能修修补补,好似一搜忒休斯之船,只能以这样的形式进行缓慢的进化……当然这个项目是非常成功的,不然也不可能活这么久就是了。
说点题外话,我曾幻想过某个独立游戏联盟的组成形式,以订阅制为盈利方式,但是加入了玩家可以和开发者直接对话的社区,开发者可以迅速获得反馈……相当于XGP与steam的缝合。吸引玩家订阅的基础来自于已经完成的优质独立游戏,开发过程中的游戏相当于附带的,还要麻烦玩家游玩、测试、反馈……抢先体验的游戏获得了一定订阅玩家的支持后,也可以分润订阅的利润,以支持其更好地完成开发。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!