[测试] 【翻译】找出他们在想什么：一个用户研究的浅显入门

这篇文章是希望给游戏开发者们提供一些用于玩家调研的不同方法。不过，市面上有很多详尽介绍用户研究的方法的书，我没法做到像它们那样完整，覆盖到所有的东西。我的文章分为上下两部分，第一部分中，我将介绍几个玩家调研的观点并讨论三个具体方法：焦点组，启发式评估和问卷。

什么是玩家调研（Games User Research）？

在我们真正开始前，我们先来看看什么是用户研究。首先，我们将它和质量保证（Quality Assurance，QA）对比一下。QA是软件开发中一个成熟的环节，通常有开发团队中的专门人员来进行。这些人要做的事情，基本上就是寻找游戏里的bug以确保游戏可以正常运行。

但是，正因为QA人员来自于开发团队内部，使他们对游戏比较熟悉，这会为评估游戏的可用性和体验带来问题。对于参与了游戏开发和经常玩它的人来说很明显和有趣的点，对于一般的玩家来讲可能就难以理解和令人沮丧。

这就是为什么我们需要玩家调研的原因，一个专门关于玩家体验的领域——具体来讲，一个大问题：“这游戏好玩吗？”

简单来讲（可能过于简单），可以说QA的测试是关于软件的，关于它的行为和它如何跟用户打交道，而玩家调研是关于用户的行为以及他们如何跟软件打交道。注意我说的是，用户在跟软件打交道时候的行为，我们更关心的是用户的表现，而且我们并不是在测试用户（之后会详细展开）。

这是如何进行的呢？乐趣又是什么呢？这里已经有数不清的关于乐趣的文章了，干脆我们就说乐趣是有很多维度的吧。乐趣可以是使用的简单，但也可以是纠结和挑战。乐趣可以是引起玩家紧张情绪的，也可以是很放松休闲的。

我的意思是乐趣是一个主观的变量，根据人的不同、情景的不同而变化。但是，乐趣作为一种情感，我相信当玩家在享受乐趣的时候，他肯定是能跟你说说他所感受到的乐趣的——只要你懂得如何去问。

那我们如何去问？

译者：我一直不理解作者这里这张图的含♂义

好吧，我会讲到那的。但是在那之前，请先记住以下几个玩家调研的通用准则：

找到正确的玩家

不论你使用的是什么方法，务必确认你得到了正确的样本。对于大部分方法来说，这意味着找到最具代表性的玩家，即那些你认为会玩你的游戏的玩家。

如果你有时间，或许找到尽可能范围更大更广的用户群的样本是件好事情，但是通常情况下你时间和金钱方面的限制会使你只好把样本聚焦在你最关心的那一部分目标用户身上。

是游戏被测试，不是玩家

其次，进行用户调研的时候一定要记住用户不是来接受测试的。我们的目的是优化我们的游戏而不是用户，所以我们不该让用户在过程中感受到自己能力不足，原则上讲，不管用户能做什么，做不到什么，都是有价值的信息。

这会有一些难，因为你身为游戏的设计者，听到其他人批评它不是一件舒服的事情。尽你的努力不要表现的具有防御性和苛刻（比如，出了问题之后不要马上觉得是用户的问题）。

你想知道什么？

当进行调研时，你需要明确地知道自己想要知道什么。你在开发游戏的时候会经常玩自己的游戏，你有开发文档，你知道这一切都应该是如何运作的。不要直接把游戏扔给别人然后看着疑问此起彼伏。找出你认为有问题的地方并在开始测试之前，准备好你打算问什么。

请记住：我不是说你需要在测试之前已经有了自己的预设答案，你只是需要了解自己想要去寻找什么问题的答案。否则，你将会被一大堆原始数据淹没而不知所措。与此同时，期待惊喜。你永远不知道什么事情会突然冒出来。

早测试，多测试

尽可能早地，在你觉得有可能的时候进行测试，这是调研工作者认为最重要的一点。这很难，因为让你的宝贝在完场前早早地来到用户面前是难受的事情。但是真的，越早测试越好——比如用纸面原型测试！

主要原因是，在开发早期去修改游戏要比后期容易的多。一旦你做出了改变，你需要再次测试。即使如此，你还是要确保你的游戏不是bug太多。玩家是来测试游戏体验的，而不是来测试游戏崩溃的体验的。

一个极端的做法是由微软的玩家调研者开发的快速迭代测试评估（Rapid Iterative Testing and Evaluation， RITE）方法。在这种方法里，当测试正在进行时（通常是行为观察——一个将在后面被介绍到的方法），游戏会在问题被发现时马上进行调整修改，甚至在下一个受调查玩家来到之前。这会有可能发生在第一个用户被测试的时候。

听取并对问题做出反应，而不是解决方案

当与玩家打交道时，你应该保持开放的心态，听取他们提出的问题。你也可以听听他们对于解决这些问题有什么看法——但通常他们的方案不会对你有什么帮助。你是游戏开发者，你知道什么才是技术上、时间上、资源上可行的方案，而玩家不知道。所以，观察，做研究，当问题暴露时，认真对待，但对用户提出的解决方案持保留态度。

玩家调研只是另一种数据来源

我经常能在网上看到文章，它们带着不满和焦虑谈到游戏设计的艺术为这些“群体设计”让步的情况。我明白这种担忧，但是就像QA，玩家调研只是一种帮助你优化游戏的工具，它不改主导你的设计或抑制你的艺术天赋，如果正确地使用，它会强化你的天赋并给你新的视野。

干货时间

你还在读吗？好的。接下来我要以不同的深度来谈谈具体的调研方法了。它们是：焦点组，启发式评估和问卷调查。

焦点组（Focus Groups）

这个方法可以算是某种禁忌词汇（并且一定是所谓的“群体设计”问题的一部分。作者附上了这篇文章作为“禁忌词汇”这个词的超链接https://www.gamasutra.com/view/feature/168114/understanding_user_research_its_.php）。所以我们先来看看这个问题，别让它挡了我们的路。

你有可能对焦点组有所了解，尽管你从来没有亲眼见过谁使用它。基本上讲，焦点组就是你找一群人，让他们玩你的游戏，然后把他们扔到一个房间里让他们开始说话。他们可以随便说他们喜欢哪里不喜欢哪里，但是你有一个协调员可以在里面带节奏问问题。
这个方法可以在开发的很早期就用上，也许他们不是真的玩你的游戏，而是你做一个ppt或者介绍来让他们对你的游戏点子做出反馈。
焦点组的一个优势是它把很多人都包括了进来，所以你可以得到更多反馈。这可以非常有效率，因为所有人都在同一个地方，协调员可以就他们的问题追加问题，所以如果有个人提到了某个具体的点是你关心的，你可以就此获得更多的细节，知道其原因。
尽管，如果你不够仔细，焦点组也可以让你一无所获浪费时间。要避免这件事情，你真的需要一个很好地协调员来引导受访者。协调员需要足够强大来带动整个对话的节奏让大家讲出有意义的点，而且不至于完全主导整个讨论。
也许使用焦点组方法最大的挑战和它没有被经常广泛使用的原因，就在于一两个强势的组员会主导整个讨论。基于群体压力，你可能无法听到某些有价值的观点，因为它们被更强势的观点压制了。焦点组也往往有讨论问题解决方案，而不是讨论问题本身的倾向。这可不是你想要的。
最后，焦点组是一个主观的方法，你能得到了也只有人们所说的东西——尽管你想去通过人们的“态度”来预测人们的行为（通常不会成功），我们都知道人们所说的并不总是代表他们真正会去做的。

优势
·更多的人，更多的反馈
·把所有受访者聚集在一起
·可以追加问题
·在讨论概念的时候很有用

劣势
·需要一个好的协调员
·强势的声音会主导讨论并减少你得到的反馈
·太多解决方案，不够多的问题
·人们所说的并不总是（甚至经常不是）他们所做的

启发式评估（Heuristic Evaluation）
启发式评估，就是你找到一个玩家调研方面的专家（或是多个）来玩你的游戏，然后让他们基于一些标准来评估游戏。更科学的游戏评论，这样的感觉。
基本上，专家会用到一个启发式方法的列表，它们是规则或是心智模型一类的，然后基于你的游戏是否符合它们的评判标准来给出反馈，告诉你问题可能在哪。这些启发式方法可能会有很多变化，不过这里有一份可用的启发式方法列表可供参考，它们来自于2009年Christina Koeffel跟同事们的一篇文章：
有清晰的目标吗？
给玩家的奖励有意义吗？
玩家有操控感吗？
游戏平衡吗？
游戏的第一印象好吗？
游戏的故事好吗？
玩家能有持续的进展吗？
游戏有一致性，对玩家的行为有反应吗？
玩家失败的原因足够清晰吗？
关卡的难度有变化吗？
游戏和结果公平吗？
游戏有重玩性吗？
AI是可见，持续且一定程度上不可预测的吗？
游戏是否太令人沮丧？
学习曲线是否过于陡峭和过长？
有情感冲击吗？
有过多无聊的重复行为吗？
玩家可以识别屏幕上重要的元素吗？

这篇文章列出了超过29个这样的启发式方法，还有大量的细节，我这里就不展开了。我推荐有时间的人读读这篇文章。
启发式方法的好处，在我看来是即便你不是专家，你也一样能够在你审视你的游戏时提供一个这样的列表。比如说，游戏是否在玩家的行为改变了世界时给出足够的反馈？游戏是否让玩家很不舒服地握着手柄？等等。这些看起来都是常识性的东西，但有些时候，所谓的“常识”真的不止那么平常。
启发式评估的好处也显而易见，你只需要非常少数量的专家，有时是一个，就可以完成调研，而且他们知道自己在说什么。但这也引出了一个问题：你去哪找这些专家呢？而且你怎么才能找到正确的人呢？不同专家使用不同类型的启发式方法，它们也将适用于不同类型的游戏，这也是你显然需要考虑的。
而且身为专家，他们偶尔也会错过一些菜鸟才看得见的问题。这是因为我们对于某些事情已经有足够的经验来让我们不必再谨慎地考虑每一个感受和每一个动作，而对那些还在学习的人来说，他们还在考虑这些事情。这就是为什么通常来讲，当你想把一件事情做到更好时，去问专家；而当你想学习意见事情时，去问菜鸟。

优势
·少量的受访者
·快速
·他们是专家

劣势
·去哪找专家？
·找到对的人了吗？
·他们有时候太专家了
问卷和调查（Questionnaires & Surveys）
我肯定你知道什么是问卷，但你知道如何正确地设计和使用一份问卷吗？有海量的书来告诉你怎么做，但希望我这里可以指出几个重要的点来帮助你。
首先，什么时候你该用问卷？它们通常被用来评估玩家对你游戏的主观看法。你可能会问玩家最喜欢的武器是什么或是问一些开放性的问题来让玩家列举他对游戏的整体看法。
问卷可以在玩家玩游戏的时候发放给他们，这会使得到的反馈很新鲜，但是也有可能会打断玩家玩游戏的心流（所以如果可能的话，找到合适的暂停点来提问）。问卷也可以在一段游戏结束后进行。问卷最大的优势在于它可以被发放给很多玩家，并最终给你大量的数据来让你进行分析。
在你着手构建具体的问卷之前，你可以看到外面有大量现成的用来研究游戏体验的问卷。
比如Game Experience Questionnaire（http://www.gamexplab.nl/），Affect Grid和用来评估情感的Manikin System。这些现成的问卷都很棒，因为它们都写的很好且可信度高。但是它们也都更带有学术色彩，所以使用它们的时候你可能需要一些调整和加工。
那么你要如何设计自己的问卷呢？我这里有四个步骤来帮助你。

第一步：想好你想知道什么
如前面所说的，所有这些方法都要求你知道你所想要得到的信息是什么。但对于问卷，这一点格外重要因为它影响了你如何设计问卷。你通常不会有机会对他们的反馈做出回应和追问，所以你需要这些问题尽可能地清晰，明确地指向你希望了解的内容。
头脑风暴，做清单，尽可能地找出你想要了解的东西，然后将它们精简到那些你真的真的一定要知道的东西，要学会聚焦！

第二步：设计内容
问卷设计师整个过程的重点，这又可以被分解为以下的几件事情。
问题还是陈述？你希望受访者回答你的问题，还是对一个陈述打分？这很重要。基本上，问题可以很好地获取信息，比如：

沼泽猛兽有多难？
1 2 3 4 5 6 7
非常简单非常难

问题还可以被编排为规则指引。比如”请为你刚才玩的关卡打分，1表示你最喜欢这个关卡，6代表你最不喜欢这个关卡。”这跟为每个关卡单独问是否喜欢是一样的。
另一方面，让受访者对某个陈述进行打分会更典型地被用来评价价值和对观点的认同程度，比如下面这个例子：

沼泽猛兽是一个有趣的敌人
1 2 3 4 5 6 7
强烈同意强烈不同意

问题和陈述都可以，但注意把它们用在合适的地方，不要频繁的混合使用两种类型。
措辞。使用清楚日常的语言是极其重要的！避免使用术语。你需要确保受访者明白你的问题。很多人就算不明白也会回答问题的（我相信你也干过这样的事情）然后让你的数据变得不再准确。所以，保持清晰，直接，只问那些你想知道的东西。
当你提供多个备选答案时（比如你要求他们选择他们所拥有的主机），请尽可能地穷尽。换句话说，不应该存在你没想到的备选答案。提供一个“其他”选项来帮助你弥补漏掉的选项，但最好还是少用“其他”选项为好。
你还需要小心不要问那些本质上是一样的重复问题。记住，你需要让问题尽可能地少。同样需要避免用负面描述的问题，比如“我喜欢跳跃机制”，就比“我不喜欢跳跃机制”来得好。在这种情况下，受访者需要用问卷里的同意来表达他的不同意，反之亦然。这经常会误导受访者。
你还要注意避免引导性问题、多重问题和既定观点问题。
引导性问题是指回答者被引导或偏向去给出特定的答案，比如说“这个游戏超好玩。它有多好玩？”就是一个例子。当然这个有点过分了，不过你还是能经常在问卷中看到类似的问题。所以注意保持你的措辞直接客观。不要假设，去问！
多重问题是那些实质上包含多个问题的问题。这里有一个游戏之外的例子——来自新西兰的国家公投问题：

“是否应该对司法系统进行改革来更关注受害者的需求，提供补偿，对所有严重暴力实施者处以强制最小服刑期和强制劳动？”是/不是

看到了吗，这里有多达六个问题；是否应该改革，是否应该更关注受害者需求，是否应该提供补偿，是否有强制最小服刑期，是否有强制劳动，是否对所有严重暴力实施者实行这些处罚？但是你只能说是或不是。这个问题提给了所有新西兰人，但是真的毁了我第一次投票的体验。

既定观点问题是在问题中带有不成立的假设或道德判断的，比如这个同样来自新西兰国家公投的问题：

“作为好的父母管教的一部分的掌掴，是否应该在新西兰视为刑事犯罪？”是/不是

这个问题是带有既定观点的，因为它带有一个有价值判断的词“好”。它缺乏定义，让人不明所以，还很有可能导致误导性的回答，因为如果你反对掌掴，其实你应该回答“是”来表示同意，而你支持掌掴，你反而应该选择“不是”。
封闭问题还是开放问题？问题可以允许玩家随意回答他想说的，也可以封闭，只给玩家几个固定的选项来选择。开放问题可以让你收集到更丰富的数据，因为你允许玩家给你任何他想给出的反馈。但是因为缺乏限制和方向，他也可能会给出模糊的答案。
一个好办法是，在你收集问卷之后马上花时间阅读受访者的反馈来直接就他们给出的反馈追问或要求明确解释。但是如果是远程问卷就不太能做到了。

封闭问题可以让你更严格地控制你收到的答案，你还可以控制它的尺度：
·二分（Dichotomous）：这适合简单的是非问题。通常用来收集是/不是，正确/错误这样的回答。它很直接，很准确，但是它所提供的数据也相当不丰富。通常来讲这些问题是用来收集人口学数据的，或是你真的希望要求玩家做出简单的二选一回答。

暗黑破坏神3里的二分选择（我搞不懂为什么要提暗黑破坏神，跟问卷没什么关系）

·连续（Continuous）：要求受访者在一个连续数字上进行选择（就好像你捏脸的时候选的那些数字一样）。它的优势在于给了回答很好的颗粒度。但是你真的需要这么细致的颗粒度吗？96.43分和93.21分的区别真的存在吗？

来自黑道圣徒的连续尺度滑杆

·间距（Interval）：这是我们最常见的尺度。受访者被要求在一系列分离/离散的数字中选择最接近的答案。比如前面提到的从1到6的例子。

跟连续尺度比间距尺度的颗粒度更大一些，但是它在用来进行结果比较的时候更为清晰。在我看来，1到7的尺度是最好的（比1到5的量表好）因为它给出了一定的颗粒度却又不至于太细。你们也许会不同意。

间距尺度还可以被分为以下的几种类型：

·数字尺度很简答，要求受访者提供一个数字，通常用来给事情做排名打分用

·莱克特的量表应该是你最为熟悉的，通常用来了解受访者对一个观点是否同意，比如1到7的量表里，1是强烈不同意而7是强烈同意

·语义尺度通常用来对一个东西进行评价或作出价值判断，如1到7的量表里，1表示很差，7代表很好

这些尺度可以根据你的需求来使用，但是通常来讲，最好不要把它们混合使用，否则受访者会在填问卷的时候犯迷糊，填反问卷。

最后，在设计间距尺度的问题时，你可以做单极的（unipolar），比如你要求受访者使用1到7来回答“不是很兴奋”到“非常兴奋”；或是两极的（bipolar），1和7分别表示“无聊”和“令人兴奋”的两极。单极的问题可以聚焦于一个区域，而两极的可以允许受访者有更多表达空间。但还是要记住，最好不要混合使用它们。

第三步：放到一起
你准备好问题了，现在可以把它们组织起来了。首先，选择你要使用的媒介。你打算通过电脑（比如，网页）还是纸笔？电脑上处理收集的数据比较方便，但纸面上的问卷更方便快捷。
多给自己一些时间来准备，如果你想做网上问卷，网上有大把现成的提供这类服务的网站，比如SurveyMonkey（https://www.surveymonkey.com/）就是个不错的选择。
你接下来要考虑你问题的顺序。通常来讲我会把简单的问题放在前面，只要你的问卷不是太长，前面的铺垫会让人们更有意愿去答完你的问卷。
你也可以试着把你的问题进行归类，比如根据主题或是与游戏里某个系统相关的一系列问题。不要先问了一堆关于武器的问题，然后问boss，接下来又问武器的事。
你还要注意有些问题是否会让受访者跳过一部分其他问题，或产生新的相关问题。比如当你问“你是否有Xbox”时，你希望回答了否的受访者在接下来的问题中不必列出他所拥有的Xbox游戏。

第四步：测试
没有什么计划是能一次性就成功的，所以你要自己先测试一下你的问卷。如果你使用电脑版的问卷，确保它看上去是没问题的，然后拿给几个人让他们独立填一下试试（最好不要找做这款游戏的人），然后问问他们有什么看法和建议。接下来是真正的用户来使用问卷，接着你根据他们使用的情况来再次调整这份问卷。这不是一个轻松活，但是一旦你做好了一份不错的问卷，你可以在将来反复使用它。

优势和劣势
关于问卷我有太多可以说的，不过对于一个“入门”来说恐怕没什么必要——所以我马上会继续下一个部分。问卷最好的部分在于它的可量化特质，它给你的数据可以让你来分析不同人之间的区别。不过问卷缺乏后续跟进，你不能问人们为什么做出了某个特定的选择或打分，他们也不客观，你也需要一定量级的受访者数来得出可靠的结论。当然了，即便如此，对少量的受访者做问卷也一样可以帮助你了解他们的想法。
优势
·一致性
·可量化
·快速执行
·可用在大规模的调研里

劣势
·缺乏跟进
·不客观
·在样本量够大时才最有效果
·准备一份好的问卷需要花点时间

希望这些内容作为一篇文章来说是够的。不过我得说一下，作为一个入门文章，这篇文章里的内容还不够全面。接下来的文章里，我会谈到访谈，观察法，数据分析和生理监测方法。
最后，如果你对玩家调研感兴趣，你可以考虑看看Linkedin上的玩家调研的IGDA特别兴趣小组（GUR-SIG），这是一个不错的讨论玩家调研的地方。

（未完待续）