通过移动游戏衡量中国关键词审查的分散性

通过移动游戏衡量中国关键词审查的分散性

來源：Measuring Decentralization of Chinese Keyword Censorship via Mobile Games

中国拥有世界上最大的移动游戏市场。与其他在中国运营的技术和互联网公司一样，游戏行业必须遵循严格的内容控制政策，包括向监管机构提交黑名单关键词的清单。在本文中，我们通过分析从中国的应用商店收集到的超过200款游戏的18万个独特的黑名单关键词，首次了解了游戏行业的内容监管在实践中是如何实施的。

中国的互联网审查制度通常被认为是一个统一执行的、自上而下的系统。然而，我们发现内容控制的责任被推给了公司，导致了不同的实施方式。我们发现，在我们测试的假设中，关键词列表相似性的唯一一致预判因素是游戏是否有相同的出版商和开发商，这表明没有中央国家或省级机构控制关键词列表的生成，公司在实施控制方面有一定的灵活性。这些结果表明了一个分散的、零散的控制制度。

介紹

在中国运营的互联网公司必须遵守政府的内容规定。他们要对其平台上的内容负责，并被要求投入资源以确保遵守相关法律和法规。如果不这样做，会导致罚款或吊销营业执照[26]。这种制度是一种中介责任或 “自律 “的形式，它允许政府将信息控制的责任推给私营部门[12]。

以前的工作提供了了解这个系统如何运作的窗口。中国政府当局向媒体和互联网公司发出如何处理某些敏感内容的指令，这是有据可查的[13]。然而，对从聊天软件和社交媒体平台收集的黑名单关键词的分析[19, 16, 31, 20]一直发现不同公司的关键词列表之间的重叠度有限，这表明中国当局没有向公司提供一个集中的关键词列表。公司和政府当局在制定黑名单关键词名单中的作用是什么？

为了进一步探究这个问题，我们分析了中国的手机游戏行业，该行业最近受到了越来越大的政府压力[15, 36]。我们发现大量的游戏在客户端实施关键词审查，这为我们提供了收集数百个关键词黑名单的机会。在大量关键词列表的促进下，我们分析了它们之间的相似性，并评估了关于列表如何创建的四个新假设。(1)内容指令是在城市或省一级确定的，并可能根据公司所在地而有所不同；(2)内容指令是针对特定类型的游戏确定的；(3)内容指令与监管机构批准游戏的日期有关；(4)公司受到一般的监管压力，但在确定阻止哪些具体内容方面有一定的灵活性。

我们发现，关键词列表之间相似性的唯一持续显著的预测因素是游戏是否有相同的出版商和开发商（共同的开发商有最高的相关性），验证了假设4。我们的发现表明，中国的内容监管 “自律 “系统比传统的自上而下的威权模式创造了一种更分散的治理形式。

本文有以下贡献：

我们分析了从200多个游戏中收集的250多个关键词列表，共包括183111个独特的关键词。
我们提出了一种新的统计技术的应用，并利用它来测试关键词列表的相似性和游戏中的其他特征之间的相关性，比如它们是否有相同的出版商或开发商。
我们表明，在我们测试的所有假设中，中国公司自己产生的关键词列表是对某些关键词列表之间相似性的唯一合理解释。

背景

2017年的估计价值超过275亿美元[29]，中国是世界上最大的游戏市场。尽管利润丰厚，但由于其严格的监管环境，中国市场给企业带来了独特的挑战。2010年，中国文化部（MOC）发布了一项法规[15]，列出了一些禁止网络游戏的主题。”违反宪法规定的基本原则；危害民族团结、国家主权和领土完整；泄露国家秘密，危害国家安全或损害国家荣誉和利益；煽动民族仇恨或歧视，危害民族团结，侵犯民族礼仪或习俗。宣扬邪教、迷信思想；散布谣言，扰乱社会秩序和稳定；传播淫秽、色情、赌博、暴力、教唆犯罪；侮辱、诽谤他人，侵犯他人合法权益；违背社会公德；法律、行政法规禁止的其他内容。

对禁止内容的模糊定义使人们不清楚如何保持在界限之内，并被称为 “口袋罪”，因为任何东西都可以纳入其中[36]。这种监管环境会促使公司过度审查，这种现象被Perry Link描述为 “吊灯里的巨蟒”[23]。

2016年6月2日，成立于1994年的非政府组织–中国音像与数字出版协会提出了一份要在移动游戏中过滤的主题清单，包括 “攻击中国共产党的领导人”、”反对毛泽东思想”、”提及台湾、香港和澳门为独立国家”。文件中没有列出具体的关键词[10]。
在中国发行的游戏需要获得民政部的注册批准和中国国家新闻出版广电总局（SAPPRFT）的出版许可。2016年5月，SAPPRFT将这一要求扩展到中国快速增长的移动游戏行业。没有许可证的游戏将被从应用商店删除。此前，只要运营商在游戏发布后30天内向民政部注册，就不强制要求单个游戏获得SAPPRFT的授权[35]。根据新的规定，苹果公司通知中国大陆的所有开发者，他们需要提交由SAPPRFT签发的批准号，才能在iTunes应用商店列出游戏。

高层次的游戏内容，如故事线和低层次的内容，包括所有的脚本和对话都要受到内容控制[18, 14]。为了确保符合中国的法律和法规，游戏公司通过在其产品上启用关键词过滤系统来管理内容。启用关键词过滤系统可以阻止聊天功能中的内容，或者防止玩家创建含有敏感关键词的用户名和记分牌。为了获得游戏的发布号，申请人必须提交一份在游戏中启用的被屏蔽的关键词清单，以及管理账户，以便监管机构测试和审查游戏中的所有脚本和功能[34]。除了内容审查，自2016年8月1日起，中国移动应用开发商必须让中国网络空间管理局（CAC）获得用户基本信息，这些信息必须通过用户的手机号码或真实身份验证。

方法论

我们对中国移动游戏中的关键词审查的分析包括两个实验。首先，我们从一个流行的中国应用程序商店收集了顶级游戏，以评估哪些变量能最好地预测任何两个游戏的审查关键词列表之间的相似性。在第二个实验中，我们分析了来自中国顶级游戏发行商和开发商的游戏，以进一步探索 “同一发行商 “和 “同一开发商 “的变量对关键词列表相似性的预测效果。

分析高下载量的游戏

为了了解游戏之间的哪些共性能最好地预测这些游戏的关键词列表的相似性，我们收集了各种流行的中国游戏。首先，在2016年12月，我们从游戏市场分析公司Newzoo编制的2016年11月的前20名游戏名单[5]中获取游戏。我们还从Newzoo最早的一个月，即2014年10月[4]的TOP20榜单中获取了游戏。2017年3月，为了扩大游戏的收集范围，我们从Hi Market（安卓市场）[9]，一个由百度[17]拥有的流行[6]应用商店，收集了高下载量的游戏。我们从该网站上下载游戏，方法是刮取我们设计的搜索查询中的前500个搜索结果，将结果限制在下载量超过200万、评级为4至5星的 “中文 “游戏。我们对该网站所称的 “英文 “游戏再次重复了这个过程，这包括更广泛的所有国际游戏，这些游戏通常被改编为符合中国的规定。(我们的搜索查询并不是为了包括五颗星的游戏，因为这些游戏往往只有很少的评论。) 这些方法总共产生了836个独特的游戏。

然后我们对这些游戏进行了分析。由于有太多的游戏需要手工进行逆向工程，我们首先自动搜索游戏中的字符串，以缩小需要仔细分析和逆向工程的范围。我们搜索的敏感词包括 “法轮”、”法轮” (Falun)，”fuck”，和 “肏” (fuck)，以及根据我们以前的工作经验[19, 16, 31, 20]，我们预计会在实施审查的程序代码中发现的一般词汇，特别是黑名单、审查、肮脏、过滤、禁止、非法、关键词、亵渎和敏感词汇。然后，我们手动审查搜索结果，收集明显的黑名单，并手动逆向工程那些似乎实施审查制度的游戏，但（例如）可能已经加密了他们的黑名单。使用这种方法，我们发现了各种格式的关键词列表，包括文本格式，如纯文本、XML、JSON；二进制格式，如编译的Lua或C++代码；以及用各种不同算法加密的文件，需要逆向工程来解密。

我们接下来测试了两个游戏之间的哪些共同点最能解释这些游戏的关键词列表的相似性。我们测试的共同点是两个游戏是否有相同的出版商城市、相同的开发商城市、相同的类型、相同的出版商、相同的开发商或相似的批准日期。对于出版商和开发商的城市，如果一个出版商或开发商在多个城市设有办事处，我们使用他们的主要总部所在的城市。对于类型和批准日期，我们使用游戏被MOC批准的类型和批准日期[7]。

为了检验这些共性与关键词列表相似性之间的相关性，我们使用了一种叫做部分曼特尔检验的统计检验[33，22]，这是曼特尔检验的延伸[27]。曼特尔检验是对两个相似度或距离矩阵、一个响应变量Y和一个潜在的解释变量X之间是否存在皮尔逊相关的统计检验。这个检验的结果是曼特尔r统计量。r统计量与Mantel z统计量有关，只是归一化为-1和1之间，其中r越接近-1，就越存在负相关，越接近1，就越存在正相关（见[22]）。它还通过蒙特卡洛检验方法计算检验统计量的p值，即至少有同样极端的相关性可能是偶然发生的概率。部分曼特尔检验通过能够控制额外的矩阵Z1 , Z2 , …来扩展曼特尔检验。

为了创建代表关键词列表相似性的响应变量Y，我们首先将每个列表矢量化，创建一个维度等于我们在所有列表中看到的唯一关键词总数的矢量v，其中vk是我们数据集中第k个词在该列表中出现的次数，在我们的数据集中可能大于1。那么Yij是列表i和j之间的余弦相似度，其中余弦相似度被定义为两个向量之间的角度的余弦，即：

根据我们希望测试的变量与Y的关系，我们对X的定义是不同的。除了测试附近的批准日期之外，X是一个二进制矩阵，其中Xij是1，当且仅当第i个列表具有与第j个列表相同的属性（例如，如果正在测试共同出版商，那么与第j个列表具有相同的出版商）。为了测试附近的批准日期，我们首先构建X矩阵，使Xij是i和j的批准日期之间的距离，以天为单位衡量。然后，我们通过除以X的最大值对矩阵进行归一化处理，然后在每个值上加上-1，将其变成一个相似性矩阵。

我们经常观察到每个游戏中包括多个名单。一些游戏使用单独的名单来审查游戏的不同特征。其他游戏似乎偶然包括了一个较旧的、过时的名单版本。由于部分曼特尔检验允许我们控制变量，在我们的每个检验中，我们控制一个二进制矩阵Z，其中Zij是1，当且仅当第i个名单与第j个名单来自同一游戏。

分析流行发行商和开发商的游戏

2017年4月期间，在观察了上次实验的结果后（见第4.1节），我们注意到许多游戏没有与其他游戏共享一个发行商或开发商。我们决定再做一次实验，重点是进一步测试游戏的关键词列表相似度与拥有相同开发商和发行商的游戏之间的相关性。在这个实验中，我们专门研究了五个流行的出版商和七个流行的开发商的游戏，以增加共享同一出版商或开发商的游戏数量。

为了确定发行商的名单，我们回到2016年11月的20强名单[5]，并从这个名单中寻找所有既出现在20强名单中，又在其游戏中我们之前发现至少有一个黑名单的发行商。这次搜索的结果是，我们找到了巨人网络科技有限公司（Giant Interactive Group Inc. (巨人网络科技有限公司)、乐元素游戏(Happy Elements)、iDreamSky Technology Ltd.(乐逗游戏) 乐逗游戏）、网易（网易）和腾讯（腾讯）。

为了找到类似的开发者名单，我们不能立即使用同样的20强名单，因为它只列出了出版商而不是开发者。相反，我们利用之前对高下载量游戏的分析数据，收集了我们分析中含有关键词黑名单的游戏数量最多的五家开发商。由于第四名有四个人并列，因此产生了七个开发商。CatCap Studio（达唯科技股份有限公司）、Chukong Technologies（触控科技）、Joymeng（乐堂动漫）、 Ourpalm Co. Ltd. (掌趣科技) 掌趣科技）、Smile Games（乐人游戏）、Ultralisk（雷兽互动）和Xiao Ao（小奥游戏）。

我们从每个出版商曾经成功获得MOC批准的移动游戏的综合名单中为每个出版商编制了一份游戏清单，这些信息可以在他们的网站上找到[7]。我们从每个开发商的网站和MOC的网站[7]上汇编了每个开发商的初步游戏名单。然而，往往不清楚开发商网站上的游戏或由MOC归属于他们的游戏是否由该公司出版或开发，因为MOC只提供有关游戏的出版商和/或运营商的数据。为了排除这类游戏，我们使用一个名为 “天眼查 “的工具获得了游戏的版权和所有权信息，这是一个私有的平台，整合了在中国国家工商总局和相关监管机构注册的公司的所有公开信息[8]。

在为每个出版商和开发商下载这些游戏后，我们分别发现了341个和240个游戏，总共有574个独特的游戏。我们使用与之前相同的技术来寻找这些游戏中的列表，并再次进行部分Mantel测试，以评估关键词列表相似性和游戏之间各种不同的共性之间的相关性（再次控制同一游戏的列表）。然而，在这种情况下，我们只测试了关键词列表的相似性与同一出版商、同一开发商和附近的批准日期之间的相关性。

结果

在这一节中，我们描述了我们的两个实验的结果。

对高下载量游戏的分析结果

从我们在这个实验中分析的836个游戏中，我们在113个不同的游戏中发现了132个列表，共包含152,114个独特的关键词。这不应该被解释为其他游戏没有审查制度，因为他们的客户端审查制度可能没有被我们的方法发现，或者他们可能在服务器端进行了审查）。这些名单来自一些流行的中国游戏，如《天天酷跑3D》（Tiantian Dash），以及为符合中国法规而改编的流行国际游戏，如《Ski Safari 2》和《糖果粉碎传奇》。图1显示了根据最远点算法分层聚类的每个黑名单的成对余弦相似度的热图。

我们进行了第3节所述的部分Mantel测试，测试关键词列表相似度和游戏之间一些不同的共性之间的相关性。这个测试的结果是曼特尔r统计量，是对-1和1之间的相关性的测量，以及其相应的p值，即至少有如此极端的相关性可能是偶然发生的概率。测试的三个游戏共性没有显示出明显的相关性：出版商城市，-0.014（p=0.65）；开发商城市，-0.0069（p=0.58）；和流派，-0.013（p=0.65）。所测试的三个游戏共性确实显示出明显的相关性：批准日期，0.16（P = 0.0067）；出版商，0.15（P < 0.001）；和开发商，0.17（P < 0.001）。

由于所测试的游戏共性之间可能存在关联（例如，具有相同开发商的游戏往往具有相同的出版商），我们对批准日期、开发商和出版商的三项测试各重复了两次，首先控制其中一项，然后控制另一项，无论我们目前不测试哪项。结果的最大变化发生在测试相同的开发商控制相同的出版商时，r统计量减少到0.095（p < 0.001），而相同的出版商控制相同的开发商时，r统计量只减少到0.047（p = 0.0015）。这表明，在控制了彼此的混杂变量后，相似的开发商比相似的发行商更能预测关键词的相似性。

由于许多游戏与我们发现的其他任何游戏的名单都没有共享相同的出版商（50%）或开发商（62%），而其他许多游戏共享的数量都很少，因此我们决定进行第二次实验，研究来自流行的出版商和开发商的游戏，以增加共享相同出版商或开发商的游戏数量，并普遍确认我们的结果。

对流行的出版商和开发商的游戏进行分析的结果

从我们在这个实验中分析的574个独特的游戏中，我们在129个不同的游戏中发现了167个列表，共包含171,150个独特的关键词。这个列表又包括了流行的中国游戏（如开心消消乐或Anipop）和国际游戏（如水果忍者和神庙逃亡2）。参见表1和表2，了解从每个出版商和开发商那里发现的列表的分类。图2显示了根据最远点算法对每个黑名单进行分层聚类的成对余弦相似度的热图。

我们对所测试的游戏共性的部分Mantel测试结果如下：批准日期，-0.056（p = 0.83）；出版商，0.21（p < 0.001）；开发商，0.23（p < 0.001）。

与前一个实验相比，在测试相同的出版商和相同的开发者时，我们看到了更多的相关性（相应的相关图见图3b和3c）；然而，我们惊讶地看到，在第一个实验中，我们最初在测试相似的批准日期时看到的相关性（见图3a）在第二个实验中消失了，因为我们预计会看到一些由于（例如）开发者随着时间的推移加入名单而产生的相关性。第二个实验的结果可能是因为该实验是专门设计的，通过减少出版商和开发商的种类来进一步测试相同出版商和开发商的游戏中的相关性。然而，通过关注这些变量和减少种类，我们可能限制了我们观察其他解释变量的效果的能力。

我们还再次测试了同一出版商控制同一开发商和同一开发商控制同一出版商。控制同一开发商的同一出版商将相关性降低到0.064（P = 0.015）。同一开发商控制同一出版商只将相关性降低到0.13（P < 0.001）。这表明，在控制了彼此的混杂变量后，具有相同开发者的游戏比相似的出版商更能预测关键词列表的相似性。

关键词分析

在本节中，我们讨论了关键词列表的出处，并提供了初步的内容分析。

关键字列表的来源

我们的结果表明，开发商，以及在较小程度上，发行商在很大程度上负责提供他们游戏中的关键词列表；然而，虽然我们的结果没有直接说明他们是如何积累这些列表的，但在我们的关键词数据集中有一些线索指向可能的方向。基于文本的数据格式通常有转义序列，用于转义其他用于结构数据的特殊字符。虽然我们很注意从任何文件格式中取消转义，但一些开发者并不总是这样做，他们留下了转义序列，并提供了关于这些列表来自何处的线索。例如，我们在其他文件格式中看到了C风格的转义，例如，我们在一个XML文件中发现了一个C风格的转义，在它前面加了一个第二的\服（这个关键词在许多列表中出现的是私\服）。相反，我们在非XML文件中的关键词中看到了XML转义，比如冠西&艳照中的安培尔被替换成了&，导致冠西&艳照。

有些关键词甚至可以追溯到最初在旧的网络应用程序上的共享。例如，旧的PHP网络应用程序通过手动调用addlashes[1]函数或启用自动调用它的 “魔术引号”[2]来逃避数据库输入。然而，由于这种功能不安全，而且不能识别多字节的字符编码，所以早已被废弃了[32]。2004年，当一个泄露的关键词列表被公布在一个公告板上时[11]，由于公告板不恰当的转义，公布的列表包含许多错误的\转义。例如，列表中的胡锦涛，因为中文GBK编码中的第二个字符（锦）被编码为0xe5和0x5c，后一个字节在ASCII中为\，网络应用错误地将其解释为一个需要转义的字节，并在其前面加上另一个\。由于像这样的关键词在我们的许多列表中都有出现，这表明它们和其他许多关键词曾一度在旧的网络应用中被分享，而这些应用对数据库输入的转义是不恰当的。

内容分析

以前的研究[19, 16, 31, 20]通过手动将关键词归入基于上下文信息的内容类别，对关键词列表进行内容分析。使用与之前工作类似的方法，我们进行了初步的内容分析，以提供数据集的高水平描述。我们从183,111个关键词的数据集中随机抽取了7,000个关键词进行了分析。一个以中文为母语的人审查了这个随机样本，并根据关键词的上下文，按照在[16]中开发的代码书分配了高水平的主题。每个主题的描述见表3，关键词按主题的分布见图4。我们在本节的其余部分描述并提供每个主题的例子。

社会：这个主题在我们分析的关键词中占了最大的比例。例子包括对非法商品的提及，如 “出售业主信息数据” (出售业主的数据信息)和赌博(例如 “六合彩” 六合彩，一个由香港赛马会组织的彩票投注系统）。) 在过去关于直播平台的工作中也发现了对社会主题关键词的类似关注[20]。

政治：这个主题包括对中国共产党和政府机构的一般性提及（例如，”人民检察院” 人民检察院是中国法律体系中负责起诉和调查的机构），对国家政策的批评（例如 “敏感词屏蔽的社会”，意思是 “一个敏感关键词被屏蔽的社会”），宗教（例如法轮功和基督教），中日关系，以及中国的民族群体。在提到中国共产党（共产党）（如 “哄铲挡”，hǒng chǎn dǎng）和法轮功（如 “发达”，发音为fā lún，而不是法轮功，fǎ lún gōng）时，经常使用同音字或同义词。

我们还发现韩语和日语中与亚洲国际关系问题有关的关键词。例如 “일진회”，它指的是1900年代在韩国运作的全国性亲日组织Iljinhoe。这些关键词的出现可能是因为我们分析的一些游戏是从外国游戏公司进口的，或者是针对外国市场的。这也可能与游戏平台的独特特征有关，在这些平台上，群体内的身份和民族主义经常被玩家分享和拥护[3, 30]。

人：与其他关键词列表中发现的内容相似[20, 19, 24]，我们发现对人的提及包括政府官员、官员的亲属、持不同政见者和没有明确背景的名字。关键词包括使用同义词、同音字、密码信息和拼音来指代党的领导人和持不同政见者。例如，”刁净瓶 “包含一个同音字（刁）和一个习近平主席的同音字（净瓶，jìngpíng）。在另一个例子中，编码提到了中国第一位诺贝尔和平奖得主刘晓波，他因被监禁而缺席领奖（”无法领奖的人”，一个无法领奖的人）。

事件：过去的工作表明，敏感和关键事件可以作为中国社会媒体审查的催化剂[16, 31, 20]。我们通过搜索与2016年至2017年内发生的、在中国聊天软件[24, 28, 25]和微博[25]上被发现审查的或已知有相关政府审查指令的当前事件相关的词汇，来测试事件相关关键词的普遍性[13]。在游戏关键词数据集中，我们没有发现提及这些最新的新闻事件。然而，我们确实发现了提及其他政治敏感事件的关键词（例如，”1989年民运”，即1989年的民主运动，指的是1989年的天安门运动；”茉莉花活动”，即茉莉花革命，指的是受2011年突尼斯茉莉花革命的启发，在中国发生的一系列民主抗议活动）。

聊天应用程序和微博提供了沟通和传播内容的手段，而游戏主要是为了娱乐。因此，人们可能会更加关注和审查用于新闻消费的应用程序如何管理与当前事件相关的内容。由于我们目前项目范围的限制，也有可能存在我们没有发现的事件的参考。在我们的分析中，我们没有分析每个手机游戏的历史版本，我们也没有跟踪任何下载的更新，如果有的话，对其关键词列表。

技术：这个主题包括对电话号码和电子邮件等标识符的引用，以及网站和各种技术服务的名称。关键词还包括对竞争性游戏公司名称的引用。我们怀疑列入这些关键词是由商业利益驱动的，以防止用户批评一个平台或被引诱到其竞争对手那里去，这种模式在以前的工作中也出现过[20]。

未来的工作

Mantel和部分Mantel检验对于一次检验单一的相似性或基于距离的解释变量的显著性是有用的。未来工作的一个途径是探索其他的统计方法，如基于距离的冗余分析[21]，可以同时模拟和比较多个基于距离的解释变量的影响。

未来工作的另一个途径是通过人工或机器学习方法进行完整的关键词内容分析。高水平的语义分析将允许对列表进行主题比较，并进一步揭示中国游戏审查制度的含义。