数字与劳动
在此,我思考数字资本主义下的反抗以及劳动的经验诠释
中国的聊天程序审查和监控:追踪TOM-Skype和新浪UC
  1. 中国的聊天程序审查和监控:追踪TOM-Skype和新浪UC
    1. 介紹
      1. 主要结论和影响
        1. 客户之间关键词清单的差异
        2. 高度的目标和过于广泛的关键词内容
        3. 影响审查和监控功能的关键词列表变化
        4. 对敏感事件的监控和审查制度
    2. 背景
      1. 法律、监管和政策框架
    3. 相關研究
    4. 方法论
      1. 新浪UC的审查制度
      2. TOM-Skype审查制度
      3. TOM-Skype监控
    5. 結果
      1. 审查和监督机制
    6. 關鍵詞分析
      1. 政治
      2. 事件
      3. 社会
      4. 技术
      5. 有针对性的和广泛的关键词
      6. 对新词的适应性
    7. 关键字列表的变化
      1. TOM-Skype关键词列表的变化
      2. 初始和当前列表之间的贾卡德相似性
    8. 当前事件与关键词列表更新之间的相关性
      1. 茉莉花集会
      2. 薄熙来丑闻
      3. 法拉利车祸
      4. 全能神教会的逮捕
      5. 温州火车事故
      6. 西藏人的自焚事件
      7. 关键字列表中没有提及的敏感事件
    9. 讨论
    10. 结论

中国的聊天程序审查和监控:追踪TOM-Skype和新浪UC

來源:Chat program censorship and surveillance in China: Tracking TOM-Skype and Sina UC

在本文中,我们介绍了对一年半以上跟踪中国使用的两个即时通讯程序的审查和监视关键词清单的数据分析。通过对TOM-Skype和新浪UC的逆向工程,我们能够获得这两个程序的不同版本的URL和加密密钥,并每天下载关键词黑名单。本文研究了这些名单内容背后的社会和政治背景,并分析了名单被更新的那些时间,包括与当前事件的关联性。

介紹

虽然中国存在的互联网审查和监控是众所周知的,但关于这种信息控制在国内的实践中是如何实施的问题仍然存在。研究国家支持的互联网审查制度的关键问题包括:审查员如何确定要控制哪些内容?这种决定是如何实现的?以何种速度?在决定哪些内容应该受到审查和监视时,是否有某些优先事项?审查员是否主要关心可能引起有组织运动(如抗议)的内容?他们是否总是立即对敏感的时事进行审查,还是只针对某些时事?这类问题很难回答,不仅是因为中国的审查机构缺乏透明度,而且还因为对审查的测量可能有偏差,而监视往往不可能测量。在许多情况下,测量被审查的内容需要猜测可能是审查关键词的词汇,然后测试这些词汇,导致结果仅限于审查者所针对的内容和那些测量审查的人所期望的被审查内容之间的交集。监视通常是无法通过测试发现的,因为不管监视是否真的被触发,诸如博客文章或聊天信息等内容都会被发布。

影响这些调查的是提供互联网服务的私营公司在中国的信息控制制度中扮演的角色。中国复杂的监管体系将网上审查和监控的大部分实施工作交给了私营部门。中国的互联网公司,包括那些维护博客、即时通讯(IM)程序、留言板、新闻网站和社交媒体平台的公司,要对敏感内容负责,促使他们采取积极措施控制用户对这些内容的传播。这种对政府审查和监控政策的行业执行是广泛的,特别是考虑到中国公司已经为国内市场开发了一些在线服务(如社交网络、即时通讯、媒体分享),为流行的国际平台(如Twitter、Facebook、YouTube等)提供了替代品。

在这项研究中,我们研究了由两家不同的中国公司维护的两个即时通讯客户端的审查和监控的实施情况。在超过一年半的时间里,我们下载并解密了在中国使用的两个即时通讯程序的客户端软件所使用的审查和监控关键词[1]列表。TOM-Skype和新浪UC。我们通过逆向工程客户端的软件二进制文件获得了关键词列表的URL和加密密钥。在TOM-Skype客户端中,关键词列表被用来触发审查和/或监视用户的聊天,而在新浪UC中,关键词列表只触发审查。这些数据提供了一个难得的机会来分析用于审查和监视的完整和无偏见的关键词列表的内容和更新。在本文中,我们讨论了我们为翻译和分类这些名单所做的努力,并开发了可视化的方法来帮助理解关键词、类别和当前事件之间的关系。该数据集提供了对两家中国公司内部审查和监控执行情况的坦诚看法,使我们能够观察到许多明显的错误、纠正和重点的转移(例如,从审查到监控)。这些反常现象和系统性变化可以帮助我们了解公司实施审查和监控的过程,以及这些过程如何受到不断变化的政府信息控制政策的影响。

虽然我们的数据集为了解两家中国公司如何实施信息控制提供了一个独特的窗口,但我们的研究只限于在两个即时通信客户端中应用这种控制,提供了中国用户交换信息的更广泛的通信环境中的一个狭窄部分。该数据集提供了对中国信息控制制度的见解,但也提出了进一步的问题,即行业执法在中国的实践中是如何运作的,这些即时通讯客户端的审查和监视行动的社会和政治影响,以及这些即时通讯客户端的监视和审查功能与中国其他互联网服务的监视和审查功能相比如何。在本文的最后,我们讨论了这些问题,并概述了未来的研究领域。

主要结论和影响

客户之间关键词清单的差异

对比两个客户端的关键词列表,发现重叠的地方非常少。88个合并列表的完整数据集包含4256个独特的关键词,其中只有138个词(3.2%)在TOM-Skype和新浪UC之间有共同之处。这种缺乏重合的情况表明,政府当局没有向这些公司提供共同的关键词清单。以前的研究也同样发现,中国博客服务(MacKinnon,2009)和针对中国市场的搜索引擎(Villeneuve,2008a)在实施审查制度方面几乎没有一致性。这些不一致的情况表明,公司可能从当局那里得到了关于哪些类型的内容的一般性指导,但在如何实施这些指令方面有一定程度的灵活性。因此,审查制度在中国服务中的普遍性和效率可能取决于公司如何管理其内部信息控制流程。关于中国政府和实际执行审查制度的公司之间的作用,见Link(2002)的更多讨论。

高度的目标和过于广泛的关键词内容

关键词针对各种内容,包括与中国政治、人权、敏感事件、色情、赌博和非法毒品有关的问题。一些关键词具有很强的针对性,如与茉莉花集会(阿拉伯之春后于2011年初在中国各地举行的支持民主的抗议活动)有关的指示和地点,异议人士的名字,以及中国用户用来讨论敏感问题的新词。这些关键词的针对性让人担心审查和监控对讨论这些敏感问题和社会动员的用户的最终影响。

除了这些针对性很强的关键词,TOM-Skype和新浪UC的名单中还包括了一些极为通用的词汇。例如,TOM-Skype的名单包括 “中国人”(”华人”)和 “互联网”(”Internet”),这让人联想到对用户的过度监控。

影响审查和监控功能的关键词列表变化

两个客户端中的关键词列表的重大变化影响了审查和监控功能的实施。

TOM-Skype 5.0-5.1版(2011年4月27日)和5.5-6.1版(2011年12月18日)的审查清单的最新更新将这些清单减少到一个关键词,有效地消除了这些版本客户端的审查。然而,5.1-6.1版本仍然保持着仅有主动监视的名单,而早期版本的客户端(3.6-4.2)则保留着主动审查的名单,这意味着我们研究中分析的最新版本的TOM-Skype侧重于关键词监视。

同样,2012年9月17日,五个新浪UC列表中的四个被缩减为一个关键词。剩余的关键词列表被用来审查用户可能选择的用户名,这意味着对进出信息的审查在新浪UC中似乎被有效消除了。然而,新浪UC有可能在服务器端实施了我们无法检测到的监控功能(这种可能性将在第8节进一步讨论)。

对敏感事件的监控和审查制度

审查制度和监控可以根据当地发生的事件而被触发或修改。当局可能会在信息可能产生最大影响的关键时刻限制或监控信息,例如在选举、内乱时期和敏感的政治纪念日。

我们确定了数据集中提到的发生在我们的数据收集时间框架内的当前事件,并将关键词列表的更新与事件的时间线联系起来。在整个选定的案例中,我们观察到不一致的模式。在某些情况下,关键词更新是在敏感事件发生后的一天内实施的。在其他情况下,更新是在事件发生的几周或几个月后进行的,这可能表明审查员只是在一个问题发展到足够的政治突出性后才作出反应。在某些情况下,中国政府明显关注的看似重要和敏感的政治事件,要么没有出现在任何测试列表中,要么只出现了少量的词汇。

本研究的所有原始数据、处理过的数据和可视化数据都可在此處找到

背景

在本节中,我们将概述中国信息控制的法律、法规和政策框架,并回顾相关工作。

法律、监管和政策框架

在中国,政府授权的信息控制机构是一个多方面的结构,包括技术、法律、监管和政策措施的审查和监控,并让行业参与内容控制的实施和网络环境的主动 “维护”(OpenNet Initiative, 2012)。正如2010年4月29日,时任国务院新闻办公室和中共中央对外联络办公室主任王晨在全国人民代表大会常务委员会上的讲话中所总结的:

我们按照互联网内容管理与行业管理、安全监管相结合,事前审查批准与事后监管相结合,技术封锁与舆论引导相结合,分级管理与属地管理相结合,政府管理与行业自律相结合,网上监控与网下管理相结合的总体思路。我们建立了法律规范、行政监管、行业自律、技术保障相结合的试点管理体制。(Chen, 2010)

这种综合方法将政府的政策特权与基于行业的执法紧密结合在一起,因为在网络空间运营的中国公司需要遵守大量不断变化的控制要求和惩罚措施。虽然关于中国互联网审查和监控的文章很多,重要的研究工作也在进行中,但我们在此总结了一些适用于在中国运营的公司的关键信息控制发展和要求,如TOM在线和新浪公司,它们提供了本研究中分析的IM项目。

政府的政策,以及为落实这些政策而采取的法律和监管措施,都试图挖掘互联网的经济潜力,同时也要管理被认为可能破坏社会稳定的影响,防止对政府控制的威胁。正如王晨在2010年所描述的,一方面,互联网是 “推动经济发展的重要引擎”,为政府提供了更好地服务公民的手段,也是 “正面宣传 “和舆论引导的工具。另一方面,必须通过严格的规则和条例来管理互联网,以阻止用户访问或传播被认为不适当的内容。在赞扬中国的制度迄今为止的有效性的同时,王晓初呼吁建立一个更强大的法律体系,以 “明确有害信息的识别标准”,以及完善 “我们监测互联网有害信息的制度”。几周后(2010年6月8日),国务院新闻办公室发布了一份题为 “中国的互联网 “的白皮书(中国国务院新闻办公室,2010年),被认为是政府发布的第一份互联网政策文件,其中概述了类似的优先事项[2] (MacKinnon,2010)。

由于许多向中国公众提供的在线服务和平台是由行业而不是政府实体提供的,中国政府颁布了行业必须遵守的复杂的法律和法规框架,有效地将各级政府的影响力延伸到企业本身。法律和监管框架规范了不同在线服务的管理,包括电子信息服务(中国信息产业部,2000a)互联网信息服务(中华人民共和国国务院,2000),电子公告服务(中国信息产业部,2000b),新闻出版物(中国国务院新闻办公室和信息产业部,2005),音频和视频节目服务(中国国家广播电影电视总局,2007),以及微博[3](北京市政府,2011)。这些法律和其他法律规定了 “制作、复制、发布或传播”[4]的非法 “不当内容 “的广泛类别(中华人民共和国国务院,2000;北京市政府,2011)。此外,当局已着手在微博和其他在线服务中实施实名登记。2011年中央《微博发展管理规定》要求 “任何组织或个人注册微博账号,并制作、复制、发布或传播信息内容……。要使用真实的身份信息”[第9条](北京市政府,2011)。微博公司也同样被要求核实其用户的身份[第9条]。而在2012年12月,全国人民代表大会通过了《关于加强网络信息保护的决定》,规定 “为用户办理网站接入服务……或者为用户提供信息发布服务的网络服务提供者,在与用户签订协议或者确认提供服务时,应当要求用户提供真实身份信息”[第六条](全国人民代表大会常务委员会,2012;环球时报,2012)。

在实践中,所有的互联网公司都要对其托管的内容负责,并期望建立整个部门,专门对其用户进行监视和审查(MacKinnon,2010;2009)。虽然当局对该活动的范围提供了总体指导,但公司的任务是实际执行,包括维护关键词列表(记者无国界组织,2007;MacKinnon,2009)。例如,新闻网站会收到来自 “地方新闻宣传主管部门 “或 “公安部门 “的指令,要求删除有不良内容的文章(冯,2010)。然后,公司审查员需要调整他们的 “过滤词 “清单,以考虑到最近被删除的内容。搜索引擎也同样保持着不能出现在结果页面的关键词和网址清单(人权观察,2006)。2009年,中国领先的搜索引擎–百度的一名员工泄露的文件,让人们看到了该公司的审查和监控政策。这些文件包含了确定审查信息的准则以及被过滤的关键词和URL的清单(中国数字时代,2009)。在这些被确定为审查的词汇和主题中,有关于集体集会和社会动员(如 “示威”)、政府镇压(如 “使用武力镇压”)、特定事件和人物(如 “9.12事件”)以及其他各种词汇(如 “艾滋病”、”土地”)。

TOM在线[5]和新浪公司[6]都在提交给美国证券交易委员会的文件中总结了与其业务相关的中国政府管制措施,这为中国的互联网公司必须遵循的迷宫般的信息管制要求提供了一些启示。例如,新浪公司2011年的年度报告–这是现有文件中解释中国互联网相关业务的不确定性和风险的最新文件–说明了以下相关情况(SINA Corporation, 2011):

  • 公司必须从政府当局获得适当的许可证才能开展业务。提供 “基本 “或 “增值 “电信服务需要许可证,后者被定义为 “通过公共网络提供的电信和信息服务”。额外的许可要求适用于提供互联网内容服务,这些要求根据所涉及的内容而有所不同。第38-39页)提供BBS服务,即 “电子公告板、电子论坛、留言板和聊天室 “也需要具体的批准。(第39页)一些许可证要接受年度检查。另见Jiang(2012)。

    众多政府机构参与了对互联网行业的监管。其中包括国家机关–如工业和信息化部、国家广播电影电视总局、国家工商总局、国务院新闻办公室、国家安全局、新闻出版总署、教育部、文化部、卫生部、公安部–以及省级和地方机关,如北京市工商局和地方公安局。(第38、45-46页)

  • 公司必须遵守有关提供各种互联网服务的广泛法律和法规。该文件详细介绍了与新浪服务相关的众多措施(第39-46页),包括13部专门针对信息安全和审查的法律法规。”根据这些法律法规,中国的互联网公司必须完成安全备案程序,并定期向当地公安局更新其网站的信息安全和审查系统”。(p. 45)

  • 公司必须积极防范 “国家机密 “的泄露。”2010年10月1日生效的新修订的《保守国家秘密法》规定,互联网服务提供者在发布网络信息时,一旦发现有泄露国家秘密的情况,应当停止发布,并向国家安全和公安机关报告。互联网服务提供者必须删除其网站上任何可能导致国家机密泄露的内容。如果不及时和充分地这样做,可能会使我们受到责任和处罚”。(p. 16)

    《国家保密法》第28条 “要求互联网和其他公共信息网络经营者和服务提供者 1)配合对违法行为的调查和起诉;2)保存并向安全机关披露记录和报告;3)采取积极措施,制止传播被视为国家秘密的信息”(中国人权,2010;第十一届全国人民代表大会常务委员会,2010)。然而,”国家机密 “可以被广泛地解释,也可以被追溯为机密。因此,公司有很大的动力在这些要求的基础上对敏感话题进行巡逻,以避免潜在的责任。

  • 维护新闻网站或互联网门户的公司必须依靠与国有媒体的持续合作来获得某些类型的内容。”中国政府有能力限制或阻止国有媒体与我们合作,向我们提供某些内容,这将导致我们在网站上发布的内容数量大大减少。如果中国政府选择限制或阻止国有媒体与我们合作,我们可能会失去用户,在这种情况下,我们的收入将受到负面的影响”。第21页;另见第39-40页)这种依赖为政府当局提供了控制行业的额外杠杆。

促进公司遵守政府规定的是 “自律 “运动和公司内部的党支部和委员会。例如,中国互联网协会于2002年发布了《中国互联网行业自律公开承诺书》,要求 “自愿 “签署者不 “制作、发布、传播可能危害国家安全和破坏社会稳定、违反法律法规、传播迷信和淫秽的有害信息……”,并 “依法监督用户在网站上发布的信息,及时删除有害信息”(中国互联网协会,2002;人权观察,2006)。同时,中国共产党在互联网公司内部保持着大量的存在,组织党员并在这些实体内建立党委(Kennedy,2013;Kessler,2013)。据报道,新浪、百度、社交网络开心网和其他至少六家互联网公司都成立了内部党组织(Kessler,2013)。而在2012年11月,一个新的中共 “首都互联网协会委员会 “成立,以扩大党的存在,加强党在北京互联网行业的治理能力和发展工作,包括在较小的互联网公司中(新华社,2012b;肯尼迪,2013)。

然而,随着行业的广泛参与,以及网络环境的不断变化,信息控制的应用–行业内审查和监控的实际执行方式–似乎会根据相关平台或公司的情况、用户的活动以及地方和中央当局的政策重点的波动而变化。例如,新浪指出它在完全遵守微博实名登记要求方面遇到了某些困难。”尽管我们为遵守验证要求做出了巨大努力,但由于现有的用户行为、微博产品的性质以及具体实施程序的不明确等原因,我们无法验证所有在微博上公开发布内容的用户的身份”(SINA Corporation, 2011, p.18)。此外,在2013年1月,一位新浪微博经理在回应用户对微博审查提及《南方周末》事件的批评时,公开表示对宣传部的审查要求感到沮丧,并试图解释公司在监控过程中的考虑权衡(林,2013)。不断变化的法律要求和定义模糊的内容类别,需要个别公司的解释,可能会导致不同平台和供应商的审查做法出现更多差异。

此外,这种无定形的信息控制应用可能会导致意料之外的滥用,最近关于中国 “黑公关 “行业的报道就证明了这一点,并记录了围绕关键词封锁和内容删除的腐败案例(Custer,2013)。

相關研究

中国的国家级互联网过滤系统一直是许多技术研究的重点(Zittrain和Edelman,2003;Park和Crandall,2010;Xu等人,2011;Winter和Lindskog,2012)。关于中国HTTP关键词过滤系统的研究包括Clayton, et al.(2006)和后来的Crandall, et al.(2007),他们使用潜在语义分析,对围绕敏感话题的审查关键词进行反向工程。

与对中国国家过滤系统的研究相比,对中国国内产品和服务审查的研究是有限的。以前的文献显示,各公司在哪些内容被列为审查对象以及用于实施审查的机制方面存在不一致。最近关于中国社交媒体的研究也显示了中国微博的审查制度是如何动态地适应敏感话题的,并指出了审查制度的可能重点。

MacKinnon(2009)研究了15个不同的中国博客服务提供商如何过滤和删除帖子,发现实施的审查程度和使用的方法有很大差异。基于这些发现,MacKinnon得出结论,在中国,对用户产生的内容的审查是高度分散的,负责维护服务的公司和私人可以对审查的实施方式产生重大影响。Villeneuve(2008b)测试了谷歌、微软、雅虎和中国公司百度为中国市场开发的搜索引擎中的关键词审查制度。他发现四个搜索引擎审查的关键词几乎没有重叠,这表明没有一个全面的系统(如官方名单)来实施审查,搜索引擎供应商在执行政府的审查要求时有灵活性。

关于中国社交媒体的研究开始出现,但由于计算处理中文文本的难度,相对于一般的社交媒体研究,这些研究是有限的。目前的工作实例包括香港大学维护的WeiboScope平台,该平台追踪整个新浪微博平台的趋势。其他研究集中在微博过滤的动态性质上。Bamman等人(2012)对被删除的微博帖子进行了统计分析,发现带有敏感词和来自某些地理位置(如西藏和青海)的帖子有更高的删除率。Zhu, et al.(2013)测量了微博上的审查制度,发现追溯性的帖子删除在几分钟内发生,而且审查者使用许多自动化工具。King等人(2013)收集了1382个中国社交媒体网站的帖子,通过统计和内容分析,比较了被审查和未被审查的帖子,证明审查的重点是代表、加强或鼓励社会动员的内容。

与其他国内服务一样,中国的即时通讯程序也受到审查条例的约束,来自媒体和中国博客社区的传闻报告引起了人们对即时通讯程序被监视以及聊天记录被用于逮捕和起诉的怀疑(Kennedy,2012;Global Voices Advocacy,2009)。关键词清单的泄露和过去的工作已经证实了一些中国即时通信程序的审查和监控能力。2004年,通过对QQ聊天动态链接库的字符串转储,检索到了用于触发QQ聊天审查的关键词列表,这是因为缺乏加密技术(Qiang,2004)。TOM-Skype在2006年的一份人权观察报告中被提及,该报告分析了该客户端的审查功能。这项工作由Villeneuve(2008a)跟进,他通过获取TOM-Skype通过托管在中国的不安全的可公开访问的网络服务器上传的聊天记录,并对用户和内容过滤器日志进行集群和内容分析,证实了TOM-Skype客户端的监控功能。Knockel等人(2011年)逆向工程了多个版本的TOM-Skype客户端,为每个客户端解密了审查和监控关键词列表,并报告了一个月内的列表更新情况。他们随后对新浪UC聊天客户端进行了逆向工程,获得了下载客户端使用的审查名单的URL和加密密钥,并提供了新浪UC名单与TOM-Skype名单的高级别比较(Aase, et al., 2012)。

这项工作建立在以往研究的基础上,通过分析21个月内的TOM-Skype和新浪UC关键词列表的数据集,将关键词翻译成英文,将关键词归入更细的内容类别,并将列表更新与当前事件相关联。在过去获得完整审查名单的情况下,例如2006年人权观察报告附录中的QQ聊天和博客关键词,这些名单来自一个时间快照;然而,我们的数据集包括一年半以来每天名单的所有变化。以下各节将详细介绍我们的方法和结果。

方法论

我们选择了TOM-Skype[7]和新浪UC进行分析,因为这两个即时通讯程序在客户端软件中实施了审查制度(在TOM-Skype的情况下是监控)。然而,这些并不是中国最流行的即时通讯程序。该市场由腾讯的QQ聊天软件主导,它以1.903亿独立日用户和75%的市场份额领先(eMarketer,2012)。相比之下,根据2011年的报告,TOM-Skype每天有210万独立用户,在中国最常用的即时通讯程序中排名第十。新浪UC目前只占有1.1%的市场份额,在2011年的排名中也没有出现在中国最常用的十大即时通讯程序中(Xing,2010;eMarketer,2012)。

我们分析了每个TOM-Skype和新浪UC客户端的审查和监控行为。使用数据包嗅探,我们发现每个客户端从哪个网址下载其关键词列表,对于每个发送监视信息的客户端,它将这些信息上传到哪个网址。为了解密关键词列表和监视信息,我们使用了适合每个客户端的各种逆向工程技术,我们将在下文介绍。

新浪UC的审查制度

新浪UC没有内置的抵抗逆向工程的措施,逆向工程用于其关键词列表的密码学是本研究中所有客户端中最容易的。我们使用了传统的技术,在程序内部搜索知名加密算法所使用的加密常数。我们找到了Blowfish算法的密钥调度器所使用的常量,这使得我们可以通过查看哪些函数引用了这些常量来找到实现密钥调度器的函数。一旦我们找到了密钥调度器函数,我们就在其上设置断点,运行新浪UC,并见证了传递给调度器的Blowfish密钥。

TOM-Skype审查制度

我们通过采用选择的密码文本攻击,逆向工程了TOM-Skype 3.6-4.2和TOM-Skype Mobile的关键词列表的密码学。这些客户对用于下载关键词列表的服务器的地址进行DNS查询。通过重定向客户端的查询,使其指向我们自己的网络服务器,我们能够完全控制客户端下载的密码文本。

我们发送给客户的初始密码文本与TOM-Skype提供的密码文本相同。我们从以前的工作中知道(Villeneuve, 2008a),”fuck “是被审查的,因此通过一次删除一半的列表,我们能够使用二进制搜索来确定哪一行对应于关键词 “fuck”。从那里,我们对密码文本进行了扰动,直到我们能够推断出以下算法。

我们发现,TOM-Skype 5.0-5.1的关键词列表是从Content-Filter.exe中下载并解密的,这是一个独立于Skype.exe的进程。它们是用一个256位的密钥进行加密的,这个密钥最初是在TOM-Skype 2.5中使用的(Desclaux and Kortchinsky, 2006b)。该密钥似乎是为了32个ASCII编码的字符,但这32个字符是UTF16LE编码的,所以只有前16个字符适合256位密钥,其中16个字节是空字节。

对TOM-Skype 5.5-6.1的关键词列表的加密技术进行逆向工程是一个挑战。这些列表是在Skype.exe本身中下载和解密的,而不是像TOM-Skype 5.0-5.1那样的独立进程。众所周知,普通的Skype客户端包含复杂的反调试措施,可以抵制传统的逆向工程技术(Desclaux和Kortchinsky,2006a),我们发现TOM-Skype也继承了这些措施。

我们通过使用DLL注入来规避这些措施,这是一种在另一个进程的地址空间中运行任意代码的技术。我们使用这种技术来钩住API函数,这使得我们可以用我们自己的行为来替代API函数的行为。我们首先钩住了客户端用来下载关键词列表的API函数,这使我们能够获得有关用于下载和解密列表的线程的信息。然后,我们钩住了用于创建线程的API函数,当它创建了一个符合我们之前发现的标准的线程时,我们让它在创建后暂停该线程。在那里,我们用一个调试器连接,暂停所有其他线程以避免反调试措施,并恢复我们感兴趣的线程。然后,我们能够使用传统的逆向工程技术来分析该线程的行为。

TOM-Skype监控

我们能够使用传统技术对TOM-Skype 5.1中用于监视信息的密码学进行逆向工程,因为监视是在ContentFilter.exe中进行的,这是一个独立于Skype.exe的进程,不包含相同的反调试措施。尽管TOM-Skype 4.0-4.2和5.5-6.1在Skype.exe内部进行监视,但我们发现它们使用了与5.1相同的加密技术进行监视。

对TOM-Skype 3.6-3.8中用于监视信息的密码学进行逆向工程更具挑战性,因为它们在Skype.exe中执行监视。然而,我们使用了类似于对TOM-Skype 5.5-6.1的关键词列表密码学进行逆向工程的DLL注入策略。通过查看其他版本的TOM-Skype,我们知道他们在发送监视信息之前会重新注入随机数生成器,因此我们将通常用于创建种子的API函数挂到了线程上。然后,像以前一样,我们能够用调试器连接,暂停所有其他线程,除了感兴趣的线程,并对该线程进行反向工程,以避免Skype的反调试措施。

結果

在下面的章节中,我们将详细介绍所收集的关键词列表的审查和监视机制是如何运作的,并提供对关键词内容和列表更新的分析。

审查和监督机制

我们为TOM-Skype和新浪UC客户端收集了一些不同的列表。对于TOM-Skype,不同版本的客户端使用不同的列表,在后来的客户端版本中,使用单独的列表进行审查和/或监控。新浪UC客户端的所有版本都使用相同的列表,如表1所示,这些列表用于不同的目的。

TOM-Skype客户端包含内置的关键词列表,并通过HTTP下载新的列表。客户端使用这两个列表中的一个来审查传入或传出的文本聊天;然而,不同版本的客户端在其内置列表、下载的列表更新来源以及是否审查传入和/或传出的聊天信息或进行监视方面存在差异。大多数版本的客户端在审查传入或传出的聊天信息时,将通过HTTP向TOM-Skype服务器发送信息内容和发件人信息的日志。

新浪UC客户端可以审查传入和传出的信息以及用户名。虽然客户端本身不进行监控,但有可能进行服务器端的监控(进一步讨论见第8节)。客户端包含五个内置列表,通过HTTP更新。每个名单都有不同的目的。一个列表审查传入和传出的文本聊天和用户名(用ID号代替用户名);一个列表只审查用户名;第三个列表审查传入和传出的文本聊天。其余两个列表的目的不明。

客户端使用各种加密算法对关键词列表和监视信息进行加密,从众所周知的算法到 “临时 “算法(详见第3.2节),这些算法并没有提供多少安全性(见表2和3)。

我们发现,除5.0外,所分析的TOM-Skype的所有版本都能进行监视,而且各版本在监视记录中发送的信息也不尽相同。大多数客户端包括触发信息的发件人、触发信息的全部内容、日期和时间,以及0或1,分别表示该信息是发出的还是传入的。TOM-Skype 5.1发送的监控日志最不全面,不包括发件人,而TOM-Skype 5.5-6.1版本发送的监控日志最全面,除发件人外还包括信息的接收者(见表4)。

Table 1: Lists used by the TOM–Skype and Sina UC clients.
List/URL Function
TOM–Skype 3.6–3.8 skypetools.tom.com/agent/newkeyfile/keyfile Incoming/outgoing message censorship and surveillance
TOM–Skype 4.0–4.2 a[1-8].skype.tom.com/installer/agent/keyfile Incoming/outgoing message censorship and surveillance
TOM–Skype 5.0–5.1 skypetools.tom.com/agent/keyfile Incoming message censorship and surveillance
TOM–Skype 5.1 Surveillance–only skypetools.tom.com/agent/keyfile_u Incoming message surveillance
TOM–Skype 5.5–6.1 a[1-8].skype.tom.com/installer/agent/keyfile5.5/keyfile Incoming/outgoing message censorship and surveillance
TOM–Skype 5.5–6.1 Surveillance–only a[1-8].skype.tom.com/installer/agent/keyfile5.5/keyfile_u Incoming/outgoing message surveillance
TOM–Skype Mobile skypetools.tom.com/agent/newkeyfile/keyfile_a Incoming/outgoing message censorship and surveillance
Sina UC List 1 im.sina.com.cn/fetch_keyword.php?ver=8.3.4.22616 Incoming/outgoing message and username censorship
Sina UC List 2 Username censorship
Sina UC List 3 Unknown
Sina UC List 4 Incoming/outgoing message censorship
Sina UC List 5 Unknown
Table 2: List of cryptographic algorithms and keys used by the TOM–Skype and Sina UC clients.
Lists Cryptography Cryptographic key
TOM–Skype 3.6–3.8 TOM–Skype 4.0–4.2 Ad hoc XOR algorithm
TOM–Skype 5.0–5.1 TOM–Skype 5.1 Surveillance only AES+ECB 0\0s\0r\0 \0T\0M\0#\0R\0 W\0F\0D\0,\0a\04\03\0 \0
TOM–Skype 5.5–6.1 TOM–Skype 5.5–6.1 Surveillance–only DES+ECB \x7a\xdd\xe7\xdc\x23\x25\x53\x75
TOM–Skype Mobile Ad hoc XOR algorithm
Sina UC Lists 1–5 Blowfish+ECB H177UC09VI67KASI
Table 3: List of cryptographic algorithms and keys used for surveillance by TOM–Skype clients.
Clients Cryptography Cryptographic key
TOM–Skype 3.6–4.2 DES+ECB (using only first 6 of 8 bytes of each plaintext block) 32bnx23l
TOM–Skype 5.0 No surveillance 32bnx23l
TOM–Skype 5.1–6.1 TOM–Skype Mobile Surveillance–only DES+ECB (using only first 6 of 8 bytes of each plaintext block) X7sRUjL\0
Table 4: Surveillance message triggered when JaneDoe receives “fuck you” from JohnDoe.
Clients Example surveillance message
TOM–Skype 3.6–4.2 JohnDoe fuck you 12/31/2011 6:00:00 PM 1
TOM–Skype 5.0 No surveillance
TOM–Skype 5.1 fuck you 12/31/2011 6:00:00 PM 1
TOM–Skype 5.5–6.1 JohnDoe fuck you 12/31/2011 6:00:00 PM 1 JaneDoe
TOM–Skype Mobile JohnDoe fuck you 2011-12-31 18:00:00 1

關鍵詞分析

关键词列表的收集始于2011年4月24日(TOM-Skype)/2011年8月8日(新浪UC),结束于2013年1月31日,最新的变化发生在2012年12月20日(TOM-Skype)/2012年10月11日(新浪UC)。总的来说,该数据集由88个列表组成,这些列表共包含4256个独特的关键词。这些列表的大小从1到1,421个独特的关键词不等。

在这4,256个关键词中,3,070个关键词(72%)只包含汉字(特别是Unicode的CJK范围内的字符),518个(12%)只包含ASCII字符,645个(15%)有两者的组合。5个词是西里尔语,6个关键词包含Unicode罗马数字字符,10个关键词由Unicode全幅拉丁字符组成(见表5)。

Table 5: Breakdown of character types in the keyword lists.
Character type(s) Number of keywords Examples
CJK only (may include ASCII spaces) 3069 (72%) 遛似
ASCII only 518 (12%) (Note: over 52% of these are URLs or URL–like strings) six 4
ASCII and CJK 645 (15%) six月four日
Cyrillic 5 Восемь–Девять–Шесть–Четыре
Unicode roman numerals 6 Ⅷ Ⅸ Ⅵ Ⅳ
Unicode full–width Latin 10 qqqqq
Other 3 six—four (em dash) ⑥④ ⑥㈣

每个关键词都由一位流利的中文使用者从中文翻译成英文,并附上关键词背后的政治和社会背景描述。根据这些背景描述,我们将关键词编码为61个内容类别,分为六大主题。政治(与中国政府或政治问题有关的内容,如人权、言论自由、民族团体、宗教运动等);社会(被认为是社会敏感或不受欢迎的内容,如色情、赌博、非法武器和毒品等);人(个人的名字,如政府官员、政治异见者)。政府官员、持不同政见者);事件(预定事件、经常性事件、当前事件);技术(例如,一般技术术语、网站、间谍软件、URLs等)和杂项(例如,没有明确背景的术语)。

总的来说,我们发现客户之间的关键词很少有重叠的地方。138个关键词(3.2%)分布在29个类别中,所有六个主题在TOM-Skype和新浪UC列表中都有共同点,主要体现在中共党员/政府官员(21个关键词)、好奇心(19)、持不同政见者/活动家(18)、宗教(15)和天安门广场(13)等类别(见图1)。

政治

在 “政治 “主题中,涵盖了广泛的问题,包括中共政治、中国民主运动、腐败丑闻、民族团体和宗教运动。虽然客户之间的独特关键词几乎没有重叠,但关键词列表显示了对类别问题的共同关注。图2显示了政治类别的分类,图3显示了更细的子类别的分类,显示了列表中提到的问题的广度。

在 “人 “的主题中,最突出的类别是中共党员。其次是个人活动家或政治异见者的名字。在TOM-Skype和新浪UC的名单中,有179个关键词含有个别活动家或政治异见人士的名字(例如,艾未未、陈光诚、伍尔凯西)。这一主题还提到了中共党员的亲属,以及暴力犯罪的肇事者和受害者。见图4。

事件

总的来说,TOM-Skype列表包含了更多对具体事件的提及,但新浪UC列表中与1989年6月4日天安门大屠杀有关的190个词除外。TOM-Skype列表包含了与我们确定的所有21个事件有关的关键词,而新浪UC列表只提到了其中的八个事件。见图5。第6节将详细讨论这两个客户端在关键词列表中表现出来的对事件的反应。

社会

社会 “主题的关键词主要有两类。非法商品和服务,包括非法材料的贩运,如麻醉品、武器和假货;以及情趣,一般指的是色情和卖淫。非法商品和服务是数据集中最大的单一类别,共有677个关键词;情趣是第二大类别,共有663个关键词。见图6。

技术

在 “技术 “类别中,最大比例的关键词是新浪UC列表中的URL。将URL列入审查名单可能是一种防止恶意链接或垃圾邮件传播的机制。接下来最常见的是通用技术术语,这也是在新浪UC列表中出现频率最高的。其中很多都非常笼统,包括新浪名单2中的 “管理员”(”Administrator”)和 “系统通缉令”(”System notification”),这可能是为了防止用户创建允许他们冒充新浪管理账户的用户名的一种手段。在这个类别中还有一些著名网站的名称,包括 “中文维基百科 “和 “谷歌博客”。见图7。

有针对性的和广泛的关键词

许多关键词都有很强的针对性。例如,TOM-Skype名单中的关键词 “西大直街康宁路路口世纪联华”(”Corning West and Da Zhi Street intersection, Century Lianhua gate”)是计划中的茉莉花集会的地址。

其他的关键词则非常通用。例如,TOM-Skype 5.1的监控名单包括 “汉人”(中国的多数民族)、”华人”、”万维 “和 “互联网”。纳入这些常见的词汇可能会导致大量用户的信息被监视。此外,这些关键词似乎过于宽泛,对常规监控来说并无用处,这表明要么TOM-Skype过于热衷于执行政府授权的监控,要么使用额外的标准来确定要监控的信息或用户(Villeneuve, 2008a)。

新浪UC列表2包含一些通用关键词,如 “系统”(”系统”)和 “聊天”(”聊天”)。这个列表是用来审查用户名的,这些关键词的存在可能是为了防止用户冒充系统管理员或客户端的功能。

对新词的适应性

这些关键词还表明审查员适应了中国网民对新词的使用,他们经常使用创造性的语言和同音词来逃避审查(Qiang,2012)。由于中国方言是音调语言,网民经常使用音调不同的类似词汇,或者使用同一音调所代表的不同字符,来传递原本被审查的字符的含义。用户也会利用不同字符之间的视觉相似性来暗示被禁止的字符或词语的含义。在关键词列表中看到的新词的变化表明,审查员对用户试图逃避审查和监视的技术有高度的认识和适应。

例如,关键词列表中包括失宠的政治家 “薄熙来 “的名字,以及 “博西莱”。(“薄熙来 “的发音和声调相同,但字符不同),以及 “博西莱”(B〇稀莱) 和 “博西莱”(”BO Xilai”,有两种文字变化)。同样,”茉莉花”(Jasmine)的众多同义词也出现在各种TOM-Skype列表中。在某些情况下,被审查的词语包括汉字与英文单词、数字和符号的组合。这些组合的广度体现在与1989年6月4日天安门广场大屠杀有关的关键词上,这是一个高度敏感的话题,是严格审查的对象。被审查的名单中包含了许多提及六四的词汇,例如用中文表达的六四的变体(六四,六四);罗马数字(六四),方程式(六。 2+2,32x2),符号(⑥④)和日期(五月三十五号,三月九十六号)。

关键字列表的变化

在研究过程中,两个客户端的列表都发生了明显的波动,在某些情况下,规模迅速增加,并在短时间内缩减为一个关键词。这些变化的结果是,客户端中的审查和监视机制发生了重大改变。此外,在研究结果中还观察到一些难以解释的异常情况,但这可能反映了TOM-Skype或新浪UC管理员的技术错误配置。

TOM-Skype关键词列表的变化

2011年5月,TOM-Skype 5.1版的仅监控名单的规模迅速增加到1,421个独特的关键词,但第二天又减少到399个关键词。2011年4月,5.0-5.1版本的审查名单减少到一个关键词(一度包含一串看似随机的字符),而5.5-6.1版本的审查名单则从一个关键词 “荣守敬 “增加到同一关键词1134次,一天后又回到这个单一关键词。

2012年9月20日,TOM-Skype 5.5-6.1监控专用名单的更新被发送给客户,增加了一些与日本岛屿争端有关的关键词。然而,这些关键词使用的是TOM-Skype 3.6的加密方案,该方案已不再使用,这使得这些关键词无法用于触发监控。第二天,这些关键词被再次添加,并采用了同样不正确的加密方案。有可能是TOM-Skype管理员注意到对这些关键词的监控没有发挥作用,并试图再次添加这些关键词,但没有成功。截至2013年1月31日,这些关键词仍然被错误地加密,尽管较新的关键词已经以正确的加密方式被添加到列表中。

最近版本的客户端的审查关键词列表也已经减少到一个关键词,这意味着这些客户端现在实际上只进行监视。TOM-Skype 3.6-4.2版本,与最近的版本不同,没有单独的只进行监视的列表,其审查关键词列表仍然包含数百个关键词,最后一次更新是在2012年3月。见图8。

**Figure 8:** TOM–Skype sources.

6.2. 新浪UC关键词列表的变化

新浪UC列表也同样经历了一些目的不明的变化,这些变化代表了客户端中审查功能的转变。在2012年的七个月里,新浪UC列表3从50个关键词转变为880个,最后缩减为一个关键词。列表1在2012年9月缩减为一个关键词。列表4在三个月内从380个到21个再到855个关键词,然后也缩减到一个关键词。列表5,像列表1、3和4一样,在2012年9月缩减为一个关键词。这四个列表中的单个关键词都不一样,从提到天安门广场到属于感官兴趣类的关键词。可以想象的是,使用单一关键词是因为客户端的审查功能需要一个非零的列表才能发挥作用。对用户名进行审查的列表2,是唯一剩下多个关键词的列表(截至2012年10月11日,有476个关键词)。因此,大多数客户端的信息审查已经在客户端中被取消了。我们在下文第8节中讨论这一变化可能带来的影响。见图9。

**Figure 9:** Sina sources.

初始和当前列表之间的贾卡德相似性

计算最新版本的列表中的词集和最初版本之间的Jaccard相似系数(两个集合的交集大小除以它们的并集大小)可以发现,在大多数情况下,当前的列表与它们最初的版本有很大的不同。这方面的例外是新浪UC列表2,其相似系数为0.76,以及TOM-Skype 5.5-6.1,其第一个和最后一个列表包含相同的单个单词(上文已讨论)。所有其他列表的系数为0.09或更低。系数(不包括只有一个版本的名单的来源)见表6。

Table 6: Jaccard similarity between first and last lists.
Source Jaccard similarity
TOM–Skype 3.6–3.8 0.03
TOM–Skype 4.0–4.2 0.09
TOM–Skype 5.0–5.1 0
TOM–Skype 5.1 Surveillance–only 0
TOM–Skype 5.5–6.1 Surveillance-only 0.09
TOM–Skype 5.5–6.1 1.0
Sina UC List 1 0.005
Sina UC List 2 0.76
Sina UC List 3 0
Sina UC List 4 0
Sina UC List 5 0

当前事件与关键词列表更新之间的相关性

这个数据集的一个独特之处在于,它提供了审查和监控关键词列表随时间变化的可见性。分析这些变化可以深入了解这两家公司如何通过更新关键词列表对动态的政治和社会事件做出反应。

关键词列表中提到的事件包括以下类型:过去的事件(如中国共产党第十六次全国代表大会)、国家节日和纪念日(如1989年6月4日天安门大屠杀、中华人民共和国国庆日)、预定的事件(如中国共产党第十八次全国代表大会)和当前事件(定义为在我们的数据收集期间发生的事件)。

TOM-Skype列表包括了大量与事件相关的关键词(包括当前和经常发生的事件)。新浪UC列表很少关注当前事件,但有更多与经常性事件相关的关键词。例如,新浪UC列表包括190个与1989年6月4日天安门大屠杀有关的关键词(10.5%),而TOM-Skype包括95个这样的关键词(3.7%)。

为了追踪这两家公司是如何针对当前事件实施关键词变化的,我们确定了数据集中提到的在我们的数据收集时间范围内发生的六个事件。与这些事件相关的关键词只有两个出现在新浪UC和TOM-Skype的名单上。

在整个选定的案例中,我们观察到围绕事件时间线的变化模式并不一致。在某些情况下,关键词的更新是在敏感事件发生后的一天内完成的。在其他情况下,关键词是在事件发生后的几周或几个月内添加的,这可能表明审查员只是在一个问题发展到足够的政治突出性后才做出反应。在某些情况下,中国政府明显关注的看似重要和敏感的政治事件,要么没有出现在任何测试名单中,要么只出现了少量的词汇。

下面的章节将对每个事件背后的背景进行分析,并将事件的时间线与关键词的更新或缺失联系起来。

茉莉花集会

继2010年和2011年初中东和北非的起义之后,从2011年2月20日开始,网上流传着 “茉莉花集会 “的呼吁,计划中的集会地点在中国的一些主要城市(Jacobs, 2011)。虽然这些计划中的活动都没有发展成抗议活动,但预定在北京举行的活动在美国驻华大使洪博培的视频被流传后引起了广泛的关注,他显然是在指定的集合地点。后来的电话会建议参与者在一些城市的指定地点附近 “漫步”,以避免引起警察注意。这些集会,虽然据说参加的人不多,但都有大量警察在场,并有许多关于逮捕和警察对记者施暴的报道。值得注意的是,著名艺术家艾未未在讨论 “茉莉花革命 “的几条推文后于4月3日被捕(Richburg,2011)。

由于我们的数据收集期是从2011年4月开始的,也就是第一次集会后的两个月,我们无法确定相关的关键词是何时被添加到列表中的。大量与茉莉花集会有关的关键词已经出现在为两个客户收集的第一批名单上。总共有132个关键词出现在TOM-Skype的名单上,4个出现在新浪UC的名单上,2个出现在两个名单上。列表中的关键词包括 “下周日茉莉”(”下周日茉莉”)、”西临天泰广场20日”(”西临天泰广场20日”)和 “茉莉花革命倒写”(”命革花莉茉”)。两个客户的名单中都有 “拿着麦克风表示自由”(”拿着麦克风表示自由”),这是对集会参与者的指示。

2011年4月至5月间,TOM-Skype列表中出现的与茉莉花有关的词汇有明显的变化。4月25日,69个关键词从TOM-Skype 5.0-5.1的审查名单中被删除,5月16日,75个关键词被添加到TOM-Skype 5.1的监视专用名单。这次更新遵循了最近版本的TOM-Skype客户端的关键词列表过渡到仅监控的一般模式。这一变化可能是为了应对茉莉花集会而发生的,作为监测动员和讨论敏感事件的一种策略。

薄熙来丑闻

2011年11月14日,驻中国的英国商人尼尔-海伍德(Neil Heywood)被发现死在他位于重庆省的酒店房间里(BBC新闻,2012)。海伍德与薄熙来的家庭有长期的联系,薄熙来当时是中共重庆分局的高官,曾一度被吹捧为有资格进入中共最高领导委员会–政治局常委。海伍德的死亡后来被认为是与涉及薄熙来妻子顾恺之的商业交易有关的凶杀案,顾恺之最终被认定为谋杀罪。2012年2月,重庆市警察局长王立军在成都会见了美国领事官员,据说是为了提供有关海伍德谋杀案的信息,并有可能向薄熙来寻求庇护和保护。王立军后来因腐败被判处15年监禁。此外,中共泄露的报告显示,薄熙来一直在对党的高级官员进行监视,包括窃听胡锦涛主席的电话。2012年3月18日,薄熙来被解除了重庆市委书记的职务,并在2012年9月被开除出中国共产党。这样一位高级政治家的下台标志着中国几十年来最大的政治危机之一,并有可能扰乱2012年11月举行的精心策划的领导层交接。政府当局就这一话题发布的指示要求媒体在报道这一事件时只能参考国家批准的消息来源(中国数字时代,2012g)。

共有62个与薄熙来和海伍德谋杀丑闻有关的关键词出现在名单上,主要是在TOM-Skype上。其中一些词已经出现在我们数据收集期间收集的第一批TOM-Skype和新浪UC名单上,这些名单在海伍德谋杀丑闻发生之前就已经存在。这并不出乎意料,因为薄熙来已经是一个被视为中共内部后起之秀的突出且经常有争议的人物。2013年3月21日,有50个关键词被添加进来,包括许多同音词和 “薄熙来 “这个名字的变体,如B〇稀莱(Bo xī lái)、泊稀莱(Po xī lái)、己厚天下(”不厚,下面的字”,指的是 “薄 “字)和 “bullshitliar”。2012年3月29日,同一列表中又增加了九个关键词,包括呼吁采取集体行动支持薄熙来的词语。如 “支持薄熙来,请到重庆人民广场”(”挺薄去重庆人民广场”)和 “3月17日重庆人民大礼堂”(”3月17日重庆人民大礼堂”)。

尽管一些与薄熙来丑闻有关的事件发生在2011年底和2012年初,但在薄熙来于2012年3月16日被解除重庆市委书记职务后不久,这些关键词清单就被添加了进去。见附录中的图15。

法拉利车祸

2012年3月18日,中共高级官员凌继华的儿子凌谷在北京郊外的一场车祸中丧生(Ansfield, 2012)。据报道,顾雏军以及车内两名受伤的女性都是赤身裸体,而那辆皱巴巴的法拉利的照片开始在网上流传。这一事件在政治上很敏感,原因有很多。凌继华是领导人胡锦涛的亲密政治盟友,预计将在2012年11月的领导层交接期间得到晋升。此外,两名政府官员的儿子驾驶一辆豪华轿车,触动了公众对政府腐败和政府官员家庭成员的不当行为的广泛批评。凌继华后来被从中共中央办公厅的职位上降职。

在车祸发生后的一天内,有报道称 “法拉利”、”凌公子 “和其他相关词汇的搜索在新浪微博、百度和搜搜上被屏蔽(Dao, 2012)。虽然中国的国家媒体最初发表了有关坠机的报道,但到3月20日,《环球时报》有关该事件的文章已被删除。

TOM-Skype名单在事件发生后的几天内被更新。2012年3月21日,24个与该事件有关的关键词被添加到TOM-Skype 5.5-6.1 Surveillance-only列表中,包括 “北京法拉利车祸”(”北京法拉利车祸”)的几个变化。八天后,又有三个关键词被添加到这个列表中,而之前的三个关键词被删除。值得注意的是,所增加的词汇中没有一个具体提到凌志华或凌谷的名字。见图10。

**Figure 10:** Ferrari crash timeline.
a 2012–03–18 Media reports Ling Gu, son of CPCs Ling Jihua, killed in car crash
b 2012–03–19 Reports that searches for “Ferrari” (“法拉利”) blocked on Sina Weibo
c 2012–03–2 Global times deletes article on Ferrari crash
d 2012–03–21 24 keywords added to TOM–Skype list
e 2012–03–29 Versions of three “quoted” keywords swapped for unquoted

全能神教会的逮捕

2012年12月19日,中国国家媒体报道了500名与宗教团体 “全能神教会 “有关的人被逮捕的消息,他们被指控散布谣言说世界将在12月21日按照玛雅日历的最后一天结束(Jacobs, 2012)。

来自《中国数字时代》2012年12月10日的报道显示,官方向媒体发出指示,要求其防范与12月21日预测有关的谣言的产生和传播,并要求媒体 “停止报道全能神邪教组织最近策划的公开皈依集会和其他非法活动”(China Digital Times, 2012e)。12月19日,也就是媒体报道逮捕事件的当天,TOM-Skype 5.5-6.1监控专用列表中加入了四个与该宗教团体有关的关键词,第二天又加入了四个关键词。这些关键词包括 “大红龙福音”(指该团体对中国共产党的称呼)和 “真神在河南”(指该团体成立的省份)。12月19日和20日增加的这些关键词是我们观察到的最后一次TOM-Skype名单更新,截至2013年1月31日,这些关键词仍然在名单上。其他与宗教组织或习俗有关的关键词也出现在两份名单上,最明显的是与法轮功有关的99个关键词。见图11。

**Figure 11:** Church of Almighty God arrests timeline.
a 2012–12–19 Media reports that Church of Almigthy God followers arrested
b 2012–12–20 Four keywords added to TOM–Skype

温州火车事故

2011年7月23日,两辆高速列车在温州城附近相撞,造成40人死亡。政府对这起事故的反应受到了广泛的批评,包括有人指责政府下令掩埋受损列车的部分,作为隐藏证据的手段(Osnos, 2012)。负责交通的副总理张德江(后来接替薄熙来成为重庆市委书记)因其对救援行动的处理而受到批评。

张德江的名字一直出现在火车失事和后续争议之前的许多TOM-Skype名单上。直到2012年3月21日,即事件发生八个月后,温州火车失事后才有新的关键词加入。在张国荣接替薄熙来成为重庆市委书记的八天后,又增加了一些词,都与张国荣和火车失事有关。值得注意的是,3月21日增加的词汇中,有9个词汇提到了张在温州火车事故中的作用,包括 “张副总动铺 “和 “德江动车埋”。

目前还不清楚为什么这些词汇在八个月后才被添加到TOM-Skype列表中。可能是在张国华升任重庆市委书记后,这场争论获得了更多的政治关注。2012年3月21日还增加了其他一些与张志军有关的词汇,包括 “德江SARS”,指的是张志军在2003年SARS危机爆发时担任广东省委书记的职务。以及 “德江南都案”,指的是之前涉及张建国和一家中国报纸的腐败案的争议。因此,我们看到,在被提拔后,一些与张国荣有关的词汇被添加到之前的争议中。然而,火车失事本身是一个高度敏感的事件,政府官员试图限制对它的报道。车祸发生后几天,网上泄露的报告显示,政府当局向印刷和网络媒体发出指示,限制发表有关该事件的报道(中国数字时代,2011)。见图12。

**Figure 12:** Wenzhou train crash timeline.
a 2011–07–23 Train crash in Wenzhou, Zhejiang kills 40
b 2012–03–15 Zhang Dejiang becomes party leader in Chongqing
c 2012–03–21 Nine keywords added to TOM–Skype

西藏人的自焚事件

在2011-2012年期间,中国藏区发生了一波前所未有的自焚抗议活动。2011年3月16日,20岁的僧人彭措的自焚事件标志着这一浪潮的开始,也是自2009年2月以来藏族社区首次出现这种有争议的抗议形式。自2011年3月以来,已有119名藏人以自焚的形式抗议中共围绕西藏和西藏文化的政策,破坏了中共关于藏人赞成中国政府政策并从中受益的说法。在119名自焚的藏人中,有100人被证实在抗议后死亡(国际支持西藏运动,2013)。这一系列的自焚事件遭到了中国政府的积极镇压。

在新浪UC列表中,”自焚”(”self-immolation”)是唯一与该问题相关的关键词,并且自我们开始收集数据以来一直出现在新浪UC列表2中。在Phuntsog自焚事件发生两个月后,关键词 “自焚”(”self-immolation”)被添加到TOM-Skype 5.1 Surveillance-only列表中;随后在2011年5月17日被删除。

对于TOM-Skype来说,直到2012年3月21日,没有再添加与自焚有关的关键词。在2011年3月16日至2012年3月21日期间,有29名西藏人自焚。然而,3月21日添加到TOM-Skype的关键词只关注一个事件,即30岁的僧人Jamyang Palden的自焚事件。2012年3月14日,Jamyang Palden自焚,这是自2009年2月以来中国藏区发生的第27起自焚事件,也是在热贡(藏语)/同仁(汉语)县发生的第一起。事件发生后,藏族僧侣和普通民众举行了反对中国统治的示威。同一天晚些时候,约有4000名学生在青海省的三个县参加了关于藏语权利的抗议活动。热贡(藏语)/同仁(汉语)、泽科(藏语)/泽库(汉语)和康萨(藏语)/刚察(汉语)(自由亚洲电台,2012a)。在Tsekhog的抗议活动中,学生们要求所有民族的平等和语言自由,并要求结束中国在该地区的军营。据报道,这次抗议活动具体提到了中国军队的存在,这是自2009年后的自焚事件和随后的政府回应开始以来,已知的第一次在抗议活动中提到中国军队的存在(拯救西藏,2012)。此外,3月16日,1,000名藏人在青海省格巴苏木多县(中文名为塘尔)举行示威,要求释放前一天因升起西藏国旗和进行和平抗议而被拘留的50名僧人(自由亚洲电台,2012b)。

2012年3月21日,在TOM-Skype列表中增加了九个关键词(3.6-3.8, 4.0-4.2, 5.5-6.1 仅限监视),提及Jamyang Palden的自焚和随后的抗议活动,包括。”加央班旦僧人”、”学生示威游行”、”安多日贡隆务寺”、”青海学生 “和 “泽库县学生”。这些关键词仍然在TOM-Skype列表中。然而,自2012年3月21日以来,没有再增加与自焚有关的关键词。见图13。

在这个特定时期对自焚问题的关注,一个可能的解释是,Jamyang Palden的自焚和随后的3月抗议活动是在一个特别敏感的时期。3月10日是1959年西藏起义的纪念日,2008年拉萨的动乱,开始是纪念3月10日,但在3月14日变成了骚乱。据报道,Jamyang Palden自焚后发生的大规模抗议活动可能促使中国当局向私营公司转达有关审查和/或监视与事件相关内容的具体指示。因此,虽然这个问题之前没有得到关注,但2012年3月的抗议活动可能引起当局的注意,对TOM-Skype等公司施加压力。

然而,如果Jamyang Palden的自焚和周围的抗议活动确实迫使人们做出反应的压力,那么令人惊讶的是,在客户名单中没有再增加与该问题有关的关键词,因为从最后一次关键词更新(3月21日)到2013年1月31日,又有70名藏人自焚,藏区发生了类似的示威活动,政府的积极回应也在继续。

**Figure 13:** Tibetan self–immolations timeline.
a 2011–03–16 #1 post 2009 self–immolation (Phuntsog)
b 2011–05–16 Keyword added to TOM–Skype and removed following day
c–d 2011–08–15 2012–03–10 Within this period 26 Tibetans self–immolated
d 2012–03–10 Anniversary of 1959 Tibet Uprising
e 2012–03–14 Anniversary of 2008 Lhasa riots, 27th post–2009 self–immolation (Jamyang Palden), Tibetan student protests across Qinghai
f 2012–03–16 2012–03–17 28th and 29th post–2009 self–immolation (Lobsang Tsultrim)
g 2012–03–18 1,000 Tibetans protest in Gepasumdo county (Tongre in Chinese)
h 2012–03–21 Nine related keywords added to TOM–Skype

7.7. 钓鱼岛/尖阁岛抗议活动

几十年来,中国和日本在东中国海的一组岛屿上一直存在着领土争端。这些无人居住的岛屿,中文被称为 “钓鱼岛”,日文被称为 “尖阁”,一直是相当紧张的政治局势和公众抗议的来源。与钓鱼岛/尖阁群岛有关的内容过去一直是中国即时通讯节目的审查和监视对象。与该问题有关的关键词出现在2004年的QQ关键词列表中(Qiang, 2004),以及2008年收集的TOM-Skype日志中(Villeneuve, 2008a)。

岛屿争端是反映在TOM-Skype(14个关键词)和新浪UC(8个关键词)列表中的少数当前事件之一。其中有三个关键词在两个客户之间是共同的。”保钓”、”反日 “和 “钓鱼岛”。所有的新浪UC关键词都出现在最早收集的列表中(新浪UC列表2 2011-08-08,用于审查用户名),因此很可能在我们开始收集数据之前就已经存在。TOM-Skype名单上与岛屿争端有关的关键词包括 “保钓 “和 “反日”,这两个关键词于2011年5月16日被添加到TOM-Skype 5.1 Surveillance-only名单中,并在第二天被删除。除了2011年5月16日之外,直到2012年9月围绕争端的紧张局势开始升级时,才有与该主题相关的关键词更新。

在东京都知事石原慎太郎于2012年4月发起公开活动后,中国和日本在钓鱼岛问题上的关系恶化,该活动旨在筹集捐款以购买钓鱼岛并将其置于东京市政府的控制之下。2012年9月11日,日本政府购买了其中三个岛屿并将其国有化。这次购买被宣称是从 “和平和稳定管理尖阁列岛的观点 “出发的,也被认为是试图阻止石原的购买行为(Asahi Shimbun, 2012)。此举导致中国政府谴责购买行为是对中国领土主权的侵犯(新华社,2012a)。随后,中国侦察船进入钓鱼岛附近的日本领海,中国80多个城市爆发了大规模的反日抗议活动。

抗议活动的规模和暴力性质导致一些评论家质疑抗议活动是如何被允许发生的,并猜测可能存在某种程度的政府直接或默许。有传闻称,9月初,包括 “反日示威 “和 “抵制日货 “在内的之前被屏蔽的关键词在微博搜索中可以找到,这进一步加深了人们的怀疑(Lam, 2012; Dao, 2013)。

然而,9月15日,在日益激烈的抗议活动中,国务院新闻办公室的一份泄密指令要求所有网站 “检查并清除每个论坛、博客、微博以及其他形式的互动内容中有关动员反日示威、煽动骚乱和抢劫的材料……” (China Digital Times, 2012a)。传闻表明,9月18日,以下关键词在微博搜索中被屏蔽。”打砸抢”, “亮马桥” 亮马桥”(日本驻北京大使馆所在地)、”暴徒 “和 “封校”,显然与抗议活动升级导致的一些学校关闭有关(China Digital Times, 2012b)。9月19日,又有一些关键词被报道在微博搜索中被屏蔽。”反日”、”抗日”、”砸车 “和 “打砸”(中国数字时代,2012c)。

这些事件与新浪UC和TOM-Skype关键词列表的变化相关。9月17日,10个相关关键词从新浪UC列表中被删除。”保钓”、”反日”、”打砸抢”、”抵制日货”、”日本大使馆”。”日本大使馆”(”日本使馆”)、”日本领事馆”(”日本领事馆”)、”示威”(”游行”)和 “钓鱼岛”(”钓鱼岛”)。

9月20日,11个相关的关键词被添加到TOM-Skype 5.5-6.1 Surveillance-only列表中。”使馆游行”、”保护钓鱼岛”、”出海登岛”、”反日”、”扔鸡蛋”。”抗议”(”抗议”)、”口号”(”标语”)、”横幅”(”横幅”)、”示威”(”游行”)、”燃烧瓶”(”燃烧瓶”)、”示威”(”示威”)、”联署”。

TOM-Skype关键词的更新遵循了9月指令后围绕该问题的限制增加的模式。然而,新浪UC上用于触发用户名审查的关键词的删除似乎没有任何意义,可能是技术或人为操作错误的产物。见图14。

**Figure 14:** Diaoyu/Senkaku Island protests timeline.
a 2012–09–11 Japanese government purchases three Diaoyu/Senkaku Islands
b 2012–03–14 Chinese surveillance ships arrive in disputed waters
c 2012–03–15 Large–scale anti–Japan protests begin in China
c 2012–03–15 State Council Information Office issues directive
d 2012–03–17 Related keywords removed from Sina UC
e 2012–03–18 First set of related keywords reported blocked on Weibo
f 2012–03–19 Second set of related keywords reported blocked on Weibo
g 2012–03–20 Related keywords added to TOM–Skype

关键字列表中没有提及的敏感事件

与上述情况不同的是,在收集期间发生的一些值得注意的政治发展,在关键词列表中要么没有出现,要么似乎没有得到充分体现。鉴于这些事件的重要性–包括有组织的抗议活动和中国十年一次的领导层交接–相对于出现在关键词列表中的其他事件,它们被排除在外是意料之外的。

2013年1月,广东知名报纸《南方周末》呼吁加强宪法权利的新年社论被查禁后,出现了争议。该报办公室外的抗议活动导致了逮捕,中央政府当局也发出通知,要求媒体和网站就这一事件发表政府批准的社论(China Digital Times, 2013a)。报告显示,许多与争议有关的词汇在新浪微博上被封杀。然而,在任何一个关键词列表中都没有发现与该争议有关的关键词。

在数据收集期间,发生了一些与香港有关的敏感事件,但并没有出现在任何关键词列表中。2012年9月,香港发生了立法选举,这导致中国政府当局发布指示,限制媒体对选举的报道(中国数字时代,2012d)。同月,在香港当局计划对教育课程进行修改后,发生了广泛的抗议活动,该计划被批评为向学生灌输中共教义的一种手段(Bradsher,2012)。这两个事件都没有出现在关键词列表中,2011年5月后也没有与香港有关的关键词被添加到列表中。

2012年11月,中国共产党第十八次全国代表大会召开,这是十年一次的领导权交接,习近平成为中国共产党的最高领导人。这次会议是中国最重要的政治事件之一,在今年早些时候发生薄熙来丑闻后,变得更加敏感。在TOM-Skype列表中,总共只有四个与该事件有关的关键词,包括 “十八大 “和 “立接班人”。这些词是在2011年5月添加的,比事件发生整整早了一年半。这些词在事件发生前很久就被添加进来,这并不一定令人惊讶,因为中国的领导层交接过程是提前很久就安排好的。然而,考虑到该事件的高度敏感性和重要性,以及TOM-Skype对其他重要政治发展的反应,增加与该事件相关的关键词如此之少,以及在该事件发生前的一段时间内没有增加词语,是出乎意料的。有报道指出,在2012年11月大会召开之前,新浪微博屏蔽了一些与该事件有关的词汇(China Digital Times, 2012f),并操纵了几十个中共官员名字的结果(Ng and Landry, 2013),其中大部分没有出现在我们的数据集中。

这些事件在关键词列表中的缺失和有限的代表性说明了在确定哪些政治事件具有足够的重要性而被添加到关键词列表中的挑战,并让人质疑TOM-Online和新浪如何确定在其聊天客户端中针对哪些事件,以及如何围绕这些事件发布官方指令。

讨论

我们的数据集能够全面了解新浪UC和TOM-Skype在21个月内是如何进行基于关键词的信息控制的,从而深入了解内容是如何以及何时被列为审查或监控的目标。然而,虽然我们对这两个项目有了更多的了解,但我们的分析提出了许多问题,涉及到行业在中国实施信息控制的影响,项目的审查和监控能力及其影响,这些产品的控制与其他类型的中国服务相比如何,以及在TOM-Skype的情况下,Skype和微软的企业社会责任影响。

行业在中国实施审查和监控的影响

总的来说,我们的发现表明,中国服务中审查和监控功能的实施会受到管理这些服务的私人公司和运营商的影响。这些决定可能会影响到目标关键词,从可用于监控社会动员讨论的高度具体内容(如茉莉花集会地点和指示)到可能导致过度封锁或更大监控的过于广泛的关键词。

在我们跟踪关键词列表的整个过程中,我们观察到不稳定的更新行为和技术错误,这些错误有时似乎是由人类操作员的粗心错误造成的。当公司对用户聊天实施审查和监控时,错误和不良的技术操作会产生严重的影响。TOM-Online在这方面的记录特别差,Villeneuve (2008a)就证明了这一点,它发现该公司将收集的数据储存在不安全的服务器上,包括可以用来利用整个TOM-Skype服务器网络的信息,并可能将聊天记录和用户数据暴露给攻击者。这些公司的运作缺乏责任感和透明度,这加剧了这些担忧。

在我们的分析中,我们观察到一些关键词的更新似乎是对政治敏感事件的反应,在某些情况下,这与官方给媒体和互联网公司的指令是一致的。然而,其他一些明显是中共关注的问题,并且是其他中国互联网服务的目标的事件却没有出现在数据集中。这种不一致引起了人们对官方指令如何以及何时传达给TOM-Online和新浪的问题,以及这些公司运作的谨慎程度。尽管我们有机会接触到关键词列表,但这两家公司的互动过程和细节仍然是未知的。

审查制度和监视重点的变化

我们观察到的一个意想不到的变化是关键词列表的波动,它有效地使TOM-Skype的最新版本只关注监视(而不是同时关注审查),并且似乎使新浪UC只关注用户名审查。

在TOM-Skype的案例中,转向只监控关键词列表与茉莉花集会有关,这可能意味着来自当局的压力或公司方面做出的独立决定,以监控敏感事件的讨论,特别是那些可能导致社会动员的事件。

对于新浪UC来说,这些变化很难解释。鉴于中国的法律和监管限制,该公司停止审查功能是不可信的。然而,有可能像TOM-Skype一样,新浪UC也转向了监控重点,但在服务器端实施这些功能,这不会被我们的逆向工程方法发现。由于TOM-Skype的点对点架构,监视和审查必须在客户端实现。在市场上所有的中文即时通讯程序中,TOM-Skype和新浪UC是我们所知道的唯一在客户端实施审查或监控功能的程序。因此,服务器端的实现可能是中国市场的标准。中国最流行的即时通讯程序QQ聊天,以及迅速崛起的新应用,如微信,被怀疑具有监控功能(Kennedy,2012;Lam,2009),但目前还没有技术分析能够证实它们的存在或运行。

我们进行的其他探索性测试进一步支持了这一假设,即即时通信客户端可能会脱离审查重点。2012年4月,我们试图通过QQ聊天发送包含TOM-Skype 5.5-6.1 Surveillance-only列表中关键词的信息。该名单中共有9个关键词被过滤,大部分与法轮功有关。在一个类似的实验中,新浪UC列表中的15个词在QQ聊天中被审查,也与法轮功有关。在2013年2月重复这个实验时,即使通过中国的VPN进行实验,QQ聊天中也没有任何一个词被过滤。这两个实验表明,不同客户端之间的审查内容没有重叠,而最新的结果表明,重点可能已经转移到服务器端的监控。

如果大多数提供即时通讯程序的中国公司都在进行监控,那么大规模侵犯隐私的可能性就很大。很明显,中国公司有义务配合政府调查,保持并向安全部门披露记录和报告,并终止传输国家机密(中国人权,2010)。然而,目前还不清楚这些法规如何影响私营公司决定哪些具体的监控内容,以及政府对公司做法的监督程度如何。这些对政府的义务以及对违规行为的惩罚风险,可能会刺激过度广泛的关键词触发,以确保持续捕获用户数据。然而,与此同时,我们的分析观察到,在敏感话题和事件如何被作为监控对象方面存在不一致的模式。

“公共 “与 “私人 “平台

即时通讯程序表面上是为一对一或小团体交流而设计的私人应用程序。这类应用程序可用于围绕事件进行动员,并可能分享敏感信息,但与 “公共 “平台(如社交媒体、微博和搜索引擎)形成鲜明对比,后者用于广泛分享和获取信息。因此,中国即时通讯程序的信息控制可能会转向针对特定用户和敏感话题的监控,而公共平台则会经历更大的压力,在敏感信息传播之前过滤和删除。

在我们的分析中,我们观察到关键词列表的更新和新浪微博上关于审查的传闻之间有一些重叠。然而,在其他情况下,事件和问题引发了微博审查系统的反应,而在IM关键词列表中却没有看到。作为一项探索性工作,我们将我们的数据集与Jason Q. Ng(2012)和中国数字时代(2013b)收集的两个微博上被屏蔽的词汇数据集进行了比较。我们的数据集中只有330个独特的关键词被发现在这两个数据集中。在我们的数据集和中国数字时代(2013b)发现的282个关键词中,132个在TOM-Skype名单中,84个在新浪UC名单中,66个在两个客户端的名单中。在我们的数据集和Ng(2012)中发现的100个关键词中,29个在TOM-Skype列表中,47个在新浪UC列表中,24个在两个客户端的列表中。有52个关键词在所有三个列表中都是共同的。应该注意的是,Ng (2012)是2012年3月的静态快照,因此不会反映自那时起的新增情况。这些比较(尽管是探索性的和不完整的)提出了关于信息控制的操作和目标在公共平台(如微博)和私人应用程序(如即时通讯程序)之间如何不同的问题。由于UC和微博都是由新浪公司制作的,在审查内容上的分歧可能证明了不同的平台受到不同法规的指导,或者由不同的内部公司流程管理。

企业社会责任对Skype和微软的影响

这些发现以及之前的研究清楚地表明,TOM-Skype平台将对用户的审查和监视作为其基本功能的一部分。这一事实给那些与TOM-Skype有关的西方公司带来了重大的企业社会责任问题:Skype及其母公司微软公司。

2005年,Skype和TOM在线成立了一家合资公司Tel-Online Limited,在中国提供即时通讯和VoIP服务。TOM在线是这家合资企业的主要合作伙伴;据Skype称,”TOM在线为中国客户提供Skype的访问,使用的是遵循中国法规的修改版本,称为TOM-Skype*”。8](Skype,2013)在2011年4月提交给美国证券交易委员会的一份修订的招股说明书中,Skype指出,它通过合资企业在中国开展业务可能会带来隐私风险。

在中国,我们持有49%股权的Tel-Online有限公司的主要投资者Tom Online在我们产品的本地化版本中加入了过滤技术,允许根据内容过滤和存储即时信息及相关数据。据我们了解,政府规定Tel-Online Limited有义务提供这种过滤和存储。由于这些做法,以及与这些即时信息的存储有关的安全故障,我们受到了媒体的大量负面关注。有关中国和其他国家的内容过滤和明显缺乏通信隐私的进一步新闻报道正在引起美国和欧洲的政治关注。这种关注可能会发展成立法行动,导致对我们施加额外的法律要求。(Skype, 2011)

然而,尽管Skype的做法有问题,但它与TOM在线的合作一直持续到现在。值得注意的是,Skype网站并没有提醒用户TOM-Skype平台的这些潜在风险(Skype,2013)。

随着微软公司在2011年10月以86亿美元收购Skype(微软公司,2012年),它也与TOM-Skype的监控和审查行为联系在一起。然而,微软是全球网络倡议(GNI)的成员,这是一个致力于保护和促进信息和通信技术领域的言论自由和隐私的多方利益相关者团体(全球网络倡议,2012a)。微软已经签署了全球网络倡议的原则,即参与公司 “将在其运营的所有国家对个人信息采取保护措施,以保护用户的隐私权”,以及 “在遇到政府要求、法律或法规以不符合国际公认法律和标准的方式损害隐私时,将尊重和保护用户的隐私权”。(Global Network Initiative, 2012b)因此,Skype的收购让人质疑微软是否确保贯彻其在GNI承诺中所体现的企业社会责任措施。

2013年1月24日,非政府组织、记者和活动家在给Skype和微软的公开信中提出了这些问题,他们呼吁这些公司发布有关Skype处理用户数据和通信的透明度报告–包括与TOM在线关系的影响(记者无国界,2013)。

结论

与其他关于中国审查和监控的研究不同,这项工作利用了两个即时通信项目中用于触发审查和监控的完整关键词清单,为这些项目的实施提供了一个公正的画面。然而,尽管我们的发现对这两家公司的做法有所启发,但问题仍然存在。

未来工作的可能领域包括计算机科学和社会科学感兴趣的领域,例如:进一步调查研究监管中国公司的法律框架,特别是那些可能适用于即时通讯程序的法律框架;系统分析比较 “公共 “平台(如新浪微博、搜索引擎等)的审查制度和 “私人 “平台(如即时通讯程序)的监视和审查制度;以及分析各种中国媒体来源和在线服务如何对事件做出反应。

研究一段时间内的审查制度,包括更新关键词列表的一个主要挑战是,通常审查制度只能通过尝试发布/搜索/发送内容,然后观察结果,看它是否被审查来检测。在我们的研究中,我们能够在很长一段时间内跟踪某些完整的关键词列表,观察所有的更新,但这只是因为审查制度是在聊天客户端中实施的。展望未来,设计互联网审查制度的测量技术是一个开放性的研究问题,它不会因为选择什么内容来测试审查制度而产生偏差。一个有前途的方法可能是通过其他信息来驱动测试,比如从新闻来源中提取命名实体(Espinoza和Crandall,2011)或微博删除模式。

此外,我们的结果表明,IM项目的重点应从审查转向监控。监视几乎是不可能测量的,因为它可以由服务器执行,其效果通常在该服务器之外不可见。对于博客、微博、电子邮件、网络搜索、聊天和大多数其他互联网应用来说,服务器是最好的监控场所,唯一的例外是点对点应用,如TOM-Skype。同样,其他信息来源可以提供代理方法,通过这些方法来研究监视,例如发布的内容和账户取消之间的相关性。

我们希望本研究的结果能够为进一步研究中国其他平台和公司的审查和监控提供参考。