评估中国微博的审查制度：歧视性的关键词分析和对”实名制”政策的影响评估

评估中国微博的审查制度：歧视性的关键词分析和对”实名制”政策的影响评估

來源：Assessing Censorship on Microblogs in China: Discriminatory Keyword Analysis and Impact Evaluation of the ‘Real Name Registration’ Policy

作者利用2012年1月1日至6月30日期间收集的1.11亿条微博，调查了审查制度的做法和微博的使用情况–或称微博。为了更好地控制可归因于个人特征和选择的审查决定的其他解释，他们使用了一个匹配的案例控制研究设计，以确定一个中文术语列表，以区分由相同的微博写的审查和未审查的帖子。这个列表包括中国微博用户为成功规避审查者而创造的同音词和双关语。这项研究的设计也使得评估实名注册制度对微博用户发帖活动的影响成为可能。研究结果表明，新政策可能阻止了一些微博用户对社会和政治话题的写作。

介紹

众所周知，中国是一个新闻媒体受到政府严格管制的社会，公共信息往往受到审查。这个国家经常被国际机构评为公民享有最少言论自由和新闻自由的地方。但在互联网平台上，例如网上论坛或博客，中国人似乎有更多的自主权来谈论公共事务，偶尔可以设置一个社会议程，成功地吸引传统媒体和公众的注意，例如 “我爸是李刚 “或 “郭美美”，这些事件被西方媒体广泛报道。这些案例支持了一种观点，即中国的互联网在构建中国的公共领域、增强公民话语权和帮助建立公共议程方面发挥了总体作用。最近，与中国的Twitter相当的微博服务，即中文的微博，被西方媒体热情地描述为一个新的 “自由言论平台”。然而，这种乐观的观点受到了中国当局无处不在的控制公共信息流的机制的挑战，包括被称为 “长城 “的复杂过滤系统和最近要求微博用户必须以真实身份注册的新规定。

根据中国互联网络信息中心（CNNIC）的数据，到2012年中期，中国微博用户总数达到2.74亿，占互联网总人口的51%。目前，两个领先的中国微博平台是新浪微博和腾讯微博，各自声称拥有超过3亿个注册账户。为了遵守政府的内容规定，所有中国的微博服务提供商都必须建立一个内部审查部门来过滤敏感的帖子。对于中国博客和微博的审查做法，已经有一些学者进行了研究。但正如我们将在接下来的章节中讨论的那样，这些研究存在着一些局限性。本文提出了一种新的方法来理解中国微博审查制度的特点。此外，我们还评估了中国实名制的实施对微博的影响，微博用户发布的频率，以及他们所写的内容。

中国互联网和审查制度

自十年前以来，中国的互联网市场已经迅速扩大。它仍然是一个不断增长的行业，但增长速度已经稳定下来。到2012年中期，中国网民总数达到5.38亿，渗透到全国40%的人口。2012年该国的互联网渗透率仅上升了4%，而自2007年以来平均每年增长9%。中国在线使用模式的一个重大转变是广泛采用社交媒体应用程序。2012年年中，每两个中国网民中就有一个自称是微博用户，而传统的网络工具，包括电子邮件和在网上论坛发帖的使用则有所减少。

中国政府已经建立了 “世界上最大和最复杂的过滤系统 “来审查互联网内容。这些严格的措施使中国的互联网实际上成为一个内联网，其中敏感词汇被过滤，对Facebook、Twitter和Youtube等西方网站的访问被阻止。但这些做法只是整个审查制度的一部分。审查内容的一个主要过程是由国内互联网内容提供商实施的。为了遵守他们的许可条件，中国的服务提供商必须充当审查员，筛选客户的信息或禁用账户。例如，据报道，新浪公司成立了一个由一千人组成的审查部门来监控微博。除了过滤，社交媒体公司还制定了新的做法来应对社交媒体上敏感信息的传播。据媒体报道，新浪公司鼓励微博用户互相举报发布 “不实信息”，并要求在5分钟内删除 “有害 “的微博。

另一项严格的措施涉及对微博用户披露真实身份的新要求。这被称为实名登记制度。在中国一些主要城市进行试验后，该系统于2012年3月16日正式开始。注册用户向服务提供商公布他们的身份号码或间接识别信息，如手机号码，供政府核实。然后用户可以选择以昵称或真实姓名发帖，而未注册的用户可以查看帖子，但不允许创建内容。人们普遍担心，真实身份披露政策会对网上评论产生寒蝉效应，特别是对政治批评和敏感话题。

我们的方法

我们开发了一个名为Weiboscope的数据收集和可视化系统。我们利用新浪微博的开放API来访问微博数据。首先，我们根据用户搜索API构建了一个热门微博的列表。我们样本的包容性标准是那些拥有1000个或更多粉丝的微博用户。我们系统地搜索了2010年底以来中国各地区的这些用户。通过这个过程，我们产生了一个大约35万个微博用户的名单。我们通过用户时间轴API功能收集用户的帖子，然后将它们保存在我们的PostgreSQL数据库中。我们选择高粉丝数的样本可以最大限度地减少数据中的垃圾账户数量。在2012年1月1日至2012年6月30日期间，我们的系统收集了111万条微博。

由于中国的审查员可以迅速取下帖子，我们必须频繁地重访用户的时间线，在帖子被审查之前尽可能多地保存副本。然而，由于API的使用受到每小时费率的限制，我们将API的调用限制在我们名单上的优先级用户。

我们创建了三个具有不同采样频率的优先组。第一组，由香港大学少于10名的中国传媒项目研究人员组成，他们都是关于中国传媒业的学者和活跃的写作者。我们每三分钟检查和更新一次1组的时间线；2组，其成员是通过获得1组用户的朋友而创建的。他们大多是中国持不同政见的作家、记者和学者。我们通过添加被发现删帖的用户来自动更新这个组的成员。这个名单由大约5000个用户组成。第二组的更新每六小时进行一次；第三组，包括那些具有认证身份（VIP身份，下同）和超过1万名粉丝的用户，大约有38000名用户。对于第3组，每次更新都是每天运行一次。

当每个用户的时间线被获取时，用户最近修改的时间线与紧接着的版本进行比较。如果与旧版本相比，新版本中的帖子有缺失，我们会找到这些缺失的帖子，并通过另一个API调用验证它们的缺失，然后再将它们标记为缺失。被标记为缺失的微博有两个来自API的潜在信息：”微博不存在 “和 “权限被拒绝”。尽管新浪没有明确说明每条信息对它们所标记的帖子所承载的内容，但我们对它们的经验意义进行了反向工程。我们通过已知的删除原因来测试返回的信息，并通过反复试验进行验证。这种方法产生了间接的证据，表明由于各种原因丢失的帖子被标记为不同的。如果API响应是 “拒绝许可”，那么在新浪不允许用户设置阻止外界访问的条件下，该帖子被审查员设置为其他用户无法访问。另一方面，被用户主动删除或被审查员完全删除的帖子会被标记为 “微博不存在”。由于没有可行的方法来确定谁删除了一个帖子，因此被删除的帖子被排除在外，以避免污染真正被审查的微博客。

一个例子

我们用一个真实的例子来说明这个系统是如何工作的。博主H是中国的一个著名学者和作家。他有181,000名读者关注，经常写一些中国的社会话题，他的微博帖子被预期地经常被审查。他属于第三组，其时间线每天都被检查。

2012年5月2日，中国盲人活动家陈光诚被证实正在寻求美国驻北京大使馆的保护。中国当局要求美国官员就该事件道歉，博主H发表了评论。

图1a显示了这条微博是如何被发布、扩散并最终被审查的。该帖子是由博主H在5月2日18:46创建的。我们的系统更新了他的时间线，并在19:41保存了他帖子的副本。第二天，我们从API检测到 “权限被拒绝”，并在5月3日6:01确认其消失了。图1a显示，在5月2日20:07和20:16之间，每小时的转帖数急剧减少，这似乎是原始帖子被审查的时间。

然后我们部署了新浪的转帖时间轴API来检索整个转帖集。原始微博在一个半小时内被6193个不同的微博用户完全转发了6,800次。为了研究它的扩散，我们生成了转帖图，其中每个节点代表一个微博作者，箭头表示一个和另一个微博的转发。节点的大小与微博主的粉丝数量成正比。我们提取了转帖内容中包含的用户提及，格式为”//@用户名”，这显示了转帖的直接来源，假设这个默认文本通常不会被用户删除。图1b显示了转帖图，它表明转帖主要是由少数拥有众多粉丝的微博用户通过互联网空间扩散的。

分析审查的关键词

为了研究导致更高的被审查可能性的中文词汇，从2012年1月1日至2012年6月30日捕获的所有 “被拒绝许可 “的帖子被纳入这部分分析。

为了控制微博用户个体特征的影响，我们采用了病例对照匹配策略，这是流行病学或社会科学观察性研究中常用的设计，在研究某项课题时，当实施随机对照实验不可行时，这种策略特别有用。每个被审查的帖子都与同一微博作者在研究期间发布的两个随机选择的未被审查的帖子配对，以构建一个由被审查和未被审查的微博帖子组成的匹配语料库。

斯坦福词汇分割器被用来对语料库中的每一个文档进行中文词汇分割。随后，停止词、标点符号、表情符号、URL和”@usernames”（对用户的称呼）被从文本中删除。使用R15及其支持的库，语料库中的每个文档都被使用大词标记器进行标记，并以反文档频率加权的方式生成文档术语矩阵。低频率的术语，即少于五次出现的术语，被从文档术语矩阵中删除。

通过χ2特征选择算法比较每个关键词在两组不同帖子中出现的相对频率。χ2值较高的关键词在所有其他关键词中代表了更大的鉴别能力。我们进一步部署了一个相对风险（RR）的测量方法，以确定哪些术语能够描述被审查的帖子，也就是说RR>1。

在研究期间，共有17,594个被审查的帖子，由4,667个不同的微博用户提交，被捕获。这些帖子与35,184个未经审查的帖子进行了单独匹配。有两个帖子没有被匹配，因为一个微博用户没有足够的未经审查的帖子来进行一对一的匹配。表1a中列出了χ2值最高且RR>1的前30个关键词。 (完整的清单可在网上查阅或索取)。这些关键词大多与薄熙来丑闻、陈光诚外交事件、美国驻华大使骆家辉的财务披露、独生子女政策、住房政策和养老金制度有关。其他主要关键词包括政治术语 “两会”（即每年两次的做出国家级政治决定的会议）、全国人民代表大会（人大代表）、共产党领导人（書記）、官员（官）、驳斥谣言（闢謠）、内容删除（刪）和脏话。

此外，我们还发现了一些由中国微博用户创造的术语，以规避审查员。例如平西王（字面意思是 “平定西域的国王”，指的是薄熙来）、CGC（陈光诚的首字母）、”儲君”（指中国的新领导人习近平）和 “草”（一个晦涩的替代写法，是一个粗俗词汇的同音）。

再往下看，我们发现了一些 “敏感 “词汇，它们具有较低的歧视性力量，代表它们在规避审查方面具有较高的存活率。它们包括 “番茄”（”西部红城”，指重庆）和 “护士长”（指薄熙来丑闻中的一个关键人物王立军）。

评估实名登記的影响

我们将2011年12月8日至2012年3月15日这段时间定义为T1，将2012年3月16日至2012年6月22日这段时间定义为T2。T1涵盖了中国实行实名制（以下简称RnR）之前的99天，而T2则是实行实名制之后的同一时期。共有166,725名在T1期间至少发布一条微博的微博用户被包括在内。

每个样本在T1和T2期间提交的帖子总数被计算出来。那些在T2期间没有发帖的人被定义为潜在的受影响的微博用户（以下简称PAMs）。我们假设，他们的用户活动减少主要归因于RnR的寒蝉效应。

我们首先进行了总体水平的分析。图1c显示了每天的发帖频率，我们注意到有三次急剧下降。一次是在农历新年前，另一次是紧接着3月16日，最后一次是在4月20日（与互联网镇压有关）。3月16日之后，帖子的数量似乎逐渐减少，大约有30天，然后反弹。这种模式可能与《反腐倡廉》的执行有关。但在3月15日，薄熙来恰好被赶下台，这将刺激更多的审查制度。尽管如此，我们进行了ARIMA时间序列分析，发现3月16日至4月21日期间的下降确实没有统计学意义。

我们用个人层面的分析来重新审视这个问题，采用了逻辑回归法。寻找PAM的预测因素，包括用户特征和T1的帖子的关键词，可以阐明活动减少的机制。因变量是PAM状态。自变量包括粉丝数量、朋友数量、VIP身份、用户是否允许他人评论、自我报告的性别和自我报告的地理位置。报告来自 “台湾”、”香港”、”澳门 “和 “其他 “的微博用户被归类为来自非RnR地区。在5%的水平上，调整后的赔率（以下简称AOR）明显大于或小于1的独立变量被宣布为PAM状态的重要独立预测因素。
我们确定了57,155人（166,725人中的34.3%）在T2期间没有发布的PAM。统计学上有意义的预测因素被列出，并按效应大小降序排序：声称来自RnR地区（AOR：2.124，95%CI：2.051至2.201），非VIP（1.725，95%CI：1.772至1. 820），允许所有人对时间线进行评论（AOR：1.730，95%CI：1.645至1.819），女性（AOR：1.051，95%CI：1.027至1.075），每减少100个好友（1.010，95%CI：1.008至1.012），每减少100个粉丝（AOR：1.002，95%CI：1.001至1.003）。

然后我们确定了T1期间创建的微博中与PAM状态相关的中文词汇。为了调整PAM状态的混杂因素，如个人特征或原因，我们采用了病例-对照匹配策略。每个PAM与一个匹配的非PAM配对，在性别、省份、VIP和允许微博评论等方面具有相同的状态。另外设定两个匹配标准，选择粉丝数和好友数在+/-30%范围内，以及T1中计算的微博发帖频率在50%-200%范围内的人。如果发现多个匹配的非PAM，则选择持续用户活动比率最大的一个，即T2中的帖子数大于T1中的帖子数。没有匹配的PAM被丢弃。我们最终组成了一个具有相同数量的PAM和非PAM的小组，并具有相似的小组特征。

我们从所有声称来自北京、上海、广东和天津的微博用户中随机抽取了3000个PAM，这些城市是官方宣布的执行RnR的试验城市。然后，我们产生了3,000个匹配的非PAM。我们检索了他们在T1地区发布的所有微博，共计437,153条，以分析与PAM状态相关的词汇。语料库的文本按照之前的描述进行了处理。表1b列出了对PAM状态具有高判别力的关键词列表，即按χ2值和RR>1排列的前30个词。

在所有RR>1的顶级关键词中，大多数被发现是指政治丑闻、国际事务、社会事件或人物，例如 “两会”、雷锋（）、王立军（）、冯小刚（）、王立军（）、吴英（因金融诈骗罪被判处死刑的女商人）、叙利亚（）、文化大革命（）、乌坎（发生反腐抗议的一个村庄）或第73条（73，新立法允许当局拘留任何涉嫌威胁国家安全的当事人）和腐败（）。

综上所述，尽管没有证据表明RnR之后整体活动发生了重大变化，但通过仔细研究RnR之前发布的内容，将那些在RnR之后没有发布的微博用户与那些照常发布的用户进行比较，我们发现两组用户之间最好的歧视性词语大多与政治和社会问题有关。因此，我们怀疑，如果不执行RnR，一些PAM的微博用户可能会在RnR之后照常发布与政治有关的微博。虽然 “禁言令 “的影响无法从生态学角度观察，但它可能会有选择地对一些微博作者产生寒蝉效应，这些微博作者的特点是：驻扎在中国大陆境内，拥有非认证身份，欢迎其他微博作者发表评论（激发公共辩论），以及网络化程度较低（可能是粉丝和朋友较少的草根公民）。这可能会导致他们不再通过同一账号写敏感问题，而我们不能完全排除他们会更换账号并继续发帖。这个发现应该被认为是初步的。在得出结论之前，还需要进一步的长期研究，特别是当中国政府宣布了对RnR的额外要求。

读者应该谨慎地解释这些发现。我们的样本来自35万名高关注度的微博用户，这只占整个微博用户的一小部分。尽管他们有传播信息的能力，但我们的研究结果不能过度地归纳到所有微博用户。尽管如此，如果对关注者较少的用户进行抽样调查，我们预计结果不会有明显变化。另一项研究发现，少数高粉丝数的中国微博用户贡献了大部分的帖子，并吸引了大多数人的注意。我们的系统也无法检测到完整的被删除的帖子，尤其是那些被快速审查的帖子。此外，放弃微博可能是由于寒蝉效应以外的因素。目前还没有关于审查制度下放弃微博的原因的研究。我们建议未来的研究应该采访用户，了解他们在政策变化前后的做法。

總結

我们报告了我们通过部署计算方法以及匹配的案例控制设计来研究中国的互联网审查制度的方法，展示了一种研究中国在线审查制度的新方法。我们努力解决以前研究的几个局限性，特别是控制根据个人属性对审查决定的解释。我们成功地确定了一个区分被审查和未被审查的帖子的中文术语列表，包括一些同音字和双关语，这些都是中国微博用户为成功规避审查员而创造的。此外，在影响评估研究中，我们发现有证据支持实名制注册可能会阻止一些特定的微博作者撰写社会和政治主题。尽管中国是一个专制国家，而且背景完全不同，但这一结果应该具有全球性的影响，因为最近更多的国际社交媒体公司，包括Youtube和谷歌，都表示有兴趣迫使他们的用户披露真实姓名，以减少扯皮。

评估中国微博的审查制度：歧视性的关键词分析和对”实名制”政策的影响评估

介紹

中国互联网和审查制度

相关研究

中国的审查做法

实名登记制度的影响

我们的方法

一个例子

分析审查的关键词

评估实名登記的影响

總結