数字与劳动
在此,我思考数字资本主义下的反抗以及劳动的经验诠释
中国互联网过滤的实证分析
  1. 中国互联网过滤的实证分析
    1. 测试方法
      1. 过滤的范围
      2. 明显的性内容过滤
      3. 非淫秽内容过滤
      4. 未被过滤的内容
    2. 被封锁网站的分类法
      1. 异见/民主网站
      2. 健康
      3. 教育类
      4. 新闻
      5. 政府网站
      6. 台湾和西藏的网站
      7. 娱乐
      8. 宗教类
    3. 結論

中国互联网过滤的实证分析

來源:Empirical Analysis of Internet Filtering in China

中华人民共和国政府有一套长期的政策来限制其公民接触信息。互联网对这种审查制度提出了新的挑战,因为在线内容的范围很广,内容来源可以快速移动或镜像,而且内容来源往往远离中国的管辖范围。

人们希望获得网络计算的经济利益,同时保持对公众的互联网接触的控制,这导致了各种策略,在允许不受限制地访问全球网络和拒绝支持任何超出受信任的精英的部署之间划分差异。

我们通过中国的网络收集了关于互联网使用的选择性障碍的方法、范围和深度的数据。从2002年5月到11月进行的测试表明,至少有四种不同的、可独立操作的互联网过滤方法–网络服务器IP地址、DNS服务器IP地址、关键词和DNS重定向–从2002年9月开始,过滤的复杂性有了可量化的飞跃。

与大多数技术性过滤制度一样,无论是在客户、互联网服务提供商还是在骨干网层面实施的过滤制度,进行过滤的人都没有提供被屏蔽的网站清单或用于屏蔽的方法。此外,虽然与政府有联系的中国互联网协会(不是著名的非营利性国际互联网协会的分会,http://www.isoc.org)已经要求互联网服务提供商和内容制作者签署一份包括自我过滤的承诺书,但很少有官方声明记录政府维护的网络过滤存在,更不用说采用的标准和引起屏蔽的必要门槛。因此,我们调查了越来越多的互联网过滤方法,并在我们的网站上收集和分发了一份被封锁的网站和网页清单–这份清单种类繁多,虽然相对于互联网的规模和仍然没有记录的被封锁内容的总量来说,这份清单的绝对数量很大。这样的清单让我们能够评估中国过滤的性质和范围,特别是关注无法访问的非性暴露网站。

测试方法

我们的测试依赖于两种独立的数据收集方法–通过调制解调器和开放代理服务器。从2002年3月20日至5月6日,我们通过调制解调器与几个中国ISP的拨号账户连接国际电话。5月6日之后,我们的调制解调器无法与在任何中国互联网服务供应商处接听的调制解调器进行握手协商,这一故障在中国的多条电话线、地点、多个互联网服务供应商和存在点上都是一致的。从2002年8月14日至11月12日,我们连接到中国的开放代理服务器。我们选择了开放的代理服务器,并使用APNIC的IP-WHOIS确定其列出的位置,以便进行制表。

在测试过程中,我们从各种网络指数(如雅虎台湾(tw.yahoo.com)目录类别和雅虎台湾子目录类别中列出的网站)和搜索结果(如搜索引擎google.com对 “中国自由 “的前100个搜索结果)中请求了204,012个不同的网站。大多数网站可以从中国访问,就像我们在美国的标准互联网连接一样,但我们发现某些网站始终无法访问。通过尝试从中国的多个地点反复检索这些网站,我们推断出其中哪些网站是被中国的网络工作人员故意封锁的。通过这种方式,我们发现18,931个网站在至少两天内无法从中国境内至少两个不同的代理服务器上访问,而从美国境内仍然可以访问。我们测试的网站绝不是为了 “代表 “万维网;相反,我们测试了一些可能被选中进行封锁的网站,以便生成尽可能长的被封锁网站清单。在某些情况下,可能很难区分有意的封锁和无意的网络故障;根据每个页面可访问和不可访问的次数,本文在线版本的数据附录试图表明我们对每个列出的网站的封锁的相对确定性。

过滤的范围

我们测试了每个虚拟主机的一个URL–”默认”,即 “首页 “URL–基于报告,并在随后的测试中证实,当一个网站的默认页面被过滤时,该网站的全部内容通常都被过滤。因此,当我们报告一个网站无法访问时,整个网站通常是无法访问的,而不仅仅是网站的默认页或首页。

为了测试整个网站被屏蔽的假设,我们组成了一个无法访问的网络主机的样本,并检查每个这样的网站上的任意子目录是否无法访问。尽管我们选择的任意目录名称在服务器上是不存在的,但典型的网络服务器在回应一个不存在的请求时,会返回一个 “未找到 “的错误信息。这些错误页面本身在99.8%的测试中是无法访问的。我们把另外0.2%的情况归因于异常情况(如瞬时的网络错误,可能在第一时间错误地使网络主机无法访问,而该主机并不是故意被封锁的)。

那么,目前看来,当主机的默认页面被封锁时,该主机上的所有其他页面也会被封锁。当然,情况不一定相反,我们已经分别确认了多个不是这种情况的例子。例如,中国已经封锁了 http://cyber.law.harvard.edu/filtering/china 的访问,该网站包含了我们最近关于中国过滤努力的大部分文章。然而,cyber.law.harvard.edu网站服务器的其他部分仍然可以访问。因此,至少有一些封锁似乎是由页面URL或内容中相对较少的关键词触发的,代表了完全不同于(似乎比)整个网站不可用的技术层面的封锁。更多信息见 “过滤实现 “附录,包括中国互联网过滤中较新的DNS服务器IP地址、关键词和DNS重定向方法的总结。

当整个网络主机被过滤时,我们的数据显示,这种过滤通常是根据主机的IP地址而不是一个或几个域名来操作的。为了证实这一点,我们观察到,当不同的网站被托管在一个网络服务器上时(这在最低月费的商业 “共享主机 “中很常见),在一个特定的服务器上阻止一个网站(用一个特定的IP地址)需要阻止该服务器上的所有网站。例如,我们发现有308个不同的网站(按域名和不同的页面内容)都托管在IP地址为216.34.94.186的服务器上,这是域名注册商Dotster使用的停放/转发服务器。除了我们测试的那些网站之外,该服务器还托管着其他网站,它们很可能也被封锁了。事实上,域名注册商Enom的一名代表报告说,其主要的域名转发服务已被中国封锁–导致成千上万的域名无法访问。在随后的工作中, <http://cyber.law.harvard.edu/people/edelman/ip- sharing> ,Edelman发现超过87%的.COM、.NET和.ORG域名与一个或多个其他域名共享其网络服务器IP地址,三分之二的域名与50个或更多的其他域名共享其网络服务器。这些结果表明,中国基于IP的过滤系统可能是我们所观察到的对我们来说似乎没有异议的内容的大部分封锁的原因。

明显的性内容过滤

一轮初步测试检查了795个含有色情图片的不同URLs。这些URLs曾被用作本杰明-埃德尔曼在穆特诺玛县公共图书馆等诉美国案(http://cyber.law.harvard.edu/people/edelman/mul-v-us/)中的部分专家证词的基础。他在2001年10月使用 “免费成人性行为 “的搜索标准进行网络搜索时,从谷歌列表中收集了所有797个结果,从而产生了这个列表。他删除了两个网页,因为它们不包括性方面的图片。在我们测试时仍然提供内容的752个网页中,有101个在中国被封锁(13.4%)。爱德曼之前发现,领先的商业过滤应用程序封锁了[这些网站的70%至90%](http://cyber.law.harvard.edu/people/edelman/pubs/aclu- 113001.pdf)。我们据此推断,中国(与沙特阿拉伯不同,数据见http://cyber.law.harvard.edu/filtering/saudiarabia)没有依靠商业过滤程序来确定自己的此类被封网站名单。

非淫秽内容过滤

我们的主要测试检查了从明确的性内容以外的类别中提取的网站。我们从多个来源获得这个网站列表的种子。例如,我们从雅虎中提取了某些类别的所有网站(包括那些专门关于教育、娱乐、新闻、世界主要政府和政治的网站),以及雅虎非英语地区版本中专门涉及中国和台湾的所有网站(cn.dir.yahoo.com和tw.dir.yahoo.com)。我们使用谷歌搜索引擎对可能产生敏感结果的术语进行了搜索,因此也是封杀的候选者,包括英文和中文,并将排名靠前的结果放入我们要测试的URL列表。到2002年9月,我们又跟踪了约5000个由互联网用户提交给我们的实时测试系统的网站,我们还收到了关于进一步测试网站的电子邮件建议。这些数据来源的结果是的结果是一份203,217个不同的主机名称的清单。

我们发现,这些网站中共有18931个(9.3%)在中国被封锁。完整的被封锁的网站名单可在http://cyber.law.harvard.edu/filtering/china中找到。

未被过滤的内容

许多网站在中国没有被封锁,无论是因为它们还没有被决定封锁的机构通过,还是因为它们被肯定地认为是不敏感的。没有被屏蔽的网站可能有助于推断出被屏蔽的网站中哪些内容是造成差别待遇的原因,或者对某些类型的内容的反对是如何严格执行的。例如,过滤美国联邦法院的官方网站(uscourts.gov和所有子域)可能表明,有人希望阻止人们访问有关美国司法系统、其程序和裁决的信息–但Findlaw、LexisNexis和Westlaw都可以访问。同样,封锁知名的色情网站,如playboy.com和penthouse.com,表明有目的地决定限制色情材料–但在我们的测试中,hustler.com和whitehouse.com一直可以访问。

被封锁网站的分类法

我们的在线报告提供了约19,000多个被发现无法从中国访问的具体网站的完整清单。这些网址的完整打印清单超出了本文的范围,但我们在下面报告了被封锁网站的一般分类。

我们发现,中国不同代理机构的封锁情况各不相同,这加强了封锁不是通过中央瓶颈完成的概念。然而,目前没有足够的数据来得出关于不同地理位置封锁的系统性变化的结论;目前的数据与封锁的有意变化和某些地区的封锁名单更新延迟相一致。

我们通过谷歌搜索指定的关键词获得了部分网站。图1显示了在搜索特定关键词时被封锁的网站的样本。

异见/民主网站

在谷歌搜索 “民主中国 “的前100个网站中,有40个被屏蔽,37个 “异见中国 “网站被屏蔽,32个 “自由中国 “被屏蔽,30个 “正义中国 “被屏蔽。被封锁的具体网站包括大赦国际、人权观察、香港民主之声、直接民主中心以及数十个法轮功和法轮大法网站。

健康

在谷歌排名前100位的 “饥饿中国 “搜索结果中,有24个被屏蔽;”饥荒中国 “有23个;”艾滋病中国 “有21个,”性中国 “有19个,”疾病中国 “有14个。具体被屏蔽的网站包括艾滋病医疗基金会、互联网心理健康参考和中国健康研究项目。我们发现139个列在雅虎健康目录类别和子类别中的网站被封锁。

教育类

一些知名的高等教育机构,包括由加州理工学院、哥伦比亚大学、麻省理工学院和弗吉尼亚大学运营的主要网络服务器都被封锁了。非大学的网站,包括学习频道、伊斯兰虚拟学校、郑州音乐学院,以及几十所公立和私立中小学的网站也被封锁。我们还发现了雅虎教育目录类别和子类别中所列的696个网站被封锁的证据。

新闻

英国广播公司(BBC)的新闻一直无法访问。CNN、《时代》杂志、PBS、《迈阿密先驱报》和《费城问询报》的网站也经常无法访问。在谷歌的前100个新闻搜索结果中,有42个被屏蔽。我们还发现,雅虎的新闻和媒体目录类别和子类别中列出了923个被封锁的网站。然而,在我们的测试过程中,一些以前被封锁的新闻网站变得可以访问。例如,路透社在4月29日被封锁,但随后可以访问,而华盛顿邮报在5月6日被封锁,随后可以访问。整个新闻网站被封锁的情况减少,可能反映了某些新的过滤技术(包括基于关键词的过滤),允许封锁在中国特别有争议的特定部分和文章。因此,我们的结果不应该被理解为,即使washingtonpost.com的IP地址没有被封锁,每篇华盛顿邮报的文章在中国都可以访问。

政府网站

被封锁的网站包括由亚洲和其他地区政府运营的各种网站。uscourts.gov的整个网站,包括美国的许多联邦地区法院和上诉法院,以及英国的法院服务和以色列的司法机构都被封锁。各国政府的通信网站被封锁,包括美国政府的美国之音,以及澳大利亚、以色列、韩国、瑞士和威尔士的旅游网站。政府军事部门的网站也被封锁,包括美国国防部,但其他网站仍然可以访问(如中情局)。在美国和其他国家,还有各种政府网站被封锁,没有明显的模式。例如,西雅图国王县的网站、澳大利亚联邦政府的主要索引网站、菲律宾海关局、英国破产服务局、沙特阿拉伯麦加总督办公室和不列颠哥伦比亚省立法议会。被封锁的网站包括雅虎与政府有关的类别和子类别中的516个。

台湾和西藏的网站

被封锁的网站包括商业网站(如台湾的A&D公司)、非商业网站(台湾卫生所和总共709个.edu.tw网站,以及西藏之声),以及政府网站(台湾总统办公室和台湾国会图书馆等936个台湾政府网站,以及 “西藏流亡政府 “的官方网站)。在谷歌排名前100位的西藏网站中,超过60%的网站被屏蔽,超过47%的顶级台湾网站也被屏蔽。相对于其在我们测试样本中的代表性,台湾的内容也被封锁得不成比例;足足有3284个.TW网站(占测试的.TW网站的13.4%)被封锁,而我们的总体封锁率约为9.3%。当然,鉴于测试的网站名单是主观形成的,因此必须谨慎地进行封锁率的比较。由于缺乏专门与西藏网站相关的域名,对西藏内容的封锁率进行这样的比较比较困难)。)

娱乐

被屏蔽的网站包括电影《深度撞击》、加拿大音乐中心、MTV的台湾网站(mtv.com.tw)和多个提供非彩色笑话的网站。我们还发现在雅虎的分类和子分类中,共有451个与娱乐有关的网站被屏蔽。

宗教类

被屏蔽的网站包括亚美浸信会、无神论者网络、天主教民权联盟、Geomancy.net的风水、堪培拉伊斯兰中心、温尼伯犹太联合会和丹佛禅宗中心。我们在雅虎的分类和子分类中发现了1,763个与宗教有关的网站被封锁。

結論

从我们一段时间的数据来看,在中国被封锁的网站绝非一成不变。维护封杀名单的人正在积极更新这些名单,特别关注某些内容经常变化的普通兴趣的高知名度网站。这在CNN和Slashdot等新闻网站上尤为明显。一些有敏感内容的新网站被迅速封杀。然而,即使是一些长期存在的具有明显敏感性的网站也没有被屏蔽。这一点在我们的性暴露网站数据中最容易被注意到–我们发现在我们的知名性暴露网站样本中,只有13.4%的网站被封锁,但从我们的发现中也可以看出,例如,一些美国情报网站被封锁,而其他网站却可以访问。进一步的数据收集将着眼于确定被封锁的一篮子网站在多大程度上反映了政府实质性政策的变化–例如,与台湾关系的变化是否反映在封锁上,如果是这样,速度有多快。同时,过去一年的经验表明,对西方新闻网站–以及谷歌等搜索引擎和其他可能批评中国政府的来源–的过滤似乎在关键政治事件(如2003年3月的党代会)前后的几周内有所加强。

中国的互联网过滤工作仍然不透明,在政府不合作或不承认过滤方法的情况下,我们研究中使用的那种数据探测旨在帮助确定过滤的范围。我们以前研究过沙特阿拉伯和美国公共图书馆的过滤情(http://cyber.law.harvard.edu/filtering/saudiarabiahttp://cyber.law.harvard.edu/people/edelman/mul-v-us);在这些地方,对网页的封锁会导致一个错误信息,清楚地解释由于故意封锁,所要求的网页不可用。相比之下,中国的系统使用户难以区分故意屏蔽和临时网络或服务器故障。这可能是设计好的,也可能反映了技术上的偶然性–鉴于中国网络基础设施的规模和设计,这种实施方式更容易或更便宜。但是,中国的一些新形式的过滤–即把对一个敏感网站的请求重定向到另一个网站–对用户来说可能比明显的网络故障更明显或更不明显,这取决于是否注意到这种替换。

中国政府和相关的网络管理部门显然在继续尝试不同形式的封锁,这表明中国的网络过滤是国家互联网政策的一个重要工具,并继续投入大量技术和人力资源。