恐惧的词典:新浪微博审查中的中国互联网控制实践
來源:The Lexicon of Fear: Chinese Internet Control Practice in Sina Weibo Microblog Censorship
本文研究了中国安全政府性的实践是如何在中国互联网的日常在线审查和监视/数据监视的词流中颁布的。我们对新浪微博上被过滤词语的众包列表的分析表明,搜索引擎的过滤是基于一个两层系统,其中短期的政治事件往往被短暂过滤,而有利于建立反对意识的词语往往被更持续地审查。这表明从中国互联网审查的角度来看,”坏的 “和 “危险的 “信息流通是有区别的。我们的发现还指出,也许是反直觉的,执政的中国共产党更倾向于过滤与自己有关的词语,而不是反对派或抗议活动,后者通常被认为是中国互联网审查工作的重点。我们对此的解释是,通过监视和审查,后极权主义的党国保护其政治核心,防止危险的流传,试图阻止关于其领导人和主要反对者的公共话语成为病毒。中国网上的不安全政治使得这在后极权主义政治秩序中是可行的。
介紹
到了21世纪的第二个十年中期,互联网使用的持续增长在中华人民共和国(PRC)产生了一个高度矛盾的局面。到2014年6月,中国有6.32亿互联网用户(中国互联网络信息中心2014),而且他们的数量还在稳步增长。这一发展中看似矛盾的是,它是在事实上的一党制下发生的,自1949年以来几乎没有变化。从数字自由主义者和那些认为互联网是自由化政治媒介的人的角度来看,共产党即使在互联网使用如此广泛和扩大的时代也能保持其领导地位,这令人困惑。这也让我们注意到中国互联网的控制做法,尽管对中国互联网的研究越来越多,但这仍然是一个未被充分研究的方面。对于安全和监视的政府性而言,情况尤其如此。
为了加强我们对中国互联网基于监控/数据监控的审查做法的理解,本文探讨了三个研究问题。为什么以及如何在中国社交媒体中审查某些词语?我们如何解释随着时间的推移,我们在词语层面上看到的审查制度的变化?我们可以从我们看到的审查做法中得出什么样的指导性逻辑,或基本结构?正如我们在下文中所论述的,以及对上述问题的回答所显示的,在词语层面上研究中国互联网审查制度,对于监控和安全研究来说,在经验和理论方面都是有启发性的。
在理论方面,本研究表明,通过将中国互联网控制的讨论与作为政府和政府性技术的自由和安全的讨论联系起来,可以将其带入一个更复杂的分析层面。在这里,技术指的是从事活动的特定方法,涉及到通过培训和实践发展起来的实际技能,指的是活动中的程序模式,以及按照常规计划或设计对事物的处置(Huysmans 2006: 9)。这种技术的使用调节和制定了自由的限制(Huysmans 2014)。通过研究这类技术和实践,有可能考察其中的合理性,从而获得对安全实践中所涉及的政治和政治的更广泛的看法。从这种观点来看,”国家 “或 “党 “可以被定位在个人的行为中,以及在日常生活中使用的实践和技术。换句话说,国家和党存在于政府的技术中,存在于管理中国互联网的技术和工艺中。这种对不安全感的调控以及对自由和安全之间关系的框定的方法,是对不安全感的技术官僚和话语政治进行政治和社会学分析的一个举措(Huysmans 2006)。
这种方法是及时的,因为从安全和监控治理的角度来看,安全知识是一种政治技术,它将政治框在生存的逻辑中。同时,作为政治技术的监控和安全都有能力调动恐惧的政治(Huysmans 2006: xi-xii)。在这里,被认为是不安全的东西会随着声称的威胁和参考对象而波动。然而,不安全感也可以从 “不安全的领域”(Huysmans 2006: 3-4)的内在环境中出现。这些领域代表了不安全感普遍 “已知 “存在的活动和兴趣领域。技术人工制品(如闭路电视摄像机)和知识(如通讯数据)的日常颁布,不仅仅是对壮观的政治动员呼吁的实施。事实上,这种做法可能在政治领域的特殊安全框架被激活之前就已存在(Huysmans 2006: 8)。监视技术和技巧是民主限制如何在日常中被颁布的一个主要例子(Huysmans 2014)。
总的来说,除了互联网控制的问题之外,大部分关于福柯迪政府技术的文献都集中在欧洲或西方的发展,作为一种现代政府艺术(如Hindess 1996;Dean 1999;Huysmans 2006)。然而,自千年之交以来,关于中国的政府性的研究已经形成了一个机构。这里的主要例子包括关于中国政府性的论文集(Jeffreys 2009),Greenhalgh和Winckler(2005)对人口控制的生物政治分析,以及Dutton(2005,2009)对中国警务的研究。正如这些研究所显示的,随着1970年代末以来的中国经济改革,市场理性对于政府的行为变得更加重要,即使中国在经济上仍然坚持五年的准则。在这种情况下,中国官方的 “中国特色社会主义市场经济 “体系将威权主义的理性与通过自己的自主权来管理(部分)主体的理性结合起来(Sigley 2004)。本研究为研究这种混合体系如何出现在监控中,特别是在网上安全实践的颁布中,提供了贡献。这些都是在言论、交流方面的自由限制如何被调节的相关方面,从而也是社会动员。
在实证研究方面,本研究展示了如何通过 “流量控制 “的逻辑来分析中国的搜索过滤。从这个角度来看,审查者遵循的原理是控制我们称之为 “坏的 “和 “危险的 “信息和通信流的流通。我们从政府性文献(Foucault 2007: 18-19)中得出了这种流通类型的区别,但我们并没有预先确定哪种内容被认为是 “坏 “或 “危险 “的假设。我们根据一个词被审查的时间长短来区分坏的和危险的信息流的操作。事实上,安全和监控专家对单个被过滤的词所赋予的危险程度是无法评估的;我们在这里的论点是,当其他词在被过滤一段时间后被允许流动时,那些仍然被过滤的词被安全专家认为是更有威胁的。因此,在我们的分析中,”坏的 “流通代表暂时的,而 “危险的 “则代表更持续的过滤。
为了深入了解这种流通控制的内容,我们分析了一个流行的中国社交媒体网站–新浪微博上的过滤词,该网站在当时是中国最大的Twitter类型的在线服务。对于我们的分析,我们结合了新浪微博上两个广泛的过滤词列表。第一个是《中国数字时代》的中文版本,即众包的《新浪微博上的敏感词列表》。第二份是Jason Ng的 “微博屏蔽名单 “3。这两份名单都代表了对中国审查内容和实践的反监督。我们将它们合并为我们所称的合并过滤词表(CFWL),其中有2,387个独特的词或短语被核实为在研究时已在新浪微博上被过滤。
在我们以这种方式产生数据后,我们在较长的时间内对CFWL进行了多次取样,这使得我们能够对被屏蔽的词语及其变化进行同步和非同步分析。我们的方法包括首先建立一个过滤词的相关社会政治属性矩阵。这种分类的基本问题涉及到每个词/短语的政治上的重要特征,这些特征会使它在被报道为封锁的那一刻的政治背景下成为封锁的对象。这涉及到将被屏蔽的词与中国的政治制度以及中国政治和社会的当前事件联系起来。这就为我们提供了将被屏蔽的词分成几类的同步性。
然后,我们对受到短期和长期审查的词组之间的差异进行了同向的统计测试。两组的规模以及它们的子类别,使我们能够进行Fisher’s精确检验(双侧),以找出词语关联和封锁时间的差异是否有统计学意义。这样做的目的是为了找出在我们的分类和被审查的时间方面,词语的审查是否是随机的,或者是否会出现有统计意义的模式。由于统计意义上的模式确实出现了,我们可以通过发现 “危险 “和 “不良 “词汇流传之间的差异来探究中国搜索引擎过滤的整体逻辑。
在文章的开头,我们讨论了作为政府技术的安全和监视做法。该讨论提供了理论背景和理由,而我们调查文字流通控制的方法正是基于此。随后,我们简要介绍了新浪微博之外的中国互联网控制。对我们研究设计的阐述和对我们案例的分析以及我们的发现分为几个部分,根据名称、短语和中共的类别来研究被过滤的词语。在我们介绍完这些之后,我们又讨论了这些词的不良和危险流通的划分。我们对中国互联网控制实践的结论为文章画上了句号。
政府和在线 “流量控制 “的技术
正如Kevin Haggerty (2006: 4)所指出的,对 “政府性 “的研究往往忽略了对受制于不同政治秩序的实际体验的研究。研究监视/数据监视以及对它的抵抗确实是相关的,因为技术的政治和政治秩序的类型是交织在一起的(Paltemaa and Vuori 2009)。在本文中,我们响应Haggerty的号召,通过应用Jef Huysmans(2006)的 “不安全的政治 “概念来研究中国的互联网控制实践,来调查政府性的实际日常实践。Huysmans的概念部分是基于Michel Foucault(2007)的政府技术概念。在本研究中,我们关注的是政府性的技术,正如Haggerty的上述观察所表明的那样,这种技术在对中国互联网控制的研究中还没有被广泛使用。
福柯的概念在对西方政府的现代艺术的研究中变得非常突出(如迪安1999;罗斯1999)。这些研究的重点是形成被认为是国家的实际运作的心态、理性和技术。结论是,政治统治所涉及的问题已经从对臣民说 “不 “的君主,转变为以行为为重点的治理形式。随着政府开始优化社会内部的经济、文化和生物流动,通过研究政府的实践来考察政府的合理性和技术已成为可能(Dean 1999: 19)。因此,政府性研究关注的是当局和个人如何看待人类行为的政府并对其采取行动(Dean 1999: 1-2)。我们在本文中关注的重点是,在中国人的日常生活中,如何对网上流动进行管理,从而对网上行为进行管理。
在现代社会中,行为的开展往往是通过知识的生产、手段和资源的配置以及明显的选择或自由来实现的。然而,自由仍然倾向于以一种竞争的方式与安全并列:自由被理解为创造不安全,而安全则被视为侵犯了自由。就互联网而言,特别是在自由主义传统中,互联网常常被描绘成一个思想自由流动、文化艺术品转移以及最重要的是交流的舞台;互联网有时被理解为一个不受政府控制的几乎无政府的自由空间。5 然而,正如借鉴霍布斯和福柯作品的学者所表明的那样,自由和安全之间的关系并不像乍看起来那样明确。自由需要一定程度的安全,反之亦然;安全甚至可以被看作是自由的结果(Bigo 2011: 107)。
从不安全政治的角度来看,安全实践似乎是对自由的过度的调节(Huysmans 2006)。这种调节允许自由民主中的威权政治(Hindess 2001; Dean 2002)。同样的情况似乎也适用于非民主的政治秩序,但从不同的角度来看:对被认为是自由的过度的调节被应用于允许在一般的威权主义中实行自由政策(Vuori 2014)。事实上,从专制政治领导层的角度来看,在可容忍的不安全水平和政权的其他目标之间进行权衡是可能的(Egorov等人,2009)。在系统层面上,安全问题成为界定和维持自由可能给政权带来的可接受的不安全水平的问题。
安全专业人员和他们所使用的技术和工艺对于这种系统性观点如何在日常生活中得到体现至关重要。福柯已经展示了政府技术中的话语是如何出现的。Didier Bigo (1994, 2000, 2002)将福柯的观点应用于安全研究。根据Bigo的观点,”安全专家”,如警察、军队,以及在这种情况下负责互联网审查的当局,与安全技术相结合,创造了不安全的领域。这些领域使安全专家和专业人员的存在合法化,并定义了不安全的威胁和领域。在这里,安全不仅是一种特殊的紧急情况逻辑的结果(Buzan et al. 1998),而是通过统计计算或日常实践的颁布来实现的。
对于Huysmans(2006年,2014年)来说,技术和官僚程序的发展是框定危险的过度自由过程的一部分。安全专业人员的日常例行工作被启用,从而与高级政治中的不安和危险的话语相联系。同时,日常的例行工作和实践也是半个或完全制度化的场所,在这里,自由在适当的自由和过度的自由方面受到管制。在实践的层面上,是安全和监视的专业人员做出了最终的选择,将某个领域或行动,包括单字,指定为非法的。这就颁布了社会分类,将其分为等级类别,而这些类别在其他地方可能已经被考虑得比较笼统了。在我们的案例中,审查制度是一种安全实践,它定义了在中国网上被认为是适当自由和过度自由之间的实际边界。根据中国整体的 “委托给最低级别 “的互联网控制政策,封锁和审查是由新浪微博自己实现的。6 因此,什么被封锁以及如何封锁是当局的需求和在线客户的顺利服务之间的权衡。
监视和安全技术是专制政治秩序运作的关键。在专制安全实践的 “日常 “中,安全专业人员(如秘密警察)构成了极权政治秩序核心周围的行动手段的 “保护带”,他们为安全措施定义并瞄准了人和活动(Vuori 2008;Paltemaa和Vuori 2009)。然而,在新现象或大规模活动的情况下,安全专家之外的政治当局必须参与安全演说,以动员系统并标明安全措施的具体目标(Paltemaa和Vuori 2006)。然而,举例来说,互联网的使用并不一定要被明确定义为对社会的重大威胁才能成为安全政治的一个领域。安全 “是一种模式(Hansen 2000: 296)或一种理由(Huysmans 2006: 147),可以在没有 “安全词 “的情况下运作。事实上,在网上中国的情况下,安全专家并不公开解释他们对审查词的选择。技术可以被用来以比主权命令更简洁的方式进行治理:用户通常可能会接受技术人工制品作为事情本身的方式,而它们的政治来源则被掩盖,替代方案难以想象(Boyle 1998: 205)。对政府技术的分析揭示了这种存在于技术表面之下的纪律性力量。
福柯的政府技术三角对这种分析至关重要。根据它,对法律和主权的决策主义理解只是技术类型中的一种。主权通过政治、行政和司法机构提供的规则/法律和强制能力进行治理。纪律通过识别和控制个人的位置和行动来管理,通过 “在一个空旷的人造空间 “强加的网格(Foucault 2007: 19)。纪律的运作是为了让人们在没有被告知的情况下做事情,而且往往不知道对他们行为的影响(Foucault 1979, 2007: 39)。这种技术是通过监视和纠正来框定的(福柯 2007: 5):虽然纪律权力也划定了限制和排斥的界限,但它超越了主权者的权力,表现为各种实践。纪律也可以从信息的位置和移动如何被监控,以及沟通的渠道如何在互联网上被带来中发现。
虽然主权和纪律都是中国互联网控制的重要方面(Tsui 2003),我们的重点是政府性的技术。政府性管理的是人口的统计类别,而不是一个地区、一个民族的整体或单个个体。这样的样本被视为统计分布,每个类别的不同风险和危险在其中被规范化(Bigo 2011)。人口可以通过流通的自由来管理,不管流通的是生物、经济还是文化。在统计概率方面的预防功能,就像接种的做法一样,在人口层面上产生突发效应是至关重要的。安全在人口中产生统计类别,并伴随着对实现其估计危险的可能性的风险评估。对于政府性,福柯(2007: 108)提到了
由机构、程序、分析和反思、计算和战术组成的组合,允许行使这种非常具体但非常复杂的权力,这种权力以人口为目标,以政治经济为其主要知识形式,以安全机构为其基本技术工具。
当一个主权领土以一种允许治理的方式建立起来时,主权国家就可以开始依靠安全的做法来治理其人民,从而减少对明显的主权命令说 “不 “的需要,也减少对实施这种拒绝的粗暴纪律的依赖(如在毛泽东的中国;Paltemaa and Vuori 2009)。通过听天由命,不严格控制一切,促进了良好的流通,成本效益的计算为当局提供了更好的结果(如在后毛泽东时代的中国;Paltemaa和Vuori 2009)。与其总是对人口说 “不”,不如对细节进行调整和控制,以便对人口和其中的流通产生综合影响。允许/容忍和禁止流动的阈值是由当局来调节的。然而,安全和政府性不是通过开放性或自由来运作:”安全的装置[dispositif]工作、制造、组织和计划一个环境(……)[它]作为一个干预领域出现,在这个领域中,不是作为一组法律主体影响个人(……),也不是作为多种(……)身体影响他们(……),而是试图影响一个人口”(Foucault 2007: 21)。这就是为什么安全可以被认为是一种权力的技术,它将自由和纪律结合在一起。
事实上,主权者必须在服从主权者和领土的空间布局方面对其领土,甚至是在线领土进行监管(Foucault 2007: 14)。一个有效的主权者构建其领土,以便以一种允许良好的流通、减少不良的流通和消除危险的流通的方式来组织流通;在促进积极事物(如货物)的流通的同时,主权者希望限制有风险和不方便的事物,如盗窃和疾病(福柯 2007: 18-19)。在互联网的情况下,这种流通包含了信息、陈述、商业和沟通。在网上中国,主权欲望转化为对 “安全 “或允许的互联网使用的规定,以及对互联网技术、基础设施和内容的操纵,以引导用户 “安全使用”。新浪微博的搜索过滤提供了一个典型的例子,说明这些规定是如何在日常生活中实施的。
中国的互联网审查制度
本研究的前提是假设互联网审查是一项有政治动机的活动。我们将这一前提建立在对中国互联网控制的现有研究和中国政府自己的公告上。事实上,一些作者已经广泛研究了中国的审查策略、结构和其中的行为者,7 他们表明,这些都是基于中央一级安全和宣传部门的指令。这些当局设立了专门的机构来进行互联网审查和监控。互联网服务和内容提供商,包括新浪微博,然后通过日常工作执行其日常命令。审查制度的实施被委托给最基层的机构,服务提供商对被认为是非法的内容承担责任。这种权力图谱对网络服务提供者以外的媒体行为者也产生了自我审查和威慑作用(Sæther,2008)。
一些研究也关注了实质层面的审查做法。这些研究几乎一致指出,审查制度针对的是政治上的敏感问题,实际上是IP地址、文字和其他内容。例如,Clayton等人(2007年)分析了 “中国长城 “的封锁做法,并注意到在他们发现的被封锁的IP地址名单中,存在大量具有政治敏感内容的地址。Antonio M. Espinoza和Crandall(2011)使用命名实体提取的数据挖掘方法,分析了中国的互联网搜索引擎屏蔽了哪些人名、地名和组织名称。他们的结论是,这种黑名单是相对静态的,包含了当前敏感的政治内容。而Jeffrey Knockel等人(2011)则分析了他们能够从中国TOM-Skype8服务器中提取的审查词表,发现政治敏感内容也是中国Skype审查制度中的一个主要类别。在其他各种研究中也提出了一些关于审查或封锁的词语清单。其中包括Crandall等人(2007)发现的来自中国长城的122个词的黑名单,以及Jason Ng(2013)关于新浪微博过滤词的197个词的名单。Elmer(2012)以2012年的 “乌坎事件 “9为例,展示了在单字层面上,新浪微博的搜索过滤是如何密切关注日常政治的变化。随着情况的变化,词语可能会被快速封锁和释放。
最近的一些研究也试图探讨中国互联网审查制度的结构和逻辑。Bamman等人(2012)分析了新浪微博上的微博条目是如何被审查员删除的。这项研究的结论是,在这个中国最大的微博服务中,几乎有16.25%的信息被长期删除,而含有所谓 “政治敏感 “词语的信息被删除的频率更高。最近,King等人(2013,2014)对中国大陆所有的博客服务进行了数据挖掘,发现含有 “集体行动潜力 “信息的博客是审查活动的主要目标。因此,作者得出结论,与通常的假设不同(如肖 2011: 52),中国的内容审查并不强调反政府的话题,而主要是为了调动动乱和抗议。
在学术研究之外,中国政府也解释了互联网审查的一些原因。政府在《互联网白皮书》中宣布,它追求建立一个 “健康和谐的互联网环境”(新闻办2012: 229),而进行审查是为了 “遏制网上非法信息的传播”。这种非法传播分为以下几类。
[信息]违反宪法规定的基本原则10,危害国家安全,泄露国家机密,颠覆国家政权和危害国家统一,损害国家荣誉和利益,煽动民族仇恨或歧视,危害民族团结。危害国家宗教政策,传播邪教、迷信思想;散布谣言,扰乱社会秩序和稳定;传播淫秽、色情、赌博、暴力、残暴、恐怖或者教唆犯罪;侮辱、诽谤他人,侵犯他人合法权益。(新闻办公室 2012: 243-244)
从下面的新浪微博分析中可以看出,其中许多类别的非法流通也出现在结果中。
案例:新浪微博的搜索过滤
现在我们来介绍一下我们对新浪微博搜索过滤的统计分析的数据和结果。研究中使用的源材料包括两个新浪微博上的过滤词列表。第一个列表是中国数字时代(CDT)的新浪微博敏感词列表11的中文版,收集于2011年4月16日至2013年7月27日。在此期间,该名单包含了1,858个在新浪微博搜索引擎13上至少被过滤了一段时间的独特12词/词组。CDT名单是通过众包方式产生的,即新浪微博用户可以向CDT编辑报告被过滤的词和观察的时间,然后由编辑将这些词放在网上的名单上。14 这样,名单的公布是一种反监控行动主义,收集和传播有关当局和公司监控行为的信息。列表的准确性很高,因为研究小组在进行研究时,通过重新检查新浪微博搜索引擎上的状态,验证了列表中的词语是否被审查。
本研究还利用了这样一个事实,即网上有基于不同方法寻找审查词的类似清单。结合这些名单有助于避免任何单一抽样方法可能产生的偏差。在本研究中,我们将新浪微博上的CDT敏感词列表与Jason Ng的三份审查词列表结合起来,这三份列表在 “Blocked on Weibo “上公开提供。15 他的方法可以被称为 “字典法”,因为这三份列表是通过软件在新浪微博搜索引擎上测试约70万个中文维基百科标题并列出被屏蔽的词。这三个 “微博屏蔽 “名单共包含861个被过滤的词。我们验证了这些列表也是高度准确的。
将CDT和 “微博封杀名单 “结合起来可以说是没有问题的,因为它们以完全相同的方式分析搜索过滤,衡量的是同一件事:计算新浪微博搜索引擎拒绝词语搜索的次数,并通知用户它无法显示搜索结果,因为它们含有 “非法词语 “16。这两个来源的综合名单包含2387个独特的词语或短语17,我们将其称为综合过滤词语名单(CFWL)。
在分析中,我们根据语法类型和与之相关的社会政治属性对清单上的词进行了分类。建立分析框架的第一步是探索性的。为此,研究小组阅读了名单上的词,并在这种经验性的熟悉基础上,抽象出一个71个类别的受阻词的共同属性清单(见表1)。这个共同属性的框架与上面讨论的白皮书的类别有一些明显的共同点,但是白皮书的数据没有被用于创建这个框架。分类工作部分依靠CDT和Jason Q. Ng提供的背景解释,但研究小组和母语人士对中文互联网上的每个词进行了反复检查。指导分类工作的基本问题是,除了分析被屏蔽词语的一些语法特征外,还有。每个词/短语的政治意义是什么,在它被报道为被封杀的那一刻的政治背景下,它有什么理由在新浪微博上被封杀?这涉及到将被封杀的词语与中国的政治制度以及中国政治和社会的当前事件联系起来。
一个被封锁的词的例子,以及我们如何对其关联进行分类,有助于澄清这一程序。一个词可以同时与许多属性相关联。因此,像习禁评=Xí Jìnpíng(习’不能被批评’[Jinping])这样的词被归入专有名词、人物、领导人、中共、常委、贬义词、委婉语和同义词等类别。这是因为习近平当时是中共中央政治局常委,而这个被屏蔽的词是他的真名(习近平,Xí Jìnpíng)的一个略带贬义的同义词。通过关注这个版本(在研究期间还有许多其他被过滤的委婉语或同音字)被报道为被过滤的时间,我们使用了语境性。发生在2012年11月的党的十八大之前,它也被列入 “党的继承 “类别,因为习近平被普遍认为是党的总书记职位的主要竞争者。一旦他被提名担任这一职务,这一类别就不再用于提及习近平的词语。这条规则不是为了拉长联想链,而是为了使单个词的分类尽可能地少。因此,继续举例说明,尽管让习近平担任新总书记的决定被传为涉及中共最高层的严重派系内斗,但习近平并不被视为与 “派系主义 “类别有关,除非他的名字在这种情况下被明确提出(例如在胡习组合中,胡习表示他与前党总书记胡锦涛的关系)。
为了能够更好地评估结果,这里还应该讨论产生我们的日期的方法。众包的优势在于它有卓越的能力,可以不断监测中国各个层面的日常政治辩论和事件的演变,这是单个研究者根本无法做到的。事实上,它可以被看作是汉字互联网中普通网民的一种反监督形式,旨在让普通用户看到审查和监督。此外,由于新浪微博上被审查的同音异义词和委婉语,以及人名、地名和短语组合的数量相对较多,该方法在某些方面优于 “字典法”。然而,众包也有一些明显的弱点。首先,它产生了很多重复的工作。其次,这种方法可能会产生 “积极分子偏见”,因为向名单报告新条目的人可能比一般人更有政治意识和积极性。这可能会在名单中产生 “高级政治 “的过度代表,而对例如粗俗语言的代表不足。这一点在两份名单的相互比较中可以看出。在淫秽/性内容和非法物品(如毒品名称)这两个类别中可以发现明显的差异,这两个类别在微博上被屏蔽的名单中比在CDT名单中更突出。然而,除了这一差异之外,两个名单之间并没有很大的系统性差异。
在这一点上,强调本研究的范围条件也是有用的,它只关注在研究期间中国最大的微博网站的搜索过滤。还有其他的微博网站,如与之相抗衡的、同样被大量过滤的腾讯微博,以及中国社会媒体中的许多其他类型的平台(如微信、Skype、QQ和BBS论坛)。此外,其他类型的互联网审查也在发生,从事后删除内容到阻止访问指定的网址。事实上,本研究的结果只谈及新浪微博的过滤,我们的研究不一定能代表中国当局部署的所有互联网控制安全和监控方法。与深层数据包检测和中国互联网审查中发生的内容的微妙改变相比,搜索的过滤也是一种更明确的纪律性做法。事实上,用某些词进行搜索已经需要潜在的颠覆性信息,这使得明确的惩戒更加有效:在不知道发生了什么的情况下改变内容,在之前不知道什么被审查的情况下效果更好。然而,我们认为,这项研究仍然可以深入了解中国短期和长期互联网审查的逻辑。
现在,我们已经为进行我们所做的分析奠定了总体前提,并介绍了中国网络审查制度的一些总体特征,我们可以介绍我们对新浪微博上哪些类型的词语,以及由此产生的问题进行审查的发现。
發現
表1显示了有多少CFWL词与给定的属性相关联。这些关联揭示了新浪微博搜索过滤的一个基本特征:它明显地强调名字(64.4%),审查者比短语(48.8%)更经常针对名字。其他常见的关联是与中国共产党(41.6%)、人物(40.2%)、事件(34.7%)和领导人(31.4%)。与党有关的词几乎是与反对派(12%)或群众抗议(10.5%)有关的词的3.5倍,只有2.8%的词与直接颠覆性内容有关(即明确要求推翻一党制或已知有此目的的个人或组织名称)。
因此,对被审查词语的一般描述表明,控制直接反党的词语和与抗议有关的词语的流通并不是搜索引擎过滤的主要任务,尽管它也发挥了作用。我们的分析表明,新浪微博的搜索过滤更倾向于控制关于党和党的领导人物的公开辩论,而不是其他。这一结论得到了加强,并且在我们将CFWL词汇分为选定的主要类别(表1)并从三个子样本(图1至图3)分析它们的其他关联时获得了更多的细微差别。
按名稱排序
CFWL使我们能够分析被过滤的词还与哪些其他类别相关联。例如,与中共有关的词还有哪些关联?可以说,这样的交叉分析比只分析被过滤词的一般分布要有意义得多,因为后者原则上只能反映日常语言中的词汇频率。下面,我们对CFWL中三个最大类别的词的其他关联进行了更详细的分析。专名、短语和党。图1展示了与专有名词相关的被屏蔽词的其他关联。
被过滤的最大类别的专有名词是人名,主要指个人的专有名词(59.3%)。有许多方法可以解释名称作为过滤词的主要类型的普遍性。一种可能的解释是,这符合中文语言使用中的自然频率,因此可能不反映安全专家的有意识选择。中国有超过13亿个人的名字,这个数字远远大于中文字典中的词(大约5万到16万,取决于字典)。第二,姓名作为过滤词的主要类型,可能是新浪微博希望通过尽可能精确地部署过滤来减少审查,以确保客户满意,尽量减少对互联网流量的干扰,同时还能满足安全当局的要求。如果是这样的话,名字就会成为被过滤的最大类型的词,因为新浪微博的商业逻辑,而不是安全问题。
然而,这两种解释都不能解释被过滤的名字的其他关联。事实上,在新浪微博上被审查的名字(也作为委婉语)中,有52.7%与中共有关。这意味着,在新浪微博上被审查的所有词语中,约有1/3与中共党员的名字有关。由于只有大约6%的中国人是中共党员,他们的名字在自然语言中的频率不能解释他们在名单上的份额。这一结论因以下事实而得到加强:该子样本中的第四大类,即领导人,主要是指中共的最高层。很难想出任何与商业有关的理由,让新浪微博自愿将领导干部的名字从其微博搜索中过滤掉。事实上,让他们自由流通可能会增加新浪微博的用户流量,从而增加公司收入。合理的结论是,这些名字的选择反映了安全而不是商业逻辑,尽管使用名字而不是其他一些关键词作为过滤的主要词类,可能是对整个数据流破坏性最小的方法。
关于其他名字,中国的安全专家也过滤了对主要反对派人物(活动家/异议人士)的搜索。这几乎只通过他们的真实姓名来完成,只有少数被列入黑名单的委婉语涉及到反对派人物。学术界和/或艺术家在这个类别中也有少量存在。党的宣传部门多次表达了他们对 “公共知识分子 “影响力增加的担忧(Volland 2013)。实际上,只有少数学术界人士似乎非常突出,以至于他们需要在新浪微博上接受审查。
相对来说,我们很容易理解安全专家封杀主要反对派人物名字的逻辑:党不允许形成同级竞争者。然而,为什么审查党的领导干部的名字就不那么明显了,特别是当官方媒体不断重复这些名字的时候。然而,这种审查行为揭示了网络中国的一个基本审查做法:让网民更难通过姓名自由交流领导人物,阻碍了他们对领导人物及其政策形成共同的批评意见。这种做法可以看作是故意为集体行动制造协调问题(Egorov等人,2009年),无论是线上还是线下。实际上,这种协调问题的作用是阻止微博讨论中的 “革命波段效应”(Kuran 1991)的可能性。事实上,Nathan(2013)认为,中国的部分免费互联网已经造成了信息过载,可能会对 “信息串联 “产生影响。但与此同时,很难设想执政党的替代方案,这是要求变革的主要障碍。我们的结果证明了Nathan的论点,因为很明显,阻止对领导人的辩论也会阻止对其替代方案的辩论。
显然,通过搜索过滤来制造协调问题并不是一种万无一失的压制方式。中国的同音字和委婉语太多,而且用途广泛,无法阻止所有关于党内领导人物的在线交流。事实上,搜索过滤让某些词通过。然而,最成功的委婉语往往成为其成功的牺牲品,正如其他地方一样(Leistert 2012),这显示了中国的监控和对它的抵抗是如何具有适应性的关系。尽管有其局限性,但搜索过滤仍然分裂了公共话语,从而使政治动员更加困难。与压制明确的抵抗或反对相比,这种阻碍做法涵盖了更大的审查量。
按短语排序
第二个最常见的审查词类别是短语。我们把任何不是专有名词的名词或句子都归为短语。图2展示了包含此类关联的审查词的分类。
如图2所示,被屏蔽的短语也经常与名字结合在一起(指同时包含名字和短语的词条,如 “打倒中共”)。这使得审查的目标是一个相当精确的词语组合。相对而言,与事件、群众抗议和不和谐/动乱相关的内容在这一类别中比在一般分布中更常见。这表明,当审查员不审查名字时,他们往往对提及社会不稳定的短语感兴趣。
淫秽/性内容 “是短语下另一个值得注意的类别(17%)。虽然新浪微博上的低俗内容不会使一党制垮台,但对低俗内容的关注表明中国的审查员也有一个家长式的角色,即保持公共话语的文明,这也是白皮书中规定的。几乎所有其他被审查的词都有 “政治 “含义,即它们可以直接与政治制度的某些方面联系起来。这个结果也可能显示出2009年的 “清除互联网上的低俗内容”(《中国日报》2009年1月5日)运动在新浪微博的搜索过滤中仍然可见。
在被审查的中等类别(5-15%)的短语中,有与领导权继承(10.5%)和党内派系主义(8.4%)相关的词汇/句子。它们的数量相对较多,可能是由于党的十八大和十八届全国人民代表大会第一次会议与研究期间相距较近。这表明关于中国政治生活中最重要的政治事件的自由交流如何被认为是公共话语中的不良流通。安全专家似乎想让党,而不是新浪微博上的公民,成为这些事件的唯一信息来源。
同样值得注意的是,与反对派、政治体制相关的短语,或对其进行一般性评论的短语(如称其为 “暴政”),其数量明显少于与中共、事件和群众抗议相关的短语。此外,有趣的是,直接反一党内容的词语,即与激进主义/抗议、颠覆或政治制度变革相关的词语,都处于低端份额(<5%)。这表明,相对而言,审查员对这些类别的词的关注程度要比通常所认为的低。King等人(2013年)的结果也指出了同样的结论。然而,正如我们在下文中对危险流通的分析所揭示的那样,与这些属性相关的词往往比其他大多数词受到更多的长期审查,因此它们作为被过滤的词的类别发挥着重要作用。
按中国共产党分类
图3显示了与中国共产党有关的词根据其其他联系的分类情况。首先,根据先前的研究结果,关于党的搜索过滤的很大一部分是关于党的领导人(70.8%),以及他们的名字,往往是委婉的。这些名字大多与短语没有联系,但却被作为短语拦截。这表明安全专家认为出现党的领导人姓名的公共言论本身就是坏的或危险的流传,无论其性质如何,他们都需要加以制止。
值得注意的是,对党作为一个组织的提及也是被审查的词汇之一。在单字层面上,甚至连CCP(共产党,Gòngchǎndǎng)及其常用缩写(如中共。Zhōng-Gòng)和许多提到党的(通常是贬义的)委婉说法(如共贪党,Gòngtāndǎng,”共同腐败的党”)都被审查了。因此,审查人员似乎认为,在涉及到党及其领导人时,不说话的逻辑比任何说话都好。有些言论实际上可能是支持性的,即使没有付费的、亲党的评论员的贡献–所谓的五毛党。然而,很明显,审查员认为这种附带损害不如自由传播对党及其领导人的评论可能带来的损害大。
与被过滤词语的总体分布相比,审查员也更关注以某种形式涉及中国共产党的事件(40.9%)。通常,这意味着过滤涉及丑闻(20.8%)、被各种谣言攻击(18.4%)、或因腐败或其他不当行为而被刑事调查的党员的名字(12.4%)。审查员还热衷于压制有关党内派系主义的自由传播(25.9%)。与此密切相关的是,审查人员有意过滤有关正在进行的党的领导层继承的信息(27.9%)。此外,老党员领导人(特别是前党总书记江泽民)的名字也受到了大量的审查(20.1%),甚至比中国共产党结构本身的办公室或组织(5.2%)的审查程度更高。
坏的和危险的循环
以上,我们概述了被过滤词语的一般分布情况,以及新浪微博上最常被过滤的三类词语的调查结果。仅仅这样的描述性分析并不能揭示出这些词中哪些被认为比其他的更危险。为了了解过滤的整体逻辑,我们分析了与不同类别相关的词语被过滤了多长时间。纵向和横向检查的结合使我们能够将危险和不良的流通区分开来。这一部分分析的出发点是将被过滤的关键词视为有利于形成反对意见的信息的潜在 “接入点”。这样的词打开了获取政治敏感事务信息的通道,同样重要的是,它让人们了解到志同道合者的存在,这是社交媒体的一个基本特征。值得注意的是,两者都是社会动员的必要条件。拒绝访问这些点会增加协调问题,从而使社会动员不太可能发生。这种接入点不需要是关于公开声明加入抗议的。相反,正如上文描述性部分已经表明的那样,它们可以是任何能够提供潜在反对性交流的入口,如对党的领导人的意见。这类接入点对于调节中国人的社会动员自由限度至关重要。正如其他研究表明的那样(例如Sæther 2008),这种允许和拒绝的话题的调节在传统媒体中也是波动的。诸如此类的做法对于中国的后极权制度(Paltemaa and Vuori 2006, 2009)如何产生一种威慑感,从而对媒体从业人员和用户进行自我审查是至关重要的。
在本研究中,我们根据审查时间的长短来区分不良和危险的信息流。因此,我们无法判断安全专家对名单上任何一个被过滤的词所赋予的危险程度,因为所有的词在表面上看来都是同样危险的。然而,我们认为,一个词被过滤的时间长度告诉我们,安全专家认为与该词相关的威胁有多恒定。因此,从安全专家的角度来看,一个词被过滤的时间越长,它对政治系统构成的危险就越持久。因此,在我们的分析中,”坏的 “流通代表暂时的,而 “危险的 “则代表更持久的过滤。
对于这种分析,我们只能使用CDT名单,因为它是唯一一个我们可以至少测试两次的名单,即在一个词首次出现在名单上的一年内和一年后。此外,我们必须清除CDT列表中那些我们无法按照这些标准进行测试的词,即在我们进行测试时在列表中出现不到一年的词。因此,我们创建了一个n = 1,303的样本。然后,我们将样本分为第一组,即首次出现在名单上一年后没有被屏蔽的词(n = 905),以及第二组,即首次出现在名单上至少一年后也被屏蔽的词(n = 398)。
我们对所有的词进行了两次测试,一次是在一年之内(通常是在其上市后的6-8个月内),另一次是在该词首次上市一年之后(通常在14-16个月内)。如果新浪微博搜索引擎在第一次和第二次测试中没有拒绝搜索结果,我们就将该词归入第1组(被屏蔽时间少于一年)。如果搜索在两次测试中都被拒绝,或者在第一次测试中显示了结果,但第二次查询被拒绝,则该词被归入第2组。该测试有些粗糙,因为它允许对那些在第一次测试中测试为阳性(即被屏蔽)而在第二次测试中测试为阴性的词产生怀疑的可能性。这是因为通常不可能确定该词成为被过滤词的确切日期。但实际上,只有94个词属于这种 “边缘类别”,我们随后将它们从样本中删除了。另外两个小类别是 “没有找到信息 “和 “服务中断”。在这些情况下,我们很快再次测试了这个词,如果同样的结果继续存在,我们就把它从分析中省略掉。
两组的规模和其中的类别,使我们能够对两组子样本之间被封锁的词的份额按每个关联类别进行费舍尔精确检验(双侧),并找出这些差异是否有统计学意义。图4显示了我们发现在p≤.05的显著性水平下差异具有统计学意义的类别的结果。图中显示了每个类别在两组中的份额差异(份额1组-份额2组)。X轴上的正数表示这些类别中的词与被审查时间较短的词组有更强的关联,而负数的类别中的词则与被过滤一次以上的词组有更强的关联。为了清楚起见,我们在图中略去了差异没有统计学意义的类别。
在进行双侧的Fisher’s精确检验时,我们对各组之间可能存在的差异方向没有任何预先设定的假设,也就是说,我们对哪些类型的词会被审查的时间短或长没有预期,也没有预期词的类别与它们被审查的时间之间会有明显的强关联。然而,正如结果所显示的,某些类别的词和它们被审查的时间之间的关联并不是随机的,而是显示出一种明确的和理论上有趣的模式。的确,从统计学上讲,放在某些类别中的词有更大的可能性与只被审查一次的词组相关联,而其他类别中的词则有更大的统计可能性被审查一次以上。总的来说,这一发现支持了新浪微博搜索过滤遵循控制不良和危险传播流的逻辑的论点。这个结果也显示了审查员是如何看待一般分布表中的小类别中的许多词的重要性,以至于需要进行长期过滤。
首先看一下那些从统计学上讲更有可能接受短期过滤的类别,就会发现一个有趣的模式,即什么是被认为是不良的传播。这些类别是事件、丑闻、腐败、犯罪/不当行为、地名、不和谐/动乱和公司。审查者似乎依赖这样一个事实,即与这些类别相关的词语往往只在相对较短的时间内成为公众舆论的焦点,之后通常会被处理、遗忘,与媒体中的其他话题一起被埋没,甚至成为允许的话题(如2011年底和2012年初的乌坎事件)。此外,大多数事件都是地方性的和/或范围有限的,这也解释了地名属于这个类别的事实。
关于那些在统计学上与被审查的词组有更紧密联系的类别,在它们首次出现在名单上至少一年后,似乎有两个明确的审查标准。这些词要么涉及政治制度的 “核心 “及其运作,要么涉及对政治制度的反对。因此,我们发现,安全专家认为提及政治局常委、党的领导层派系主义和党的继承的词语在公共话语中是危险的。正如在上面的描述性分析中已经讨论过的,新浪微博的搜索过滤非常关注与党的最高领导人名字相关的词。这一结果表明,越是接近领导层的核心人物,这种审查也就越是持续或频繁。
第二类危险词汇是与反对一党统治有关的词汇。反对派、1989年天安门事件、压迫、民主、颠覆/反党、政治体制和政治体制变革、法轮功、分裂主义等类别都是这种反对的表现,都被视为危险的流传。此外,”网址 “和 “独立媒体 “类别大多由与反对派有关的网页和报纸以及西方媒体的名称组成,其中往往包含对中国政治领导人和党的批评意见和敏感消息。此外,与 “姓名 “类相关的词语(或其委婉语、同音字、贬义语和拼音版本)往往指的是政治局常委或反对派领导人及其组织。因此,可以说,审查与这些类别相关的词语的努力可以被视为安全专家保护政治制度的核心,即一党统治的标志,他们试图阻止关于党的领导人、反对派和反对派思想的公开讨论。
结论
本文的实证研究目的是深化对中国基于监控/数据监控的审查做法的研究,超越简单地将被审查的内容归类为 “政治敏感”,以显示审查制度如何具有细微差别。正如我们所展示的,中国安全专家对待被过滤的文字的方式的差异,来自于审查实践的基本逻辑,即保护中国政治制度的核心:一党统治。这一点是通过过滤网民接触潜在的集会点来实现的,这些集会点一般用于反对派的政治意识建设,而不仅仅是直接抗议活动。
在更多的理论方面,这篇文章试图通过研究自由的运作和在非民主的当代政治秩序中对通讯流的控制,来促进关于自由作为政府技术的辩论。这项研究表明,在一个后极权主义系统中,有什么样的逻辑在运作:有了流量控制的可能性,像中国这样的非民主秩序可以允许事情发生,并在其网络环境中依赖安全和监控做法。流量控制的做法使后极权主义秩序即使在一个以开放网络而非严格封闭为特征的权力图中也能保存自己。这样的图式使得自由被当作专制政府的技术来使用成为可能。事实上,在自由民主的限度之外,自由和专制的角色在不安全政治的运作中是相反的。
我们希望我们的研究能够启发更多关于不属于自由主义传统的政治秩序中的不安全政治的研究。事实上,我们的例子表明,在欧洲开发的这种分析框架可以被用来研究中国和其他非民主政治秩序(另见Vuori 2014)。这种调查对于网络媒体时代的后极权主义和其他形式的专制政治是有意义的。在中国的案例中,安全和监视专家使用将某些词语归类为危险的方法来打击已知的威胁,如民主运动、分离主义运动和宗教派别。然而,并不是所有的词都可以被列为危险词,否则中国的互联网就无法正常运作。完全的纪律约束成本太高,而且在实践中不可能。因此,对不良流言进行临时控制的动态因素也是必要的。也不可能事先知道,哪些词可能成为安全专家的麻烦。因此,这些必须在事后控制,但要及时,以免失去对流通的控制。
自由是互联网控制的最精细的方法,当它作为政府的技术应用在网民人口的层面上。然而,监测和巡逻在线网格的安全专家仍然是那些调节允许和不允许的自由空间的人。这种后极权主义的不安全政治为中国共产党维持其专制政治提供了一定程度的成功,即使在互联网和其他网络媒体广泛接入的时代。即使在广泛的网络接入时代,中国的政治秩序已经有了几十年的稳定性,而且缺乏有效的有组织的反对派,这就说明了这一点。