用户在新浪微博和Twitter上的微博行为的比较研究
來源:A Comparative Study of Users’ Microblogging Behavior on Sina Weibo and Twitter
摘要
在这篇文章中,我们分析和比较了两个不同的微博平台的用户行为。(1)新浪微博是中国最受欢迎的微博服务,(2)Twitter。这样的比较以前还没有做过,因此对于理解微博服务的用户行为是非常重要的。在我们的研究中,我们分析了超过4000万的微博活动,并从不同角度研究了微博行为。我们(i)分析人们如何访问微博;(ii)通过分析微帖的文本特征,比较新浪微博和Twitter用户的写作风格。基于我们的用户建模框架从英文和中文帖子中提取的语义和情感,我们研究并比较了(iii)新浪微博和Twitter上帖子的主题和(iv)情感的两极性。此外,(v)我们研究了微博行为的时间动态,如用户兴趣随时间的漂移。
我们的研究结果揭示了新浪微博和Twitter上的微博行为的显著差异,并为基于微博数据的多语言和文化感知的用户建模提供了有价值的见解。我们还探讨了其中一些差异与社会科学研究中的文化模型之间的相关性。
介紹
简介
微博服务(如Twitter)允许人们在网上发布、分享和讨论短信息。现在,Twitter用户每天发布超过2亿条帖子,即所谓的tweets3。在中国,由于Twitter无法使用,新浪微博4正在引领微博市场。新浪微博和Twitter的功能基本相同。例如,这两项服务都将微帖的长度限制在140个字符,并允许用户将自己组织在一个追随者-被追随者的网络中,人们关注其他用户的信息更新(单向关系)。新浪微博和Twitter通过API提供对微帖的(实时)访问,因此可以调查和分析有趣的应用和功能,如事件检测[1, 2]或推荐网站[3]。
通过分析个人的微博活动,有可能了解到用户的特点、偏好和关注点。在以前的工作中,我们引入了一个语义用户建模框架,用于从Twitter活动中推断用户兴趣,并证明了其在新闻推荐系统中的效率[4]。在本文中,我们对这个基于Twitter的用户建模框架进行了扩展,使其也可以进行情感分析和基于中文微博的用户建模。据我们所知,我们首次对新浪微博和Twitter上的微博行为进行了比较研究,并将我们的发现与社会科学的理论和模型联系起来。我们工作的主要贡献可以概括为以下几点。
- 我们扩展了我们的用户建模框架,该框架基于来自微博服务的使用数据,具有对中国微博帖子进行情感分析和语义充实的功能。
- 我们对4000多万条微博进行了深入分析,并对新浪微博和Twitter的微博行为在五个方面进行了比较。(i) 访问行为,(ii) 句法内容分析,(iii) 语义内容分析,(iv) 情感分析,(v) 时间行为。
- 我们将我们的发现与社会科学中的文化定型理论联系起来,因此解释了我们的洞察力如何能够允许基于微博流的文化意识用户建模。
相關研究
最近对Twitter数据进行了各种类型的研究工作,从信息传播[5, 6]到基于Twitter的预警系统等应用[1]。此外,用户建模和个性化再搜索也开始研究Twitter。Chen等人研究了考虑社会网络特征或项目在Twitter网络中的受欢迎程度的Twitter上的推荐系统[3]。在以前的工作中,我们开发了一个基于Twitter的用户建模框架来推断用户兴趣[4],并研究了利用该框架进行个性化的不同应用[7]。
关于社会网络上用户行为的文化特征的研究也已经开始。例如,Mandl[8]研究了来自中国的博客网页,特别是博客作者和评论者之间的交流模式,与德国的博客网页有何不同。他将他的发现与Hofstede等人提出的文化维度相关联[9]。Chen等人分析了中国和欧洲两个流行的社交音乐网站的两个用户群体的标签行为[10],并观察到两个文化群体之间的差异,例如,中国用户应用主观标签的倾向较小,但喜欢使用事实标签。到目前为止,关于不同文化群体用户的微博行为的差异和共同点的知识很少。Yu等人比较了新浪微博和Twitter上的热门话题[11],但只比较了全球趋势,没有研究个人用户的行为。在本文中,我们填补了这一空白:基于我们扩展的用户建模框架,我们对用户在新浪微博和Twitter上的微博行为进行了大规模分析和比较。
研究方法和评估平台
在这一节中,我们详细介绍了我们的研究问题,并介绍了我们增强的用户建模环境,使我们能够研究研究问题。
研究问题
我们的研究目标是分析和比较新浪微博和Twitter上的用户行为,以获得对微博流的用户建模的见解。因此,我们研究(1)人们如何访问微博服务,(2)微博帖子的内容,(3)语义和(4)情感以及(5)用户微博活动的时间行为。
访问行为分析 微博服务,如新浪微博和Twitter,可以通过不同的客户端应用程序从移动设备和桌面设备访问。在微博服务上可以观察到的用户行为可能受到用户访问服务的方式的影响。因此,我们首先研究以下研究问题。
- 问题1:人们是如何分别访问新浪微博和Twitter来发布微帖的?
- 问题2: 个人用户在多大程度上通过不同的客户端应用程序访问微博服务?
句法内容分析 新浪微博和Twitter都将帖子的长度限制在140个字符。这种限制影响了微博用户的写作风格,并可能导致我们希望比较新浪微博(中文)和Twitter(英文)之间的特色使用模式。 - 问题3:对于(i)整个用户群体和(ii)单个用户来说,新浪微博和Twitter在标签、URL和其他句法模式(例如标点符号)的使用上有什么不同?
- 问题4:标签和URL的使用在多大程度上受到用户访问行为的影响?
语义内容分析 为了更好地理解用户在微博上发布的信息的含义,我们对语义进行分析,并研究以下几个方面。 - 问题5:用户在新浪微博和Twitter上分别提到和讨论什么样的话题和概念?
- 问题6:用户在帖子中提到的概念类型在多大程度上取决于他们发布帖子的客户端应用程序?
情感分析 微博允许用户表达和讨论他们对人们所关注的话题的意见。因此,我们对中文和英文信息的情感进行分析,并研究以下问题。 - 问题7:用户在新浪微博和Twitter上分别在多大程度上透露了他们的情绪?
- 问题8: 情绪在多大程度上与人们在新浪微博和Twitter信息中提到的话题和概念类型相关?
时间行为分析 用户的微博行为可能会随着时间的推移而改变,例如,在工作时间和休闲时间之间可能会有不同的行为。因此,我们调查以下研究问题。 - 问题9:在新浪微博和Twitter上,用户的发布行为,特别是关于用户提及的话题类型,在工作日和周末之间有什么变化?
- 问题10:在这两个microblogging服务中,个人用户的兴趣是如何随时间变化的?
评价平台
微博服务的扩展用户建模框架
在以前的工作中,我们开发了一个基于Twitter的用户建模框架,用于从微博中推断用户兴趣[4, 7]。我们的框架监测用户的Twitter活动,并通过从信息内容中提取有意义的概念和主题(如命名实体)以及将帖子链接到外部相关的网络资源(如新文章)来丰富她的Twitter信息的语义。不同的加权方案,如时间敏感或基于术语频率的函数,可以估计出用户在某一特定时间点上对某一特定概念的兴趣程度。因此,生成的用户资料可以被视为一组加权的语义概念。
在本文中,我们用三个核心特征来扩展我们的框架。(1)监测微博活动和收集新浪微博上发布的微帖的功能,(2)针对中文微帖的命名实体识别,(3)针对中文和英文微帖的感官分析。我们使用ICTCALS5作为中文文本的部分语音标记器,并从中文帖子中提取命名实体,如地点、组织和人物。我们实施了一个基线方法来分析中文和英文微帖的情感,正如[12]中所提出的。鉴于这些额外的特征,我们能够在新浪微博和Twit-ter这两个微博服务上应用相同的用户建模技术,因此可以分析和比较亚洲和西方微博平台的用户特征和行为。
数据收集
鉴于该框架,我们分别通过新浪微博开放API和Twitter流媒体API收集了两个多月的微帖。对于Twitter,我们从56个Twitter用户的种子集开始,然后以滚雪球的方式逐渐扩展这个集子。总的来说,我们收集了超过100万用户发布的2400万条推文。对于新浪微博,由于它没有提供类似于Twitter的流媒体API的功能,我们监测了最近的公共微帖,最后收集了超过600万用户发布的2200万条微帖。然后,Twitter帖子和新浪微博帖子被我们的框架处理,以丰富帖子的语义(例如实体提取、情感分析)。为了更好地理解单个用户的行为,我们提取了1200个活跃的Twitter用户(用英语发帖)和2616个活跃的新浪微博用户作为样本。大多数Twitter用户(超过80%)根据他们的Twitter资料来自美国,而绝大多数的新浪微博用户(超过95%)位于中国。关于数据集特征的详细描述,我们请读者分别参考[4]和[2]。
新浪微博和Twitter上的用户行为分析
基于我们从新浪微博和Twitter收集的4000多万条帖子,并通过我们的用户建模框架进行处理,我们研究了用户在这两个平台上的行为,并回答了从访问行为到时间行为等五个方面的研究问题。
访问行为的分析
结果
我们首先分析了人们用来在新浪微博和Twitter上发表文章的最流行的客户端应用程序。在这两个平台上,网络界面是访问微博服务的最流行方式。在新浪微博上有43.1%的帖子是通过网络发布的,在Twitter上有38.5%。新浪微博上其他受欢迎的客户端主要是为移动设备设计的,如iPhone(7.6%)和诺基亚设备(9.4%)。在最流行的Twitter客户端中,有许多基于桌面的应用程序,如TweetDeck,有10.7%的帖子是通过它发布的。此外,我们观察到在这两个平台上,人们发布的帖子都是用户在其他平台上进行活动的副产品。例如,在我们的Twitter数据集中,有1.3%的帖子是通过Twitterfeed发布的,这个应用程序允许在用户发布新的博客文章时在其Twitter时间线上发布公告。
在表1中,我们概述了人们用来发布微博文章的客户端应用程序的类型。因此,我们对50个最受欢迎的客户端进行了人工分类,这些客户端在两个微博服务中产生了超过90%的帖子。我们观察到,与Twitter(33.8%)相比,新浪微博上通过移动设备发布的帖子比例(45.1%)明显更高。此外,我们发现,作为用户其他网络活动的副产品的帖子–因此,实际的用户活动的意图并不是针对新浪微博或Twitter的–在新浪微博上的比例(9.4%)几乎是Twitter(3.3%)的3倍。
在图1中,我们为每个样本用户绘制了他们用于发布微帖的不同应用程序的数量。我们看到,在Twitter上,超过95%的人使用一个以上的客户端应用程序,而在新浪微博上,大约65%的用户在不同的客户端之间切换。
研究结果
从上面的结果中,我们用两个主要的研究结果来总结访问行为的分析,涉及到研究问题RQ1和RQ2:
- F1: 在两个平台上,访问微博服务的主要方式是通过官方网页界面或基于桌面的应用程序。中国用户与讲英语的Twitter用户在两个核心方面似乎有所不同。(i)他们更广泛地使用移动应用程序,(ii)更频繁地发布微帖作为他们其他社交网络活动的副产品。
- F2:关于个人用户的访问行为的结果表明,Twitter用户比新浪微博用户更经常地在不同的客户端之间切换。这种行为上的差异可以解释为有价值的新浪微博客户端应用的总体数量较少(例如,在我们的数据集中。3015个不同的新浪微博客户端与5468个Twitter客户端相比)。
句法内容分析
结果
在表2中,我们比较了新浪微博和Twitter上发布的信息的语法,特别是标签和URL的使用情况。总的来说,20%的Twitter信息包含标签,29.1%的推文有一个URL。因此,Twitter上的标签和URL的使用量分别是新浪微博的3.2倍和1.97倍。对特殊字符的分析意味着Twitter上的用户提出的问题比新浪微博上的用户多一倍以上(见表2的问号)。相比之下,新浪微博的用户更广泛地使用感叹号,因此更经常地在他们的声明中给予额外的强调。
为了进一步分析标签和URL的使用情况,我们还为样本中的每个用户绘制了每篇帖子的平均标签和URL的数量。从图2中,我们可以推断出有相当高比例的新浪微博用户根本没有提到标签或URLs。对于新浪微博上55%的中国微博用户,我们没有发现任何标签。相比之下,在Twitter上,人们更频繁地使用标签或网址。例如,对于超过85%的Twitter用户来说,每条帖子的平均标签数量至少为0.1个,也就是说,至少每十条微帖就会提到一个标签,而3.9%的用户平均每条推文甚至提到一个以上的标签。
在表3中,我们分析了访问行为(见4.1节)对标签和URL使用的影响。对于这两种服务,我们观察到,当人们从移动设备而不是台式电脑上发布微帖时,标签和URL的使用会略有下降。这种差异在新浪微博上更为显著。例如,在新浪微博上,包含URL并且由台式机发布的帖子的数量(17.8%)比移动设备的数量(5.2%)高三倍多。在Twitter上,桌面设备上的URL使用量只比移动设备上的高1.57倍。关于用户发布微博的活动类型,我们观察到97.9%的微博是作为其他活动的副产品产生的(例如在博客中发布文章或在Foursquare上的 “签到 “活动),其中包含URL。相比之下,对于传统的微博,只有25.3%的Twitter信息包含URLs。在新浪微博上也可以看到类似的增长。标签的数量受以下因素的影响略小(见表3)。
研究结果
鉴于上述结果,我们可以回答RQ3和RQ4如下:
- F3: 总的来说,结果显示在新浪微博上应用标签和URL的频率低于在Twitter上。这一发现对于(i)整个用户群和(ii)单个用户都是成立的。事实上,我们观察到新浪微博上有很大一部分用户不使用标签,这意味着基于标签的用户档案,如[4]中所讨论的,或基于标签的主题建模,如Romero等人[6]所提出的,似乎并不适合在新浪微博上。关于问号的使用统计表明,Twitter用户提出的问题比新浪微博用户多一倍。
- F4:标签和URL的使用更多的是受到访问行为的影响。我们发现(i)用户在通过桌面应用发布信息时,比通过移动应用发布信息时更有可能使用标签和URL。此外,(ii)只要信息是作为另一个活动的副产品发布的–用户的主要意图是推广其在另一个平台上进行的活动–微贴中包含标签或URL的概率就会增加。这些副产品微帖中的很大一部分似乎是根据用户在另一个平台上进行的活动自动生成的。对于用户建模来说,这些帖子提供了通过跟踪帖子中包含的URL来进一步确定微博活动背景的手段(参考[4])。
语义内容分析
结果
基于我们的用户建模框架所提供的语义丰富性,我们分析并比较了人们在新浪微博和Twitter的微帖中分别提到的概念和话题类型。在表4中,我们比较了三类实体(地点、人物和组织)的使用情况。大多数被提取的语义概念都提到了地点(例如城市,兴趣点):新浪微博的58.4%和Twitter的44.6%。在Twitter上,提及组织(例如公司、机构)的帖子出现的可能性比新浪微博高四倍以上。在Twitter上流行的实体的例子包括不同类型的实体,如埃及前总统 “穆巴拉克”(人),或 “共和党”(组织)。相比之下,新浪微博上最受欢迎的实体是与地点有关的,如 “北京 “或 “美国”。
图3描述了我们样本中单个用户每篇帖子可以提取的实体的平均数量。对于24.8%的新浪微博用户来说,我们平均每条微博可以检测到一个以上的实体。此外,没有实体可以被提取的用户比例为7.9%,而在Twitter上为10.1%。因此,用户在新浪微博上发布的信息的语义比在Twitter上更容易推断。基于对个别中文和英文微帖的比较,我们假设这是由中文的表达能力造成的:当Twitter用户经常被迫省略实体或使用缩写来指代实体时,新浪微博用户可以更有效地利用140个字符。
表4说明了访问行为是如何影响微帖的语义的。当用户从他们的移动设备上发布帖子时,与通过桌面(量身定做的网络)应用程序的访问相比,信息提到实体的可能性就会降低。对于作为其他网络活动的副产品的微帖(例如Foursquare上的活动),我们观察到在Twit-ter上的帖子更有可能提到实体,特别是位置实体。相反,在新浪微博上,用户在他们的标准微博活动中提到更多的实体。
分析结果
说明了用户在新浪微博和Twitter上发布的微帖在语义上的共性和差异(见3.1节的RQ5和RQ6):
- F5:用户在新浪微博上讨论的话题在很大程度上是与地点和人物相关的。与Twitter相比,新浪微博的用户避免谈论诸如政党或其他机构的组织。总的来说,新浪微博信息的语义可以比推特的语义更好地被提取。因此,在为个人用户的微博活动建模时,基于实体的用户档案[4]可以更成功地生成新浪微博用户:与Twitter的89.9%相比,92.1%的用户可以识别至少一个感兴趣的实体。
- F6:用户访问微博服务所使用的应用程序的类型影响了微帖中语义概念的出现。在移动设备上,人们往往比在桌面设备上提到更少的实体。此外,Twitter上的微帖更有可能提到实体和地点,特别是如果帖子是作为在另一个平台上进行的活动的副产品而产生的。
情绪分析
结果 我们的框架所提供的情感分析将微博帖子分类为正面、负面或中性。总体而言,83.4%的新浪微博和Twitter帖子被归类为中性。表5概述了那些被归类为正面或负面的帖子的情感极性。在新浪微博上,正面帖子的比例(78.8%)明显高于Twitter(70.5%)。在图4中,我们绘制了单个用户的正面帖子与所有帖子的比例,这些帖子要么有正面情绪,要么有负面情绪。92.5%的用户在新浪微博上发布的正面信息多于负面信息,而Twitter用户的比例为86.4%。在新浪微博上,我们还发现有相当一部分用户的非中立帖子总是正面的(8.0%)或总是负面的(5.6%)。
在表5中,我们进一步分析了提到某些类型实体的微帖中所透露的情绪。同样,正面帖子的比例明显超过了负面帖子的比例,而且新浪微博用户比Twitter用户更倾向于对提到的实体持正面态度。有趣的是,只要在新浪微博信息中提到地点或人物,那么在新浪微博上,帖子是正面的可能性就会增加(分别从78.8%增加到82.7%和82.8%),而在Twitter上则相反(分别从70.5%减少到65.6%和65.7%)。
研究结果
关于研究问题RQ7和RQ8,即用户在他们的微贴中表达的情感,我们得出以下结论:
- F7:我们观察到,在两个平台上,积极的帖子明显多于消极的帖子。此外,新浪微博的用户比Twitter的用户更倾向于发布正面信息。事实上,新浪微博上正面信息的概率比Twitter上高11.8%。
- F8:微帖中表达的情绪与帖子中提到的概念类型相关。在新浪微博上,提到地点或人物的帖子比包含组织的帖子更可能是正面的。而在Twitter上,可以观察到相反的情况:人们对组织的谈论比对人或地点的谈论更积极。
时间行为的分析
结果
在表6中,我们首先比较了用户在工作日和周末的发帖行为,计算了周末(周六-周日)和工作日(周一-周五)平均每天发布的帖子数量之间的比率。对于新浪微博来说,这个比率是1.19,这意味着新浪微博用户在周末平均每天发布的信息比在一周内多19%。另一方面,Twitter上的用户在周末平均少发布11%的帖子。因此,在中国,微博似乎没有像西方国家那样强烈地渗透到日常(可能与工作有关)的生活中。
在图5中,我们绘制了单个用户的周末与工作日的比例。虽然新浪微博上每天的微博活动总量在周末高于白天,但我们也发现有1.2%的新浪微博用户只在周末进行微博活动(周末发布的比例是无限的)。对于新浪微博上大约50%的用户来说,周末与工作日的比例大于1,这意味着他们在周末发布的频率更高。相比之下,在Twitter上,我们发现只有28%的用户在周末每天发布的推文多于工作日。
如表6所示,在新浪微博上,组织和个人在周末比工作日更容易出现,而地点在工作日更容易出现。在Twitter上,可以观察到相反的特征。例如,Twitter用户在周末比在工作日更频繁地提到地点。这些在新浪微博和Twitter上周末/工作日提及实体的差异可能与中国人和西方人的不同生活方式有关。调查其中的特殊原因对于未来的工作是很有意义的。
此外,我们通过计算提到某个话题(实体)的微帖的时间戳的标准差来研究个体用户的兴趣如何随时间变化。某一主题的标准差越大,该主题在帖子中被提及的时间段就越长。在图6中,我们为每个用户绘制了一个用户至少提到一次的话题的平均标准差,并根据话题的类型对平均标准差进行分组。总的来说,我们发现新浪微博上的话题似乎比Twitter上的波动更大。新浪微博的用户经常只提到某些概念一次。例如,在我们的样本中,超过80%的新浪微博用户的组织相关话题的标准差为0。这些用户在他们的帖子中只提到一次组织。在这两个平台上,与位置相关的概念被提及的时间平均要比与组织和个人相关的概念长。
研究结果
对时间行为的分析(研究问题RQ9和RQ10)的主要发现可以总结如下:
- F9:在这两个平台上,用户在工作日的发帖行为与周末的不同:新浪微博的用户在周末更活跃,而Twitter的用户在工作日更活跃。此外,用户的兴趣在周末和工作日之间也有变化。同样,这种兴趣的变化在新浪微博和Twitter用户之间是不同的:对于新浪微博用户,我们观察到他们在周末对个人和组织的兴趣上升,而Twitter用户的兴趣则更多地集中在地点上。这些发现意味着,根据时间和文化背景调整用户兴趣分析是有益的。
- F10:用户兴趣随时间变化。在新浪微博上,用户兴趣似乎比在Twitter上的寿命要短。特别是,在新浪微博上,个人用户对组织相关话题的兴趣很快就消失了,而地点的兴趣跨度则最长。
讨论
我们的一些发现也可以用中国新浪微博用户和主要位于美国的Twitter用户之间的文化差异来解释(超过80%的Twitter样本用户位于美国)。根据Hofstede的文化指数[9],举例来说,中国人可以比美国人有更高的权力距离(见表7)。这种差异可能解释了我们关于访问行为的发现F1(见第4.1节)。新浪微博用户更频繁地发表微帖,作为他们其他社会网络活动的副产品。因此,与使用Twitter的人相比,他们似乎不太害怕披露自己的信息。考虑到中国文化特有的高权力距离,我们假设可以观察到这种行为,因为中国用户不认为他们的个人活动有什么影响,也就是说,由于高权力距离,披露信息的影响比较小。推特用户(F3,见第4.2节)对标签和URL的使用更加密集,这可能与美国人的权力距离较低和个人主义程度较高有关(见表7)。通过提及标签,微博用户确保他们的信息会出现在公众讨论中。微博用户似乎更渴望让他们的帖子出现在公众讨论中。因此,他们似乎更相信他们的帖子会带来改变(权力距离),也可能更需要在公共讨论中介绍自己(个人主义)。
我们还观察到,与Twitter用户相比,新浪微博用户在他们的帖子中较少提及组织(F5,见4.3节)。这一观察结果与Hofstede的观察结果一致,即在中国 “员工对组织的承诺很低 “6,这是高长期取向的典型指标之一。情感分析(见第4.4节)显示,中国的新浪微博用户比美国的Twitter用户更积极(F7),进一步支持了这种关于长期取向的文化差异。在情感分析方面,我们进一步发现,新浪微博用户比Twitter用户更积极地谈论个人(F8),这再次支持了中国人的集体主义而非个人主义倾向。
时间分析(见第4.5节)显示,新浪微博用户在工作日发布微博的积极性较低,尤其是提到组织的频率比周末低。这可以被解释为一个长期取向的指标,因为它意味着用户对所工作的组织的承诺相当低。与Twitter用户相比,新浪微博用户似乎也会很快改变他们的兴趣(F10)。虽然这似乎与中国人的长期取向相矛盾,但它也揭示了中国人对新话题的适应速度更快,这可以被解释为 “有能力使传统适应变化的条件”,这是长期取向高的文化的特征之一。
我们为分析新浪微博和Twitter上的微博行为提供了一个创新的基础。对我们的第一组结论的进一步解释和验证可以在未来的工作中进行,研究的问题也要遵循我们的结论。独立于这些解释,我们相信我们的发现已经为我们的用户建模框架所提供的用户建模技术的应用提供了宝贵的见解。