基于公开数据的特殊人群在线活动特征挖掘
刘楚楚,吕欣
国防科技大学系统工程学院,湖南 长沙 410073
中南大学商学院,湖南 长沙 410083
卡罗林斯卡研究所公共卫生科学系,瑞典 斯德哥尔摩 17177
摘要:通过采集百度贴吧中的相关数据,从时间、文本、网络3个维度分析不同人群的在线活动特征,探索社会特殊人群的活动规律和心理状态。研究发现,艾滋病人群在线活动更规律,在线活动的主要目的是了解病情知识、记录日记,对本类型贴吧的关注很集中;男同性恋人群活跃时间晚,大多是为了娱乐交友,对本类型贴吧的关注具有很强的偏好性。总体上,艾滋病人群对自身病情十分关心,但男同性恋人群的艾滋病防护意识还不强。
关键词:特殊人群;艾滋病;男同性恋;在线特征;复杂网络
1 引言
“特殊人群”一般是指那些因主客观原因导致的在社会竞争中处于不利形势的“边缘”人群。在我国,艾滋病(AIDS)人群和男同性恋(men who have sex withmen, MSM)人群承受了更大的社会环境压力,拥有较高的社会距离和社交限制分值,在社会竞争中处于不利地位,是我国具有代表性的两类特殊人群。由于多种原因,男同性恋人群感染艾滋病的概率比普通人群高19.3倍[6 ],现存活的艾滋病患者中经男男性传播的比例大约为14.7%,且近年来呈明显的上升趋势。艾滋病病毒(HIV)感染者和MSM人群属于艾滋病传染的高危人群,对这两类人群的行为特点进行研究,将对艾滋病的预防控制具有非常重要的意义。然而,由于受到社会环境压力等因素的影响,全面地、有代表性地对这两类特殊人群进行调查研究存在着许多困难。目前对HIV感染者和MSM人群的研究还主要停留在基于实地或网络人群抽样的现场访谈和问卷调查,这种传统方法效率低、样本有限,且特殊人群的隐蔽性使研究的开展受到颇多限制。
随着互联网技术的发展,人们的社交生活发生了巨大的改变,人们频繁地在各种虚拟社区发布、传递、共享信息,使网络虚拟社区中蕴含了海量的用户活动数据,为研究特殊人群提供了新的突破口。张建等人通过对中国生殖健康网站“中国红丝带网”上直播的节目记录文件进行分析,了解网民对待艾滋病的心理、行为和信息需求。艾德华通过对“同性爱”网站的观察与分析,了解“同性爱”网站的网民的信息需求和交流情况。白冠男等人选取“艾滋病吧”中的1746条回帖作为研究对象,采用内容分析法,了解“艾滋病吧”中网民对艾滋病的态度及其主要健康问题。王国华等人则采用内容分析法和社会网络分析法,以百度贴吧“HIV吧”中400条贴文作为研究对象,对艾滋病相关人群的社会支持信息和社会支持关系网进行了分析。Constantinos C K对一个HIV/AIDS在线社区的帖子进行内容分析,评估艾滋病群体中社会支持交流的类型和比例。同样,Mo P K等人证明了在艾滋病群体的所有社会支持类型中,信息支持和情感支持占比最大。通过分析微博中艾滋病群体发布的博客内容,Shi J等人探讨了微博中艾滋病群体的社会支持内容及结构;而 Guo Y 等人则试图了解艾滋病群体在线社会支持的动态交互过程以及随时间的衍变情况。网络社区中特殊人群的活动数据能够真实反映出该群体的在线活动情况,通过分析这些数据可以有效地挖掘出特殊人群的行为模式。总体而言,目前国内外对特殊人群在网络社区中开源数据的研究,很大一部分集中在对特殊人群的社会支持上,并且大多使用的是内容分析的方法,对特殊人群在线多维特征(如在线活动的时间统计特征、社交网络特征、社团效应、情感倾向等)的研究还很少。
本文聚焦百度贴吧中与HIV和MSM相关的两类贴吧,分析贴吧的用户活动数据,挖掘HIV感染人群和MSM人群的在线行为特征。从时间、内容、网络3个维度出发,分析特殊人群的在线活动时序规律、话题偏好以及由关注关系构成的共同关注者网络的特征,并以新闻时事类贴吧用户作为对照,深入了解社会特殊人群与普通人群的行为差异,从而全面了解特殊人群的在线活动模式,为社会公共卫生管理提供指导,具有非常重要的创新意义和现实价值。
2 数据来源
百度贴吧吸引了大量基于共同兴趣爱好的社会群体。自2003 年12月份正式上线以来,百度贴吧的用户数目呈现出爆炸性增长,目前百度贴吧的活跃用户数已达3亿人,贴吧数目超过2 000万个,其中蕴藏的海量数据具有巨大的挖掘价值。本研究运用Python Scrapy爬虫框架采集百度贴吧中与艾滋病、男同性恋、新闻时事相关的最活跃的36个贴吧,贴吧名称及发帖数(主帖、评论贴及回复的总数)见表1。采集的数据内容包括贴吧信息、贴吧会员(贴吧关注者)信息和用户发帖信息,采集后的数据存入PostgreSQL数据库。贴吧信息包括贴吧名称、贴吧主页URL地址、贴吧话题类型、关注者人数(会员数目)、贴吧帖子总数、贴吧标语、贴吧所在目录以及该贴吧的友情贴吧名称。受百度防爬策略的约束,只能访问每个贴吧的前458页会员信息,即最新加入的前10 992个会员,共采集了270 229条会员数据,内容包括会员昵称、会员主页URL地址、会员关注的贴吧。本研究采集了截至2016年8月1日的36个贴吧的所有发帖信息,共6 316 158条。发帖信息包括帖子的标题、帖子所在主页的URL地址、帖子创建时间、帖子被回复数、帖子所属贴吧名、发帖人昵称、发帖人主页URL地址以及发帖人等级。为了避免“水军”“僵尸”等对分析结果的影响,在数据分析过程中对贴吧中的用户进行了筛选,主要去除了发帖数少于3的不活跃用户以及帖子长度少于3个字符的文本。
3 研究结果
3.1 在线活动时间统计特征
3.1.1 日分布规律
对各类型贴吧每天的发帖时间分布进行比较,可以发现,艾滋病类型和男同性恋类型中各贴吧每天的发帖趋势基本一致,新闻时事类各贴吧的发帖时间分布差异相对较大。艾滋病人群和男同性恋人群在发帖时间上的规律性更强,其内部活动时间更一致。不同类型人群的日发帖规律也存在差异,如图1(a)所示。艾滋病人群在每晚22:00—23:00达到发帖顶峰,凌晨3:00—5:00发帖少;男同性恋人群在每晚的0:00左右达到发帖顶峰,到早上5:00才跌至波谷;新闻时事类人群(普通人群)在一天中会出现多个发帖高峰,大多位于早上7:00—8:00、中午12:00—14:00和晚上19:00—20:00,凌晨2:00—4:00发帖少,在5:00左右回升。值得注意的是,普通人群在线活跃状况从晚上20:00开始出现衰减趋势,而此时特殊人群(艾滋病人群和男同性恋人群)活跃程度正处于上升阶段,一直持续到凌晨,且男同性恋人群在凌晨2:00的发帖比普通人群中午12:00还要活跃,反映了特殊人群在线活动时间更偏好于晚上甚至深夜。这与不同人群在发帖内容上表现出来的差异吻合。艾滋病人群发帖大多围绕着病情咨询,这类人群更关注身体和作息,发帖高峰位于每晚的22:00左右,比男同性恋人群要早一些。男同性恋人群发帖大部分是关于交友、聊天、消遣,因此活跃时间在3 类人群中最晚,衰减趋势也表现得更滞后。新闻时事类人群发帖的内容主要围绕政治、经济、社会等话题,发帖多位于一天中的休息时间,且与电视新闻的播放时间一致。艾滋病类贴吧和男同性恋类贴吧在一天中的发帖波动很一致,可以认为与普通人群相比,这两类人群在线活动的时间规律表现出更高的相似性。
3.1.2 季节性特征
分析各贴吧每年在各月份的发帖量,发现同类型贴吧的发帖波动基本一致,但各个类型贴吧的发帖量没有表现出随月份明显的季节性波动,不同年份的月发帖量分布没有明显的周期性,但具有一些相似性特征。hiv吧每年的12月份是一个波峰,2月份位于波谷位置,3月份开始回升(每年的1、2月份是中国农历年末,春节到来导致发帖量下降)。gay吧近几年在各月份上的发帖波动较一致,上半年比下半年发帖量大,且随着暑期的结束,每年9月份的发帖量会比8月份有所降低(已有研究证实,在MSM虚拟社区中在校学生所占比例较大,而且MSM人群中青少年占有相当的比例)。新闻直播间吧发帖跟每个月实际发生的新闻事件相关,但每年的2月份(农历年末)位于发帖的波谷位置。
3.1.3 长期特征
通过统计不同人群每年的发帖量,可以看出各类人群的发帖趋势,如图1(b)所示。艾滋病人群的年发帖量从2008年开始一路上升,2 013 年的年发帖量增长速度达到最大,2 015 年的年发帖量达到顶峰(2016 年数据不完全);男同性恋人群的年发帖量从2004年开始呈上升趋势(百度贴吧于2003年12月正式上线),2008年达到一个波峰后开始衰减,2010年又上升,至2 013 年达到年发帖量的最高值,随后跌落(可能由于近年来百度贴吧对内容管控逐步加强,且男同性恋交友网站大量增加);新闻时事类普通人群的发帖在2013年呈现出爆发性增长,此前年发帖量一直很低,这可能与2013年百度贴吧用户数目大量增长有关。
2008年,男同性恋人群发帖量迎来一个小高峰,此时艾滋病人群发帖量开始增加;2013年男同性恋人群年发帖量达到最大值,此时艾滋病人群的发帖增长速度达到最大。排除重合用户影响的可能性(共同用户数目远小于这两类贴吧各自的用户数目),艾滋病人群和男同性恋人群的在线活跃情况存在着一定程度的相关性。由于多种原因,男同性恋人群感染艾滋病的可能性远远高于普通人群,因此随着男同性恋人群的增加,HIV在人群中快速传播,艾滋病人群随之快速增长。已有的研究已证明男同性恋人群是艾滋病传播的高危人群和重要桥梁,这与本研究得出的结果相一致。
3.1.4 时间间隔特征
统计各贴吧发帖时间相邻的各帖子之间的时间差,发现各贴吧前后发帖的时间间隔呈现明显的幂率分布,如图1(c)所示。绝大多数情况下后一个帖的创建时间与前一个帖子创建时间的时间差很小,少数帖子的创建时间与前一个帖子的创建时间间隔很大。
图1 各类型贴吧在线活动时间统计特征
3.2 在线内容挖掘及热点分析
3.2.1 热词发现
本文用词项的TF-IDF(term frequencyinverse document frequency)值(即词频乘以逆向文本频率)来定义一个词的热度。提取贴吧中帖子的标题信息,对标题文本进行分词,剔除常用词,计算各个词项的TF-IDF值,选取前100个TF-IDF值最大的词代表该贴吧的热词,比较不同类型贴吧的热词区别,分析不同类型人群的话题特点及差异。
通过比较各贴吧的热词可以发现,不同类型人群发帖的热词差异较大(如图2所示),不同人群在线发言存在着明显的话题偏好。具体表现为,艾滋病人群的发帖内容主要围绕着病情咨询和日记记录,男同性恋类人群的话题大多与交友聊天和感情生活有关。新闻时事类人群的讨论热点主要集中在政治、经济和社会话题。各类型人群话题分布如图3所示。
图2 不同人群发帖热词差异
图3 不同人群话题比较
研究发现,不同类型人群之间的发帖热词相似度(热词交集比例)也存在差异。艾滋病人群与男同性恋人群发帖热词的相似度达到36%,高于与新闻时事类的热词相似度(12%),艾滋病人群与男同性恋人群在话题偏好上相比于普通人群具有更高的相似性。在共同关注网络(见第3.3节)中,艾滋病类型贴吧与男同性恋类型贴吧之间的连接数目为1 319,大于与新闻时事类贴吧的连接数目656,说明艾滋病人群和男同性恋人群的重合人数更多,导致这两种人群的话题相似度要大于新闻时事类人群。
3.2.2 热词动态演变分析
研究发现,不同类型人群每年的发帖热词都会发生变化,每年都会有新增的热词(如图4所示),反映了不同人群的心理状态变迁。
图4 不同人群发帖热词变迁
艾滋病人群在2011年的发帖热词中新出现了“贱狗们”“诅咒”等表达负面情绪的词汇;2012年的热词中出现了大量艾滋病检测产品品牌;2013年关于艾滋病治疗、药品名称以及患者情绪的词汇增加;2014年艾滋病人群讨论的话题变得轻松,关于病情交流和经验分享的话题增加,出现了大量日记帖;2015年生活话题增多,目前国内最好的艾滋病治疗药物“替拉依”成为热词之一;在2016年,“工作”也成为艾滋病病友们的热点讨论话题。可以看出,艾滋病人群的话题逐步向积极健康的方向转变,艾滋病人群的心理状态从最初的紧张抵触变得越来越平和轻松。笔者在后续的研究中用基于规则的情感分析方法,通过构建相应的情感词库,对艾滋病群体的情绪特点做了系统分析,发现在艾滋病社区中负面情绪仍偏多,主要表现为初期感染HIV的患者对病情的恐惧、担忧和焦虑。但是,积极情绪也占据了相当大的比例,大多关于AIDS的及时诊断与积极治疗,表达诸如信心、努力、坚强、感激等情绪。而且出于隐私保护,艾滋病人群常常选择通过社交网络平台寻求帮助和建议。
男同性恋人群每年的发帖热词变化也十分显著,每年的热词基本上与该年的网络流行词汇息息相关,如2011年出现了“神马”“正太”“腐女”等词;2012年新增了“基友”“微信”;2013年出现了“大神”;2014年出现的“叔叔”“qy”;2015年出现的“男票”“语音”;2016年出现的“宝宝”。此外,在2013年,关于同性恋的词汇大量增加,这与前文(第3.1节)中2013年男同性恋发帖数达到峰值的结论相吻合。而新闻时事类人群每年的发帖热词差异较大,话题主要与每年发生的热点事件和新闻相关。
3.3 贴吧共同关注者网络
3.3.1 共同关注者网络可视化
从网络角度挖掘特殊人群的在线活动特征,利用3种类型全部贴吧的会员数据构造共同关注者网络,各贴吧作为网络的节点,如果两个贴吧之间存在共同关注者,则对应贴吧节点之间就形成一条连接边,共同关注者数目作为边的权重。权重越大,说明两个贴吧之间的共同关注者数目越多。可视化有助于直观了解一个网络的特征。对3类贴吧的共同关注者网络进行可视化处理后的结果如图5所示,节点大小代表各贴吧度的大小,边的权重表现为边的粗细。可以看出,该网络存在着明显的社区结构,3个类型贴吧的内部联系紧密,与外界联系相对少,不同人群对本类型贴吧更关注。3类贴吧的用户对本类型贴吧相关的主题明显更为关心,说明在艾滋病类型贴吧和男同性恋类型贴吧中活跃的用户,很大可能就是笔者要研究的特殊人群。
图5 共同关注者网络
3.3.2 各类型贴吧的共同关注者网络差异比较
为了了解不同人群在贴吧关注上的特点,构造并比较了各类型贴吧的共同关注者网络(如图6所示),可以发现,3类人群对本类型贴吧的共同关注网络表现出很大的相似性,即都是全连接网络,且网络内部边权远远大于外部边权,各类人群对本类型贴吧更关注。但3个网络在多样性、内外连接数量比例、平均加权度等方面表现出较大的差异。
图6 3种类型贴吧的共同关注者网络
3类人群的共同关注网络社区内部连边(此处一条边代表两个贴吧之间的一个共同用户)数量与外部连边数量之比分别为14.2(艾滋病类)、8.9(男同性恋类)和8.1 (新闻时事类)。各社区的内外连接数量比都远大于1,印证了这3类贴吧显著的社区结构。为了了解不同人群的贴吧关注关系特点,笔者使用基于Shannon熵的社会多样性度量来刻画各个关注网络的多样性。
其中,k是节点i的连接数目,pij是邻居j的边权与其所有邻居边权和的比值。3个网络的多样性平均值分别为0.88(艾滋病类)、0.69(男同性恋类)和0.75(新闻时事类)。各类人群的关注网络在平均加权度和模块化指数上也存在差异。艾滋病网络的平均加权度为5 102.73,大于男同性恋网络的平均加权度2 472.29,大于新闻时事类网络的平均加权度1 961.82。男同性恋网络的模块化系数(指网络中连接社区结构内部顶点的边所占的比例与随机网络相比的差值)为0.33,大于新闻时事类网络的模块化系数0.29,艾滋病网络的模块化系数最小,为0.14。各类型贴吧相互之间的关注者关系也表现出不同:艾滋病类贴吧与男同性恋类贴吧的共同边数目为1 319,大于与新闻时事类贴吧的共同边数656,艾滋病类贴吧和男同性恋贴吧之间具有更多的共同用户。
可以发现,艾滋病网络的内外连边比值、多样性、平均加权度最大,模块化最小,说明艾滋病人群对本类型贴吧的关注更多、更集中,一个用户可能同时关注了多个艾滋病贴吧,且艾滋病人群在贴吧中的分布更均匀;男同性恋网络的内外连接比、平均加权度大于普通人群,且多样性最小,模块化系数最大,说明男同性恋人群对本类型贴吧的关注较集中,但用户在贴吧中的分布很不均匀,大多分布在几个贴吧(gay吧、bl吧)中;且艾滋病类贴吧之间的相似性较大,男同性恋类贴吧差异大。这也从侧面反映了艾滋病人群和男同性恋人群在线活动目的的差别。艾滋病人群在线活动的目的性更强,更可能是为了全面收集资讯、了解病情知识;而男同性恋人群在线活动主要是交友娱乐,偏好性很强,导致男同性恋类贴吧的用户数目差异大。艾滋病类型贴吧和男同性恋类型的贴吧之间具有更多的共同用户,说明艾滋病人群与男同性恋人群之间的重叠相比于普通人群更加突出,男同性恋人群相比普通人群更有可能携带或者感染了HIV,这也从侧面验证了Koblin B A等人和Liu H等人关于男同性恋患艾滋病的可能性要高于普通人的结论。
4 结束语
由于特殊人群的隐蔽性,传统方法无法有效获取这类人群真实的活动数据,难以了解特殊人群的行为特点和心理状态。本文通过分析百度贴吧特殊人群的在线活动数据,首次对艾滋病人群和男同性恋人群与普通人群(新闻时事类贴吧用户)的在线活动差异进行挖掘,以了解特殊人群在心理、社交上的特征。研究发现,我国艾滋病人群和男同性恋人群在在线活动时间、讨论话题、关注贴吧等各方面都表现出各自明显的特点。艾滋病人群在每晚22:00—23:00达到活动高峰,凌晨3:00—5:00最不活跃;男同性恋人群在每晚0:00—1:00达到活动高峰,在早上5:00跌至波谷。且艾滋病类人群在贴吧的活跃程度呈上升趋势,男同性恋人群的活跃程度呈下降趋势。艾滋病人群在线活动的主题主要是病情咨询和日记记录,男同性恋人群大多与交友聊天和感情生活有关。艾滋病人群对本类型贴吧的关注更多、更集中,一个用户同时关注多个艾滋病贴吧,且艾滋病人群在贴吧中的分布更均匀;男同性恋人群对本类型贴吧的关注较集中,但用户在贴吧中的分布很不均匀,大多集中在gay吧和bl吧。
总体上,男同性恋人群与艾滋病人群的在线活跃情况存在着一定程度的相关性。并且,相比普通人群,男同性恋人群与艾滋病人群之间的关联性更强,男同性恋人群感染HIV的概率明显高于普通人群。在分析结果中可以看出,艾滋病人群对自身病情比较关心,但男同性恋人群的艾滋病防护意识并不强,且网络男同性恋人群的年龄都偏低,有很大一部分是青少年。
根据百度贴吧中男同性恋相关人群和艾滋病相关人群表现出来的特点,对公共卫生有关管理部门提出以下建议,以期能为我国特殊群体提供更好的关怀和管控以及更全面的教育和指导。
● 针对男同性恋人群艾滋病高危的特点,应加强男同性恋人群中艾滋病防护意识的培育和相关安全知识的宣传,促进男同性恋人群自我保护意识的提升,减少并尽可能杜绝高危行为的发生。
● 由于社会舆论环境,我国艾滋病群体面临着很大的社会歧视,因此表现出极强的隐蔽性。出于网络社区等虚拟平台的匿名性保证,很大一部分艾滋病患者倾向于通过互联网渠道查找资料或寻求帮助。相关管理部门可以积极利用互联网虚拟社区、论坛网站等虚拟平台,加强艾滋病基础知识的普及,多渠道扩展艾滋病咨询和检测通道,为广大艾滋病群体提供更方便、更人性化的服务。
● 目前,男同性恋人群有低龄化发展的趋势,很大一部分男同性恋者是青少年,并且近年来我国大中学生中的HIV感染者超过80%是男同性恋,因此提早对青少年开展安全性知识教育,提高其防患意识,有利于促进青少年群体对艾滋病病毒的预防。
基于开源数据的特殊人群研究,能最直接地从特殊人群在线活动产生的数据中发现问题,而已有的关于特殊人群(如艾滋病人群、男同性恋人群)的研究大多采用传统调查分析的方法。本文克服了在传统调查中由调查对象的主观因素带来的误差,可以最真实、客观地反映特殊人群的行为特点和动机偏好,对以抽样调查为主的特殊人群研究方法是一个很大的补充。本研究对特殊人群和普通人群的在线行为模式进行多维度分析比较,对艾滋病人群和男同性恋人群的在线活动特点进行了多视角、直观的呈现,同时也为今后其他类型特殊人群的研究提供了新的思路,有着重要的创新意义和现实价值。但是受到数据的约束,此次研究只探讨了在百度贴吧中活跃的群体,对其他在线社区的相关特殊人群的特点并未做分析,今后的研究会立足在多种社交平台上的数据分析,增强研究的完整性和可靠性。
The authors have declared that no competing interests exist.
作者已声明无竞争性利益关系。
刘楚楚(1993-),女,国防科技大学系统工程学院博士生,主要研究方向为大数据挖掘、复杂网络分析。
吕欣(1984-),男,国防科技大学系统工程学院副教授,主要研究方向为大数据挖掘、人类行为动力学分析。
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的科技期刊。
关注《大数据》期刊微信公众号,获取更多内容