针对互联网信息实施必要管理,引导互联网健康有序发展是网络监管部门的重要职责。如何遏制打击互联网色情、非法赌博、毒品贩卖、恐怖主义、分裂国家、诋毁诽谤等有害信息的泛滥与传播?大数据“亮剑”互联网,协助监管部门精准打击不良信息,净化网络空间,成效逐渐显现。
随着信息社会的发展,我国互联网上产生的信息数量规模日趋增加。 截至2017年6月,我国网民规模已达到7.51亿,伴随着移动互联网的普及程度不断提高,上网人数和上网便捷程度不断增加,我国互联网上每日产生的违法有害信息数量随之变得十分巨大,发现和处理这些违法有害信息的难度也随之增加。如何控制网络有害信息泛滥蔓延,实施精确打击,规范净化网络空间,最大限度降低其带来的负面影响,成为网络监管部门一个重要课题。
当前,随着大数据不断地向社会各行各业渗透,数量巨大的网络舆情数据构成了大数据的一个重要部分,通过源源不断的网络舆情数据,加以关联、追踪、分析,能够为精确监测网络有害信息并实施精准打击带来巨大成效。
过去,净化网络不良信息只能靠人工手动检索来进行,或者也使用了市面相对成熟的相关软件进行辅助搜索,但搜索技术仍采用传统的二维搜索方式,即敏感、不良关键词和网络平台二维坐标,人工对采集到的不良信息进行分析,耗时长、人工成本大、效果也不尽人意。大数据时代,充分运用大数据智能、预警、预测、决策的四大功能,能够有效实现长期、有持续性的对互联网多模态的数据监管与治理,采用技术手段快速过滤封堵不良网络信息内容,帮助监管部门实现有害信息的综合监管、预测。
以国内资深数据运营商九次方大数据研发的“亮剑”大数据平台(又名网络有害信息监测数据平台)为例,该平台正是以大数据为基础,利用九次方掌握的丰富网络舆情数据源,来进行网络不良信息的监测与抓龋
据悉,该平台运用目前国内先进的爬虫技术,通过多个爬虫集群对动态网页和静态网页进行全面的实时监控;设置敏感词库,并从海量数据中,采集到与敏感词有关的数据,做到主动发现有害网页;收录有害的分布站点、传播途径、回帖率、点击率、参与者等相关信息,实时监测有害信息动态,辅助分析有害网信息发展趋势,通过敏感词汇搜索单元、不良类型单元、采集时间段单元等信息的查询,实现更加精确的搜索。
此外,平台后台通过关联分析有害信息的数据来源,进行数据跟踪,最终确认有害信息出处,设置可疑人员虚拟身份进行重点监控,根据采集到的数据进行分析活动范围、散布内容、活动时间等,最终形成常规检测报告,进行类比分析,帮助监管部门进行有害信息精确打击及后续违法追责。
在互联网发展过程中,不良信息层出不穷,净化网络空间,还公众一个健康有序的互联网世界,不仅仅是政府的职责,也需要社会各界共同参与。新时期,大数据已经颠覆现有监管模式,以更加智慧的技术手段来进行网络空间的维护与治理。数字化时代,唯有技术与管理双层封堵,才能在更广的范围、更深的源头上消除不良信息的影响。