基于互联网舆情分析系统的
设计与实现
Research and Construction of
Information Management and Distribution
System Based on B/S Structure
学科专业: 计算机技术 研 究 生: 赵学明 指导教师: 许林英 副教授 企业导师:薛京生 高级工程师
天津大学计算机学院 二零一二年十一月
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得 天津大学 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
学位论文作者签名: 签字日期: 年 月 日
学位论文版权使用授权书
本学位论文作者完全了解 天津大学 有关保留、使用学位论文的规定。特授权 天津大学 可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。
(保密的学位论文在解密后适用本授权说明)
学位论文作者签名: 导师签名:
签字日期: 年 月 日 签字日期: 年 月 日
摘 要
随着信息网络技术的高度发展和我国网民数量的快速增加,互联网已经成为言论发布、信息交互、资源共享的重要平台和载体,但同时网络违法有害信息、诽谤谣言等也在不断涌现和广泛传播,并已渗透到网络的各个角落,严重干扰了互联网的和谐发展。在这种局面下,设计并开发一款互联网舆情搜索分析系统十分必要。只有建设专门的 舆情技术支持,并辅以良好的保障制度,才能逐步化被动为主动,提高对互联网舆情的有效引导、监测能力,保障互联网的和谐发展。
本文提出的互联网舆情搜索分析系统主要用到了数据挖掘技术、动态跟踪技术、动态文本分析技术以及聚类技术等。通过这些技术,有效的对互联网中的信息进行动态追踪分析,有效地保证舆情信息被及时发现、监测、跟踪等。同时该系统采用模块化设计方案,按照主要功能分为舆情发现、舆情分析、舆情控制及舆情支撑库四个模块,这样划分具有功能明确、开发成本低的优点。
通过本文提出的互联网舆情搜索分析系统的建设目,的就是打造满足舆情监测工作需要的专业技术支持系统,发现,监测,跟踪,核查,评估,判定,预警,引导互联网上影响国家安全和社会稳定的舆论信息,对出现有害信息的重点部位,可能造成危害的网络传播渠道进行必要的信息对抗,采取有效的措施,消除网上不健康信息,提高对网上舆论的引导能力。
关键词: 舆情,数据挖掘,动态跟踪,聚类技术,引导
ABSTRACT
With the highly developing of information network technology and the rapidly increasing in the number of Internet users in China, the Internet has become an important platform and vehicle for speech publishing, information interaction, sharing of resources and others. At the same time, illegal and harmful information, rumours also continue to emerge and spread widely, they have penetrated into every corner of the network, seriously interferes with the Internet harmoniously developing. In this situation, it is very necessary for designing and developing a system of searching and analyzing Internet public opinion. Through this system, with good security system, in order to gradually change from passive to active, to improve the Internet public opinion guide effectively, monitoring ability, guarantee the harmonious development of the Internet.
This system uses some key technology, such as data mining, dynamic tracking, analyzing of dynamic text and clustering technology. Using these technologies can effectively analyze and track on Internet information, it also effectively ensure the public opinion information be discovered, monitored and tracked in time. At the same time, the system uses a modular designing, according to the main function is divided into four parts, such as public opinion, public opinion analysis, found control public opinion and public opinion support library four modules, such a division has a clear function and low cost for developing.
The purpose for this system is to meet requires of monitoring public opinion. It is used for discovering, monitoring, tracking, checking, valuing, judging, warning, and guiding the information of impacting on national security and social stability, and fighting for channels of harming Internet dissemination, eliminating online health information, and improving the ability of online guidance of public opinion.
KEY WORDS:public opinion, data mining, dynamic tracking, clustering technology, guidance
目 录
第一章 绪 论 ................................................................................................... 1
1.1引言.......................................................................................................... 1 1.2课题研究背景和目标.............................................................................. 1 1.3国内外研究现状...................................................................................... 2 1.4本文做的主要研究与工作...................................................................... 3 第二章 互联网舆情分析平台整体设计 ........................................................... 5
2.1总体构架.................................................................................................. 5 2.2系统工作环境.......................................................................................... 5 2.3设计原理.................................................................................................. 6 2.4系统模块设计.......................................................................................... 6
2.4.1舆情发现....................................................................................... 6 2.4.2舆情综合分析研判..................................................................... 10 2.4.3舆情管理..................................................................................... 11 2.4.4舆情支撑库................................................................................. 14
第三章 舆情分析系统实现技术 ..................................................................... 15
3.1意见挖掘技术........................................................................................ 15 3.2内容分级法............................................................................................ 15 3.3动态跟踪技术........................................................................................ 16 3.4动态文本分析法.................................................................................... 16 3.5文本聚类技术........................................................................................ 16
3.5.1文本聚类定义............................................................................. 16 3.5.2文本聚类算法............................................................................. 17
第四章 舆情分析系统模块功能分析与实现 ................................................. 18
4.1舆情发现................................................................................................ 18
4.1.1 互联网舆情早晚报 ................................................................... 18 4.1.2 互联网深度搜索系统 ............................................................... 19 4.1.3 网眼论坛专搜系统 ................................................................... 28 4.1.4 互联网信息全网搜索系统 ....................................................... 35 4.1.5 辖区网站管理 ........................................................................... 43 4.2舆情综合分析管理系统........................................................................ 64
4.2.1 舆情综合分析 ........................................................................... 64
4.2.2 舆情简报 ................................................................................... 64 4.3 4.4
舆情管理.......................................................................................... 64 4.3.4 舆情引导系统 ........................................................................... 65 舆情支撑库...................................................................................... 65
第五章 总结 ..................................................................................................... 67 参考文献.............................................................................................................. 68 致谢...................................................................................................................... 70
第一章 绪论
第一章 绪 论
1.1引言
互联网作为一项重大基础性科技发明引发了全球性深刻变革,它固有的互联互通、快速传播、包罗万象等技术特点,加速了全球信息化进程,影响遍及政治、经济、军事、文化以及社会生活的各个领域。随着信息网络技术的高度发展和我国网民数量的快速增加,互联网已经成为言论发布、信息交互、资源共享等重要平台和载体,互联网舆情成为反映社会百态,人民呼声以及意识形态、社会动向的重要参考依据,对司法审判、廉政监督、社会管理、政策运用等起到了极大影响,并发挥着越来越大潜能和作用。近年来,在互联网应用显示出它的便捷性、资源广泛性、信息共享性等特点的同时,通过互联网络传播淫秽色情、赌博、贩卖违禁品、诈骗等违法有害信息,诽谤谣言和恶意攻击党和政府言论等大量滋生、不断蔓延,特别是在网站,论坛,聊天室,邮件,QQ,博客,点对点网络,网上短信息等传统和新型网络应用中大量传播,引发网上不法信息泛滥、蔓延,虚假信息言论影响现实社会的稳定和公共安全。
有效管理网络舆情,及时通过对网络舆情的搜集分析,可以有效掌握当前热点动向、社情民生、安全动态等。由于互联网信息更新快、信息容量大、传播范围广等实际特点,大量违法舆论信息传播速度快,传播部位多且隐蔽,及时发现网上违法有害信息、有效引导网上正确的舆情面临技术上和制度上的严峻挑战,特别是维护互联网健康有序、和谐积极的舆论环境,引导、创建健康向上的舆论氛围成为政府管理部门的重要课题。在这种情况下,只有建设专门的舆情技术支持,将网上舆情管理工作信息化、科学化、精确化,并辅以良好的保障制度,才能逐步化被动为主动,提高对互联网舆情的有效监测引导能力,提高对社会局面的科学管理水平。
1.2课题研究背景和目标
互联网舆情分析系统主要是为了实施舆情管理工作,加强技术搜索、加强科学分析、加强有效管理的信息化管理系统,特别是从纷乱复杂的互联上及时快捷、有针对性的监测、发现、跟踪、核查、评估、判定、引导互联网
1
第一章 绪论
上舆论信息,实现技术搜索分析,对出现违法有害信息的部位,并且通过采取有效的措施,消除网上不健康信息,提高对网上舆论的管理能力,积极营造和引导健康向上、合法正面的舆论环境。
系统建设的总体目标是:建立舆情工作基础平台,实现舆情工作信息化管理和对网络舆情事件的统一调度和指挥,结合针对性强的高技术手段实现对网络舆情的有效管理引导。
建设任务主要包括以下两个方面:
1.建立网上舆情管理综合操作平台。该平台整合舆情管理引导技术的所有功能,并实现下级舆情系统的数据接口。
2.建立支撑数据库。作为平时舆情处理工作的有效数据支撑,提供必要的舆情材料。
1.3国内外研究现状
近年来,西方发达国家信息网络技术和相关应用迅速发展,西化式的民主和自由的发展程度较为深刻,特别是西方国家市场运行模式和市场调节机制已经近日成熟阶段。所以,西方国家在治理网络舆情方面也希望通过市场监管和行业自律的方式实施网络管理。例如,加拿大政府实行针对网络违法信息按照法律制裁,针对恶意攻击性信息依靠用户和行业自律来解决具体问题[3]。在美国,一些社会团体以剥夺公民言论自由为理由,屡屡反对政府对网络舆论管理进行立法,并且得到了法院裁决支持。因此,美国在网络舆论管理方面与加拿大相似,除了非法内容受到法律制裁外,其他内容主要也需要通过加强行业自我规范和市场有效监督,采取行政和法律手段,以确保有效的自身管理规范和调节。例如1998年美国颁布了新《网络免税法》规定,凡是在网络自律方面取得突出成效的基础运营商均两年免征新税。在2000年,美国联邦调查局(FBI)与国家白领犯罪中心建立了针对网络欺骗的投诉中心。英国实行的则是立法与自律相结合的方式管理网络舆论,如果有人报警,政府才参与调查[4]。
或者是因为不同的文化传统,或者是因为市场调节的不成熟,或者是因为某些社会稳定和缺乏保护,一些亚洲国家与欠发达的国家,更多的限制公共网络管理的内容。早在1995年引进的商业法“电子通讯和信息传播伦理的国家主权”或有害的网上信息公开审查造成的损失。新加坡对违法信息,包括宣传色情暴力,极端政治等内容,发布者需要使用筛查。[5]
传播的信息和意见,快速的网络环境和多样化的互动是前所未有的。用户人物,事件,产品评价,应该及时分析,以有效控制的公众形象和公众舆
2
第一章 绪论
论向。该系统通过互联网搜索和挖掘等技术,采取自主抓取所设置的关键词的网页,经过有效汇聚、整合、梳理、加工,最终形成舆论的报表分析工具。网络舆情分析系统的工作原理:热议的话题,敏感话题识别,对象跟踪舆论,舆论趋势分析,事故分析,公共报警。
许多社区工具情绪分析[6],如,Sysomos社交媒体监测和分析,使用户研究中的任何主题的博客,社交网站,专注于社交媒体跟踪数据。 Back Type监控对话,使用户能够搜索,查找关键词网络的社区年底完成,“Live Journal的分析与Mood Views的一个重要的事件或现象,如气候变化引起的情绪碎片,使人们的焦虑水平增加的卡特里娜飓风,兴奋带来的全球媒体和新闻时间(哈利·波特新书发布会),恐怖袭击事件后的抑郁症和悲伤加剧的轰炸(伦敦)。此外,Twitter可以监控网上对话,以帮助媒体了解的营销人员和学者在运动中的重要人物。
1.4本文做的主要研究与工作
积极应对互联网舆情管理、分析、整理工作中难点和技术瓶颈,主要集中精力对致力于网络舆情分析平台开展研究,以提高对互联网舆情的管理能力和管理效率为基本点和落脚点,有效解决目前还存在的不完善问题。
在进一步深入实践工作了解的基础上,充分考虑互联网舆情管理工作的特点和应用要求,按照软件工程学软件开发模型的指导思路,及时开展了实践应用软件和管理信息系统的深入调研,确定建设目标和指导思想。
1.按照便于使用、便于操作,便于管理的原则,同时兼顾系统数据兼容、应用普及便捷、用户上手简单的理念开展研究设计工作。
2.设置有权限梯次的管理用户和使用用户,集中在该系统平台上实施统一管理,多点应用,具有较便捷的操作性,提高系统用户的统筹管理,充分健全完善系统资源与发布。
3.在设计上,尽量完善各个功能模块,提供人机交互良好和强大的窗口界面和功能,便于各类不同基础用户的使用。研究设计的系统功能主要是:热点问题、敏感主题的搜索,特定题目的跟进,走势分析,现实突发案事件整理分析等。
4.将XML设计成传输数据的基本格式,降低数据在应用标准统一上出现兼容问题,采用Web Service技术实现系统在其他平台上应用时引起的程序集成、兼容以及交换等问题。
5.积极引进并应用当前新型软件测试方法,确保软件功能、应用操作等实现预期设计的整体构想和要求,有效降低由于各种原因使前期设计与后期
3
第一章 绪论
实现脱节现象;同时基本保障了系统平台平稳运行时间和较好的扩展性。
本文是在设计和研究舆情分析系统以及在实践工作中撰写的总结和基本思路。此文共有五个部分,主要阐述了开发实践中的基本理念、出发点、实现技术以及应用操作方法。下面是对本分基本内容的简要介绍:第一章介绍了在当前互联网舆情高速发展和作用逐步显现的背景下,研究设计互联网舆情分析系统的重要考虑原因和必要性。第二章重点介绍了研究设计“互联网舆情分析系统”的整体考虑、研究思路方向、应用环境、基本工具实现技开发平台等。第三章重点撰写了该系统建设中所应用的技术和实现方法以及原理。第四章主要是对各个操作模块的功能和使用方法进行介绍。第五章主要是对完成此次设计后的总结以及对在系统设计中起到重要作用的导师及家人的致谢。并且初步考虑了研究工作需要进一步完善健全的部分方面,为进一步深入研究提高做好准备。
4
第二章 互联网舆情分析平台整体设计
第二章 互联网舆情分析平台整体设计
2.1总体构架
系统分为四个部分,第一部分为舆情发现模块,第二部分为舆情综合分析管理模块,第三部分为舆情管理模块,第四块为支撑库部分。
2.2系统工作环境
系统名称 互联网深度搜索模块 网眼论坛专搜系统 舆情 发现 互联网全网搜索模块(包含网聚系统) 辖区网站管理模块 舆情综合 分析研判 舆情综合分析 舆情简报 违法信息处置模块(包含密集阵系统) 舆情 管理 辖区网站管理模块 舆情引导模块(包含10个论坛,扩大需另收费) 舆情通报与有害信息处置(包含研判处置系统) 舆情 支撑库 索引 服务器 文件 服务器 舆情支撑库 存储海量数据 存储各子系统传输过来的数据文件 硬件配置 DellR710或同等档次服务器 DellR710或同等档次服务器 DellR710或同等档次服务器 根据规模(每200台IDC服务器对应一台后台服务器) DellR710或同等档次服务器 DellR710或同等档次服务器 DellR710或同等档次服务器 DellR710或同等档次服务器 DellR710或同等档次服务器 DellR710或同等档次服务器 DellR710或同等档次服务器 台数 1 X 1 X 1 1 1 1 1 1 1 5
第二章 互联网舆情分析平台整体设计
2.3设计原理
在对该项目进行需求分析和整体设计时,着力于采用技术的领先和务实求新的思想,统筹兼顾稳定、易操作、兼容、开放等问题,同时兼顾系统建设、基本设备配备、基础网络设施和维护成本、应用系统、网络系统的充分适应等因素,采用当前相对成熟技术的同时,也积极引入一些先进的理念和技术手段,以适应网络环境的高速发展。
主要设计理念:
统一化理念:为了便于开发和维护,本系统在设计时就注重统一化原则,坚持一体化设计、编写代码统一标准、硬件部署统一、各模块接口标准统一。
面向实际应用的理念: 系统在设计时对业务部门相关人员做了大量的需求分析,然后根据整理出的需求报告近一步细化系统各模块的设计,真正做到面向业务部门实际应用。
可靠性理念:本系统的部署运行环境复杂,因此在设计时可靠性是设计人员必须考虑的因素之一,为了保证系统的可靠运行,系统在设计和部署时都采用了一定的冗余措施来保证系统地正常运行。
先进性理念:系统在设计之初就立足于系统要长期使用 ,为了适应网络技术的高速发展,系统在设计时采用一些先进的技术,以保证满足未来网络技术发展的需求。
易用性理念:这是评价一个系统好坏的重要标准之一,为了满足用户对于系统操作尽量简单的要求,本系统提供大量的图形界面,以一个良好的人机接口实现系统和用户之间的交流。
易扩展性理念:为了实现用户对于系统部署和升级的便利性,系统一方面用统一化的模块实现系统的扩展,另一方面预留了系统接口便于今后系统的模块升级等操作。
2.4系统模块设计 2.4.1舆情发现
舆情发现模块主要是针对网络舆情进行搜索发现,针对交互式网站、WAP网站等可能引发舆情的地方进行重点的实时搜索。 (1)互联网舆情早晚报
针对本地论坛、博客和媒体等交互性栏目信息的分析,结合网上热议内容信
6
第二章 互联网舆情分析平台整体设计
息,违法信息发展趋势等有效准确分析计算出当前舆情热点与潜力舆情热点。
系统特点
网上实时搜索,及时掌握互联网舆情 关键词库及分类可进行维护,可本地化设置 结合互联网舆情,智能分析,实时预警 对网络舆情事件进行风险评估,提供决策依据
舆情分析,列出各分类舆情的发展趋势、分布情况及增长情况 (2)互联网深度搜索系统
该系统的功能为特定范围搜索:主要工作原理是根据用户设定的IP地址和域名范围进行精度逐一搜索。根据设置将网站内所有信息全部抓取,内容全面详细。
系统特点
采用多台搜索机器多进程同时进行搜索 搜索效率大幅提高,可支持上千个论坛同时搜索
同步任务分配:采用先到先取的原则,精确到网站级别的分配 故障智能排除:某台搜索机器故障,不会引起任务的重新分配 设备智能增添:增加搜索机器,不会引起现有任务的重新分配 系统结构
图2-1系统结构
(3)网眼论坛专搜系统
网眼论坛专搜系统是一款专门针对论坛信息搜索的软件。包含论坛信息获
7
第二章 互联网舆情分析平台整体设计
取,舆情走势分析,论坛相关信息统计等,可实现对舆情的初步获取和基本情况分析。针对辖区内大型交互式网站论坛等,对其新帖热帖进行实时搜索。网眼论坛专搜系统有强大的插件库,可以针对互联网中所有的论坛进行自动判断,和有效内容抓取。同时具有较强的扩展功能,能够较大程度的适应用户的各种舆情搜索的需求。
系统特点
最简单的任务设置,域名自动匹配论坛类型。根据域名URL,自动匹配其插件类型。
最快速的舆情掌控,特定的内部机制,保证以最少资源来快速获取目标内容,被搜索论坛在其发帖后1-15分钟内便可获取其搜索信息。
最丰富的舆情掌控,每个帖子的发帖用户名,发帖时间等。
最准确的舆情搜索,完全过滤了网页噪音,只针对回复内容与主题进行提醒,并且还可以针对某个用户进行搜索,大大扩大了舆情搜索的范围。由于独特的内部机制,避免的重复抓帖以及漏帖的情况,大大加强其准确性。
最有效的舆情预警,以1小时/当天/24小时等多种时间段划分,准确分析计算出当前舆情热点与潜力舆情热点。
最便捷的工作方式,任务,策略等直接下发,实时多窗口任务搜索,提高了操作用户的工作效率。
最全面的舆情统计,从论坛、时间段、用户等多个角度进行统计,全面展示了被搜索对象的各方面情况,方便用户做出反应与决策。
(4)互联网信息全网搜索系统
即元搜索技术,实现对各大搜索引擎海量数据的再搜索和分析,并根据关键字进行过滤分析。
系统特点
聚合范围广:百度、中搜、谷歌、搜狗、奇虎、爱问、雅虎、网易、帖易、搜搜、大旗、TOM等十余个互联网公共搜索引擎;
网页快照:保留全部搜索引擎返回结果的快照摘要,方便查看;
结果验证:验证结果集中每个URL的原始网页情况,包括抓取页面内容; 关键词库:提供设定关键词库功能,舆情关注系统在后台自动对库中的关键词进行周期性检索,从而达到长期关注的功能;
验证功能:待搜索验证结束后,可以对关键词、网页是否存在进行验证,并能对验证结果进一步进行统计;
分析统计:除了对关键字、网页存在的情况进行统计之外,还能进行关键词的地域分布、网站分布情况的分析,以及关键词的时间趋势分析。通过统计分析
8
第二章 互联网舆情分析平台整体设计
功能,更全面掌握互联网各种信息的分布情况;
域名提取:提取搜索结果中的域名,并提取顶级域名进行与备案数据库进行比对。
系统结构
图2-2系统结构
(5)辖区网站管理系统
通过在辖区内网站服务器上安装客户端的方式达到对辖区内网站的全面管理。
系统特点
全面、详尽地掌握管辖范围内各网站基本情况(所有域名信息); 快速、自动处置网站中的违法有害信息; 准确、高效的策略制定; 实时、完全的网站搜索;
9
第二章 互联网舆情分析平台整体设计
系统结构
图2-3系统结构
2.4.2舆情综合分析研判
舆情综合分析
对网上发布违法有害舆情的发布、传播、回应等情况进行综合分析,重点进行甄别,预判舆情趋势,分析主要观点,发现网上违法人员等。
舆情简报
根据舆情分析的结果对舆情信息进行总结汇报并生成相应的图表等。 主要设计思路如下: 智能扩线
对特定线索,智能模拟搜索扩线思路,在海量数据中挖掘线索。1、关联网络IP地址;2、帐号关联,发现用户名相同或者相近的其他帐号;3、时间关联,发现同一时间范围内的网络行为之间的联系规律;4、时空关联,关联在不同上网地点和不同的时间段的日志数据,自动分析虚拟身份。5、组合关联,上述关联方法自动组合,在海量数据中关联线索。
溯源分析
10
第二章 互联网舆情分析平台整体设计
1、对违法有害信息分析分布情况; 2、对违法有害信息分析传播途径;
3、对违法有害信息分析来源,确定原始信息制作者。 目标网站分析
1、分析所有访问网站的IP地址,时间和地区; 2、分析最频繁访问者; 3、分析网站发展趋势; 4、分析访问规律;
5、确定网站维护人、管理员; 6、分析网站注册会员数量。 目标行为分析
1、分析目标上网地点、上网时间和上网方式; 2、分析网络行为规律;
3、分析目标关注的信息内容,预测犯罪趋势。 行为挖掘
在对设定的目标网络行为进行分析后,找出行为特征,从海量数据中现未知的违法犯罪嫌疑对象。此外,还应能够对海量数据进行宏观分析,给出某一类网络特征用户的网上行为规律。
1、分析已知淫秽、赌博等网站的访问规律、网络行为特点,找到新的目标网站;
2、根据已知特定对象的网络行为特点,分析新的嫌疑对象;
3、对使用加密代理或PGP进行数据加密的上网人员行为规律进行分析挖掘,发现嫌疑对象。
2.4.3舆情管理
舆情管理模块主要是指对监测到的舆情信息进行管理,并对一些危害性较大的言论进行处置或者引导,面对监测到的各种舆情信息都能够维护网上合法、正确、积极的舆论环境,防止违法有害信息蔓延,造成社会恐慌。 (1)舆情通报与违法信息处置
该模块的主要功能是对各种不良的舆情信息做到及时处置,并对其他涉及其他地区的各种舆情信息做到有效第一时间通报。
本地有害信息研判处置模块充分发挥现有舆情支撑库“基础数据库”的作用,实现信息的自动比对落地;再通过分析作业,把单纯的“违法有害信息分析处置”进化为“网络信息分析处置”。 通过本地有害信息模块,向各网站安全员发现处
11
第二章 互联网舆情分析平台整体设计
置指令,安全员取证、处置、并做好日志,将日志上传,并反馈处置结果。
通过安全员协管的方式,建立完善协作的制,延伸管理工作触角。构筑从与网络安全员之间的协作渠道。提高了网络违法有害信息的分析、处置、协办的能力。通过落实所有网络运营商和大小网站、网络用户的报备机制和落实运营商和安全员的考评机制,强化违法有害信息处置的力度。
差错控制和运行监测
当WebService调用发生错误时,表示对方没有收到指令或回调请求,因此,通信发起方要定时重发直至收到正常应答。
每2小时系统自动检测接口工作情况,检测精度到指令级,发现故障及时报警。
安全保障
信息通报处置平台接口,双方之间的连接既要保证安全性,又要考虑远程调用的效率,安全控制如下:
各通讯接口之间的Web Service服务器均不设置域名,只通过IP地址进行访问,访问端口设置为非标准端口;
接口之间传输的所有数据加密传输;
双方互相捆绑IP地址,阻断其他IP、其他端口的连接。
Web Service服务器系统只提供Web服务接口,不提供用户界面。 RTX协同办公
在通报处置中引用协同办公。它与RTX无缝全面整合,用户登录腾讯通RTX客户端。各种待办和待处置的信息通过RTX的消息机制进行提醒,点击提醒链接就可以直接处理该事项。如接收用户外出,则系统自动通过短信网关将该待办信息发送到该用户的手机上。
系统采用分布式两级管理模式,分别为:一级控制管理中心和二级控制管理中心。一级控制管理中心处于整个系统的最上级,直接控制和管理二级控制管理中心,负责给二级控制管理中心发送指令,接收二级控制管理中心上报的信息,并定期对二级控制管理中心上报的数据进行备份统计。
一级控制管理中心与二级控制管理中心之间的通讯以及数据传输通过webservice技术来实现,从而使得系统能适应分布式的要求,同时具有系统可扩展性,和灵活性,维护性。
对一级控制管理中心与二级控制管理中心之间传递的数据都经过加密进行传输,以提高系统的安全性。
二级控制管理中心具有代理搜索的功能,它会定时的搜索并且验证各种类型的代理服务器,主要包括Http、Ftp、Telnet、Socks4和Socks5等类型的代理服
12
第二章 互联网舆情分析平台整体设计
务器,搜索到代理服务器经过验证后二级控制管理中心就将信息存储在其数据库中,网吧客户端可以通过数据库中的代理服务器对目标网站进行处置,以实现隐蔽来源的目的。
当二级控制管理中心收到一级控制管理中心下达的封堵指令或者自己想要通过其管理的网吧客户端对目标机器进行处置的时候,它就会按照用户的设置将目标机器的IP、目标机器的端口目标机器的时间长度、采用何种方式处置目标机器以及代理服务器等各种参数信息随机下发给各个网吧客户端。
二级控制管理中心选择参与策略也是可以灵活设置的。 代理搜索模块
图2-4代理搜索功能图
如上图所示,二级控制管理中心的代理搜索程序的主要功能包括搜索代理、验证代理和信息入库。
二级控制管理中心的代理搜索程序,会定时的主动搜索和查找互联网上的各种类型的代理服务器,主要包括Http、Ftp、Telnet、Socks4和Socks5的代理服务器。代理搜索程序发现这些代理服务器后会主动对这些代理服务器的可用性进行验证,经过验证以后就将这些代理服务器的基本信息加入数据库中并可以直接使用。
控制管理
整个系统我们采用分级管理机制:一级控制管理中心和二级控制管理中心。 一级控制管理中心:可以调用所有二级控制管理中心的网吧客户端,对目标机器进行攻击,同时可以查看所有二级控制管理中心网吧客户端资源情况和状态。
二级控制管理中心:可以调用其下属的网吧客户端资源,对目标机器进行攻击,同时可以查看客户端资源情况和状态。
13
第二章 互联网舆情分析平台整体设计
控制管理功能主要包含以下几个部分:如图:
图2-5控制管理功能图
系统管理
系统管理包括参数设置、代理搜索设置、帐号管理。
参数设置模块设置二级管理中心的接口参数设置,以实现对二级控制管理中心的接口调用功能。
代理搜索设置模块设置搜索代理服务器的网站,代理搜索程序根据设置的网站去搜索代理服务器列表,存入二级控制管理中心的数据库中。
帐号使用分权限管理,分管理员和普通用户两个级别,管理员具有系统设置和帐号管理的功能,普通用户只具备系统的使用功能。
系统日志
系统日志记录系统的运行情况,用户的登录日志和操作日志。 升级
二级控制管理中心可以随时更新客户端机器的最新版本。 (2)舆情引导系统
主要是指对系统监测到的各种违法有害舆情信息,特别是对民众误导性较高的各种不良信息,做到及时的引导和处置。
2.4.4舆情支撑库
包括网站信息数据库、违法人员数据库、舆材库、舆情预案库等。
14
第三章 舆情分析系统实现技术
第三章 舆情分析系统实现技术
3.1意见挖掘技术
互联网舆情分析主要是采取“意见挖掘”,也称“情感计算”,是数字技术时代时期“社会计算”[7]的具体表现形式。意见挖掘承担的主要工作是[8]: 发表意见者识别(Holder Identification)、叙述选择(Claim Selection) 、情感分析(Sentiment Analysis)、主题提取(Topic Extraction)等。意见挖掘是一项融合数学、统计等多门学科领域高度综合的研究范畴,与自然语言处理、文字发现、概率理论、信息提取、本体学、信息搜索、统计数据分析、语料库语言学、可视化技术等都有较大的内在关联性。
意见挖掘是建立在文本和数据挖掘基础上的一项技术,与它们不同的是它对文本的理解能力更强,与文本挖掘相比,它与人工智能的目标更为接近,具备更加出色的语言理解能力特色,可以发现并找出更深层次的表象或隐含性的表达中所包含的意图倾向。意见挖掘技术已经在许多现实生活领域中得到应用,涉及了股市走向、民意调查、民主选举甚至国家安全等多个方面。目前,针对一些特定领域,已经研制出了一些特定的网络舆情分析应用程序。诸如产品褒贬性评论的系统ReviewSee[9],汽车评价系统[10],处理网络用户意见反馈的Opinion Observer系统[11],The TREC task blog系统[12], OpinionFinder主观分析。[13]
3.2内容分级法
内容分级法:这种方法是依据已经被广泛运用的电影分级制度,按照内容,通过制定一定的标准,区分成不同的类别,并对网页的的级别进行标记,在使用时,系统会与后台筛查系统进行比对,决定是否对相关内容予以过滤处置。例如英国互联网检查基金使用的内容选择平台,就可以根据侮辱性言语、极端暴力、网络诈骗、种族主义、淫秽色请、裸露等信息和可能具有潜在性危害的语言、行动或者是成人性质的内容进行分类定级,逐一进行标记。
15
第三章 舆情分析系统实现技术
3.3动态跟踪技术
动态跟踪技术:通过查看服务器的日志信息或者利用相应的搜索屏蔽软件,查看使用者的网上行为信息,包括时间节点、使用时长、网站名称、网络流量、快照、关键语句信息、输入的文本信息、传输的文件内容等。这项技术不具备过滤功能,但是能够有效的掌握使用者网上行为,留下网络使用情况,为进一步提升改进提供依据。可以进行流量控制,限制网络浏览和上传或者是下载的速度。
3.4动态文本分析法
动态文本分析法:针对动态文本进行自动碰撞和耦合程度来确定信息内容的危害等级。一是热点话题、敏感内容的辨别,能够依靠从网上抓取的新闻来源的可信度、网评数量、时间连续性等,确定在某个时间区间内的网络热点。通过关键词设置和言语内容分析,筛查出敏感主题。二是倾向性分析,针对不同的话题、文章表达的思想、倾向进行梳理分析与汇总统计。三是主题追踪,可以碰撞比对新发的帖文是否与现有已经存在的主题内容趋近或者雷同。四是可以对不同类别的主题、倾向自动编辑形成摘要。五是趋势分析,利用单位时间段固定网上空间,对网民关注情况进行分析。六是突发事件分析,根据现实发生的案事件对时间、地点进行综合研判,了解事件的发展脉络并判断推测未来发展趋势。七是报警功能系统,及时发现突发性的事件、网上敏感内容,并发出警告。八是统计功能,在对各类舆情进行分析,并通过后台处理后,生成数据库,再从数据库内形成报告,使用者可以进行查阅,具备快速查找功能,可以筛选特定的话题进行查找,根据信息内容为下一步工作方案提供参考。
3.5文本聚类技术 3.5.1文本聚类定义
数据对象集合后形成簇,不同簇中的对象是相互不同的,一个簇中的不同对象是可以类似的。聚类就是将相似对象的集合进行规整。文本聚类是自动甄别、有机归档的一种学习模式,类是通过一些文本发现的特定组,类内的内容与其他内容对比更加具有相似性。文本聚类根据文档的某些关联或相关性对文档集合开展进一步的组织、摘要和导航,便于使用者查找需要的内容。文本聚类法是用向量模型的方式将各类抓取的信息向高维空间向量的转化,而后进行聚类。其中,汉语言的文档还会通过特定的技术进行分词,并向向量转化,利用特征抽取转化
16
第三章 舆情分析系统实现技术
为样本矩阵,而后完成聚类。通过此种方法,往往是对文档集合的一个分类,通过一个特定结构(诸如AHC算法)或二维图示(诸如SOM神经网络)表现出来。
3.5.2文本聚类算法
聚类分析得计算方式有很多,这些计算方式有可能重叠,导致一种算法可能包含多个分类的特点,无法导出一个明了简单的分类。当前在数据发掘方面,聚类主要通过划分、模型、基于密度、基于网格等方法。文本自动聚类类似于数据挖掘中的方法。主要有层次凝聚、平面划分、简单贝叶斯聚类、K-最近邻参照聚类、分级聚类以及基于概念的等文本聚类法 [22]。
17
第四章 舆情分析系统模块功能分析与实现
第四章 舆情分析系统模块功能分析与实现
4.1舆情发现
4.1.1 互联网舆情早晚报
系统功能
本地舆情早(晚)报:
图4-1早(晚)报界面
本地舆情早(晚)报分析
图4-2早(晚)报分析
18
第四章 舆情分析系统模块功能分析与实现
各论坛舆情热点的统计:
图4-3热点统计
4.1.2 互联网深度搜索系统
系统功能
信息站点自动搜索
根据设定的辖区所属的网络地址段和虚拟主机(虚拟主机主要处理在辖区内各ISP主机托管的网站搜索),系统查找该范围内的所有计算机提供生效的WWW服务。并将提供有效WWW服务的站点相关信息,备份到系统的监控信息站点地址库中,供下一步网页监控使用。(搜索系统应能根据用户自行定义的端口:80、8080、81等任意端口WWW服务的扫描,不局限于对传统80端口的扫描)。
系统会自动下载发现的网站首页,以提供快速地内容审查和性质判断。 在对IP地址段和虚拟主机进行设定后,系统开始工作,全面获取设定范围内的所有目标,并根据反馈回来的应答信息分析站点是否提供有效的WWW服务。并将提供有效WWW服务的站点相关信息,备份到系统的关注信息站点地址库中,供“网页信息搜索”和“BBS信息搜索”使用。
信息站点搜索模块搜索辖区提供WWW服务的主机,可以自动执行的,无须人工干预。只要在模块的自动任务设定中,设定好启动、结束的时间(系统将启动、结束时间定义为星期),每次、主机系统时间等于启动时间,信息站点搜索进程自行启动。另外,可以手工搜索指定IP地址范围提供web服务的主机,IP范围可以不连续。将搜索出来的站点及其IP地址显示在结果列表框内,这时
19
第四章 舆情分析系统模块功能分析与实现
还可以开启网页备份功能,将搜索出来的所有站点的网页下载备份到系统数据库中。
本功能模块配合网站备案系统,以IP地址为依据,通过调用备案系统中的相关信息,发现尚未备案的ICP或ISP。并通知管理人员,以便及时对这些站点进行备案。
图4-4备案信息
网页信息搜索
主要用于实时关注互联网上各站点含有违法有害关键字的网页信息进行搜索,及时发现,及时处理。自动或手工备份系统的信息站点地址库中网站的网页。备份的网页信息存储到关注网页数据库中。对备份的网页信息设置多种查询、统计、处理功能。
“网页信息搜索”可以自动执行的,无须人工干预。只要在模块的自动任务设定中,设定好启动、结束的时间(系统将启动、结束时间定义为星期),每次主机系统时间等于启动时间,网页信息侦察进程自行启动。将关注信息站点地址库中网站上的网页,按照多种网页信息备份策略,备份到关注网页数据库中。手工备份策略可以分为:按层数备份网站、按页数备份网站、按排除关键字备份网站。并提供各种方式的查询(包含’and’、‘or’、‘not’、‘(‘、’)’的
20
第四章 舆情分析系统模块功能分析与实现
组合逻辑关系以及“_”、“%”等通配符)、统计和处理。系统支持信息简体和繁体同时查询。系统提供各种报表打印功能。
系统提供“实时表”、“归档表”,分别存储最新下载的网页信息、对有问题的站点进行存储。采用增量备份的原则备份网页。
发现与设定关键字匹配的网页内容,系统会自动发出预警信息,同时该网页信息以特殊标识符号提示。预警主要包括:显示屏显示、电子邮件、手机短信等。
图4-5关键字信息
BBS网站信息搜索
主要用于实时关注互联网上利用电子公告发布含有违法有害关键字的信息进行搜索,及时发现,及时处理。系统循环搜索BBS地址库中利用电子公告发布的信息。备份 的BBS信息存储到监控BBS数据库中。对备份的BBS信息设置多种查询、统计、处理功能。
“BBS信息搜索”采用自动执行的,无须人工干预。只要在模块的参数设定中,设定好每次运行间隔时间,BBS信息搜索进程自行启动。将BBS地址库中指定路径下最新发布的帖子,备份到监控BBS数据库中。并提供各种方式的查询(包含‘and’、‘or’、‘not’、‘(’、‘)’的组合逻辑关系以及“_”、“%”等通配符)、统计和处理。系统支持信息简体和繁体同时查询。
21
第四章 舆情分析系统模块功能分析与实现
“BBS网站信息搜索”的功能与原理和“网页信息搜索”基本一致,但关注对象是更为活跃,更新更快,信息量更大的信息站点。为了保证信息更新频率、模块采用循环自动运行模式。可十分迅速、及时地获知受关注的BBS站点的最新信息。因此BBS的管理人员就无须24小时值班人工值守,系统可设定一旦发现特别所关注和违法有害等重要信息不但立即备份下来,会自动触发报告信息,同时该条信息以特殊标识符号提示。报告方式包括:屏幕提示、电子邮件、手机短信等。
图4-6 BBS信息
境内外舆情信息搜索
主要用于实时关注国内外主要新闻媒体发表的焦点信息。
“境内外舆情信息搜集”搜索范围:国内八大新闻论坛、国内八大新闻网站、境外网站、重要新闻网站等四组搜索组。
其中国内八大新闻论坛缺省设置包括:光明网、千龙网、新华网、人民网等。 国内八大新闻网站缺省设置包括:光明网、千龙网、人民网、新浪网、搜狐、新闻中心等国内著名的新闻网站。
重要新闻网站缺省设置包括:北方网、凤凰网等。
系统会实时、自动采集以上搜索范围登载、转载的新闻信息。采用了先进的
22
第四章 舆情分析系统模块功能分析与实现
文本分类技术和相似度文本技术,可以根据新闻信息的相关性,对不同网站登载,不同新闻标题,但内容相同或相近信息进行自动汇总。最终,系统自动获得被转载和刊登最多的舆情焦点。
采用聚类技术对采集的舆情信息进行聚类处理,提供直观的信息发展趋势图和信息热点岛图。
图4-7信息热点
多媒体信息搜索
主要用于搜索需要重点关注网站的网页,分析其中包含的图片等多媒体链进行分析,通过本地下载,将多媒体信息保存到本地,以便查看。可以根据系统提供的图片说明文字,对图片进行检索。
23
第四章 舆情分析系统模块功能分析与实现
图4-8多媒体信息
网名实名制管理
该功能主要是在搜索BBS网站信息的同时,对站点用户虚拟身份综合甄别后保存到数据库中。通过搜索、甄别、统计等处理,能够得到辖区范围内发贴的活跃情况、网名注册、发贴主要要义、发贴量等统计信息,以图表的形式直观生成。能够统计各个论坛的发贴量等信息,并形成图表报告。
图4-9网络实名
24
第四章 舆情分析系统模块功能分析与实现
服务信息追踪
该模块提供了指定区域内网络应用安全的强大功能,可实时获取重点关注范围内的各种系统信息,通过这些重要数据的分析,可发现系统是否存在的安全漏洞及感染病毒的可能性,并由内置的小型专家系统给出补救建议。
获得主机信息。输入某一IP地址或一个有效的机器名进行查询。通过主机即可获取该服务器的系统信息。系统信息包括:
1. 是否有启动WWW服务,使用了什么版本的WWW服务器,其网页的第一页的标题是什么;
2. 是否有启动FTP服务,并且判断是否支持匿名登录; 3. 是否有启动远程登录服务,并且判断其是否支持BBS登录;
4. 是否启动了电子邮件服务,以及使用的电子邮件服务器软件的版本信息; 5. 是否启动了POP3服务,以及服务器软件信息;
6. 判断是否为一NT服务器或Windows系列工作站,获取其基于Windows的名称,以及是否共享其硬盘资源和打印机资源给所有用户;
7. 判断其是否支持SNMP(简单网络管理协议),并获取该机器的操作系统的版本信息、开机时间等;
8. 判断其是否支持Oracle服务,是否使用系统缺省密码;
9. 内置专家系统,针对隐含的安全漏洞与病毒感染情况发出各种不同级别警告,并提供补救措施与解决方案;
10. 检查其是否被BO、Netbus、Netspy等黑客病毒的攻击,若有将给出驻留于该机的BO类黑客病毒的版本信息以及被驻留的机器的操作系统信息。
11.是否使用PCANYWHERE远程管理软件 12.是否安装常见游戏服务器
25
第四章 舆情分析系统模块功能分析与实现
图4-10信息追踪
报警处置中心
主要提供“上下级接口”和 “报警处置接口”用上下级系统之间的联动,可以通过接口系统实现“关键字策略的下发与同步”、“信息站点设置参数的下发与同步”、“规则下发与触发上传”。
互联网站自动搜索。系统能对境内外网站进行技术搜索,获取相关信息,及时掌握舆情动态。
调用系统的探针进行舆情搜集。系统能调用报警处置系统的探针进行信息搜集,掌握舆情动态。
关键字匹对功能。系统搜索下来的内容具有关键字检索功能。
各类型帖子库的建立如各种观点类型正反两面的帖子收集,帖子的自动分类整理。
查询统计。
本系统是利用绿擎引擎程序从因特网上下载网页的。绿擎的组成子模块: 获取网站URL模块(包括参数); 掌握下载进度模块;
管理操作(继续、暂停、停止)模块; 控制URL队列模块; 分析URL模块;
26
第四章 舆情分析系统模块功能分析与实现
下载网站网页。
用户设置或发送任务,实质是将任务送往数据库。绿擎模块从数据库任务列表里获取任务(任务包括自动和手工),一旦符合运行条件,引擎马上启动开始工作。所有的任务都是将数据库作为中介质来传递的。
绿擎只下载最新的内容,对已经下载过的不再下载,可以指定需要下载的网站和网站的频道,程序自动提取所需的要素(标题、作者、时间、内容、原始URL等)。
引擎则是使用高速的分布式爬行器(Crawler)采取定时地搜索互联网页,将搜取得信息存储到存储服务器(Store Server)中。
存储服务器将这些网页存入数据库Repository中。Repository获得了每个网页的完全Html代码后,对其压缩后的网页及URL进行分析,记录下网页长度、URL、URL长度和网页内容,并赋予每个网页一个文档号(docID)。
系统采用分布式结构:
图4-11全文检索图
由索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),建立顺排Doc Index(用网页文档ID号排序)和倒排Lexicon(用关键词排序)两种索引。
最后用户输入关键字查询时,系统通过查关键字排序表找到对应网页ID,再通过网页排序表获得网页其他信息如域名,发布时间等。我们的全文检索支持
27
第四章 舆情分析系统模块功能分析与实现
关键词模糊匹配,无论是同音词、相关词,甚至不完整或是不完全匹的情况,都可被有效发现,避免遗漏违规情况。
4.1.3 网眼论坛专搜系统
系统功能 用户设置模块
用户基本信息包括:用户名,密码(系统登录)权限,角色(划分用户责任模块,限定可执行操作)用户状态等。
功能详细说明:
图4-12 用户设置模块
任务设置模块
基本任务设置:用户可添加辖区内或和辖区相关的BBS站点,设定任务显示名称名称,入口地址,首次执行的限定日期,与匹配类型即可。默认为自动运行任务,会自动提取执行。
高级任务设置:指定任务的复杂信息,包括:任务的搜索间隔时间,任务搜索中需要过滤的信息,任务的代理信息,cookies信息,最大执行线程数
28
第四章 舆情分析系统模块功能分析与实现
图4-13 任务设置模块
有害信息设置策略
基本内容:名称,内容,所属类别。 范围设置:设置所包含的任务范围 上级可对下级下发任务
图4-14 策略有害信息设置
29
第四章 舆情分析系统模块功能分析与实现
重点任务浏览模式
用户可以自定义需要查看的日常使用或重点指定的任务。
进入本模式后,页面可以显示若干个分屏工作窗口,对应不同的任务关注信息,窗口会进行实时更新,并提示相关信息数量。
本模式用户可以同时关注多个任务,实时提醒会帮助用户更方便更快捷的掌握当前任务情况。
每块显示10条信息,显示分类信息数量,信息按照最后更新日期,(报警>未读>已读)优先级排序,有直接的任务处置工具栏。显示方式可由用户自定义。点击主题后弹出新窗口显示回复(时间顺序)。
图4-15重点任务浏览模式
专项信息浏览模式
关注信息在类型上划分为:未读帖,热帖,已查看帖,已忽略帖,全部帖等。 在本模式中,用户可以在上述类型中自由切换,查看单个类型的信息,并可以通过一系列查询条件的设置,更加精确的定义自己需要查看的资源。
左侧树形为专项类型,右侧与全任务浏览相同,条件中可以指定查看任务。
30
第四章 舆情分析系统模块功能分析与实现
图4-16专项信息浏览模式
热点信息搜索:针对主题,回复内容的全文检索,列出所有获取内容
图4-17 热点信息搜索
31
第四章 舆情分析系统模块功能分析与实现
整站搜索
利用索引数据库对整站进行查询
图4-18 整站搜索
归档搜索
对归档数据的检索查看
图4-19 归档搜索
32
第四章 舆情分析系统模块功能分析与实现
1小时/4小时/24小时/天/周/月 关注模式
分别以 1小时/4小时/24小时/天/周/月 的差值信息进行查找
可以设置自定义的排序方式,尽量准备的提取出舆情热点
图4-20搜索模式
操作说明
整个信息关注模块中,除了只查看回复的视图外,其他所有都是以帖子为单位来显示信息的。用户可以在视图中对帖子进行相关操作,或者点击单个帖子察看所有回复,并在该页面中对帖子或回复进行各种处理操作。帖子的信息会以颜色或图标的形式显著的标示出来。
图4-21 回复信息
33
第四章 舆情分析系统模块功能分析与实现
查看单个主题,以弹出窗口形式展现,所有回复时间顺序排列,第一帖特殊形式展现
图4-22 时间顺序排列
论坛新贴统计
图4-23 新帖统计
34
第四章 舆情分析系统模块功能分析与实现
24小时点击趋势图分析
图4-24 趋势图
4.1.4 互联网信息全网搜索系统
系统功能 系统界面
A.输入想要搜索的关键词,点击搜索即可;
图4-25系统界面
B. 在下面可以指定网站、搜索时间、搜索范围、验证模式、搜索内容; 任务列表
列表提供任务开始时间、结束时间、各个搜索引擎的搜索情况(单位为
35
第四章 舆情分析系统模块功能分析与实现
页)、任务状态等;
图4-26任务列表
搜索情况统计
A.统计选项可根据关键词、页面是否存在、是否包含关键词、是否本地、首次搜索时间段及最后验证时间段进行搜索结果统计;
图4-27搜索情况统计
B.统计结果提供页面标题、来源、IP地址、最后验证时间、页面是否存在、关键字是否存在、文章摘要、网页快照、ICP备案信息;
36
第四章 舆情分析系统模块功能分析与实现
图4-28备案信息
C.统计类型有文字统计、地域分布图表、网站分布图表、时间趋势图表、网站域名提取、网站备案信息;
图4-29统计类型
37
第四章 舆情分析系统模块功能分析与实现
各个图表均提供柱状图、饼状图、表格:
图4-30地域分布柱状图
图4-31地域分布饼状图
38
第四章 舆情分析系统模块功能分析与实现
图4-32地域分布表格图
图4-33网站分布柱状图
39
第四章 舆情分析系统模块功能分析与实现
图4-34网站分布饼状图
图4-35关键词时间趋势图
图4-36网站分布表格
40
第四章 舆情分析系统模块功能分析与实现
网站域名提取可以选择域名类型及是否本地:
图4-37网站域名提取
网站备案信息可以选择是否备案及是否本地:
图4-38网站备案信息
本地IP设置
选择本地所在区域,也可以自定义区域及IP段;
图4-39本地IP设置
41
第四章 舆情分析系统模块功能分析与实现
策略管理
在策略管理中,可以修改已经存在的策略:
图4-40 策略管理
也可以进行策略增加 系统设置
设置系统搜索过期时间、记录保存时间、搜索时间、搜索范围、系统验证模式;
图4-41 系统设置
42
第四章 舆情分析系统模块功能分析与实现
用户管理可以进行用户的增加、删除、修改;
图4-42用户管理
4.1.5 辖区网站管理
1、系统功能 基本信息
系统主界面显示的内容就是系统的各项基本信息,包括IDC信息(运营商数量、服务器数量及在线情况),网站域名信息(网站,域名数量及关注情况),虚拟身份信息(虚拟身份数量,及相应的登陆、发帖日志等),其他信息(过滤信息,管理人员操作信息)
运营商信息
该模块显示的是运营商的一些基本信息,包括运营商名称,地址,服务器数量,网站数量,联系人,联系电话。(红色部分文字可由网监或运营商自行修改,以便登记最新信息;绿色部分文字用于查看该运营商的服务器和网站数量信息。)
43
第四章 舆情分析系统模块功能分析与实现
图4-43 运营商基本信息
修改基本信息方法:单击可修改部分,弹出对话框,即可进行修改
图4-44 修改基本信息对话框
服务器信息
该模块显示的是运营商服务器的一些基本信息,包括服务器IP,运营商名称,网站和域名数量,IIS版本,操作系统类型,服务器在线情况,最近在线时间,关注状态等。
44
第四章 舆情分析系统模块功能分析与实现
图4-45 服务器基本信息
修改服务器关注状态方法:单击服务器IP中的IP,弹出修改对话框,即可进行服务器关注状态的修改。
注:正常运行指仅返回服务器状态,不进行关注;关注指对其进行下发指令,回传服务器网站数据等。关闭指关闭其IIS,在紧急情况下可对服务器进行关停整顿。(网站同此)
图4-46 服务器监控状态修改
45
第四章 舆情分析系统模块功能分析与实现
单击“网站数量”可以查看该服务器上的所有网站信息,域名,首页等。
图4-47 某服务器上的所有网站信息
单击某个域名,可以对网站的关注状态进行修改,方法同服务器状态修改。 单击网站名称,可以修改网站名称。
图4-48修改网站名称
网站信息
该模块显示的是运营商服务器上网站的一些基本信息,包括顶级域名,网站名称,所有域名,关注状态等。
46
第四章 舆情分析系统模块功能分析与实现
图4-49 网站基本信息
单击网站顶级域名可以修改单个站点的关注状态,方法与服务器关注状态修改相同。单击网站名称可以修改该网站名称。
主动搜索
该模块主要是用于获取网站首页摘要信息,并可通过设置关键词对网站类别进行分类。
图4-50 主动搜索
47
第四章 舆情分析系统模块功能分析与实现
单击左树的设置关键词,可跳转到相应的设置页面
图4-51 设置主动搜索关键词
单击右上角
按钮,弹出添加对话框。
图4-52 添加新网站类别
48
第四章 舆情分析系统模块功能分析与实现
添加的类别可用于网站首页自动分类,单击左树对应关键词即可进行该类网站的查找。
图4-53 单击可进行此类站点首页信息包含该关键词的查找
过滤信息
该模块显示的信息就是在后面介绍的策略定制中设置的关键词所命中的帖子完整信息。
图4-54 过滤信息
页面浏览:用户浏览页面的URL地址。(帖子URL地址确定) 页面发帖:用户发帖后的跳转。(帖子URL地址不确定)
目前提供3种显示方式:按关键词显示,按域名显示,传统方式(全部逐条显示,不分类)。用户可进行按照显示方式,信息类型,处置执行情况等进行查询。
显示
单击“未处置”【查看】,跳转到如下:
49
第四章 舆情分析系统模块功能分析与实现
图4-55 过滤信息列表(按照关键词显示)
点开“+”,展开:
图4-56 显示的摘要和可选的处理方式
当显示数量多于20条时,可以单击中信息的全部显示。
处置
可单击摘要显示出该帖子的完整内容,并进行人为判断是否为违法信息。若为违法信息,可选择一种处理方式,即可提交。
50
进行该关键词命
第四章 舆情分析系统模块功能分析与实现
图4-57 过滤信息具体内容
可进行单条处理,当出现大量类似的帖子时,也可用全选的方式进行提交,提高工作效率。
运营商处理
当操作人员提交处理后,就会在相应的处理方式中出现:
图4-58 过滤信息执行情况
单击【查看】,即可查看到运营商的处理状态。
图4-59 过滤信息处理情况
当运营商使用账号登陆后,就可以查看到对应位置上需要自己处理的帖子信息,进行相应处理后,通知有关部门即可。有关部门可以单击帖子相关的URL地址,对运营商处理情况进行检查。
51
第四章 舆情分析系统模块功能分析与实现
信息备案
该模块显示的是审计系统搜集到的网站域名信息与基础数据库进行备案对比的结果。并自动归类已备案与未备案信息。
图4-60 信息备案
图4-61 运营商未备案信息
52
第四章 舆情分析系统模块功能分析与实现
图4-62 处罚策略定制
信息分析
该模块显示的是网页信息,FTP信息,PCA/VNC/远程桌面等远程工具的登录信息。
图4-63 信息分析
网页信息分析
该小模块在本系统中信息量最大,包含了所有用户登陆,注册,发帖,浏览等等。可指定日期,内容,域名进行查询。可以显示摘要,发帖时间,发帖人IP等信息。
53
第四章 舆情分析系统模块功能分析与实现
图4-64 网页信息查询结果
FTP日志分析
该小模块显示的是服务器FTP的登录日志信息,包括服务器IP,端口,用户名密码,登陆用户IP,登陆时间等信息。
图4-65 FTP登陆日志
54
第四章 舆情分析系统模块功能分析与实现
PCA日志分析
该小模块显示的是远程工具PCAnywhere的登录日志信息。
图4-66 PCA登陆日志
VNC日志分析
该小模块显示的是远程工具VNC的登录日志信息。
图4-67 VNC登陆日志
55
第四章 舆情分析系统模块功能分析与实现
远程桌面日志分析
该小模块显示的是远程桌面登陆日志信息。
图4-68 远程桌面登陆日志
管理员/网站活跃网名策略设置
该小模块可以自行设定管理员/活跃网名的命名规则,系统会据此自动获取设定的一系列信息。
图4-69 设定的管理员/活跃网名帐号
56
第四章 舆情分析系统模块功能分析与实现
图4-70 网站活跃网名信息
策略定制
该模块显示的是用户设置的关键词。
图4-71 关键词策略
57
第四章 舆情分析系统模块功能分析与实现
单击【修改】可进行修改。
图4-72 修改策略
单击添加策略可进行策略添加。
图4-73 添加策略
58
第四章 舆情分析系统模块功能分析与实现
策略添加后将自动下发,完成时间由网络带宽等因素决定。已经设置的关键词可以进行导出。也可通过导入关键词来进行一次性导入。模板单击导出即可获取。
统计信息
该模块用于统计各类有关于运营商/服务器/网站的相关信息。
图4-74 运营商违法有害信息统计
图4-75 网站违法有害信息统计
59
第四章 舆情分析系统模块功能分析与实现
图4-76 运营商服务器统计图
图4-77 运营商网站统计图
图4-78 运营商新增网站统计图
60
第四章 舆情分析系统模块功能分析与实现
图4-79 运营商停用网站统计图
系统管理
该模块用于运营商,服务器,网站,指令下发,系统显示,系统升级,用户,权限,操作日志等的管理。用户修改密码可单击右上角“修改密码”进行修改。
图4-80 系统管理
默认首页显示系统用户信息。 1、其中
(一)运营商管理/服务器管理/网站管理仅用于处理运营商/服务器/网站。 (二)指令管理用于查看策略下发/URL阻断/系统升级情况。 (三)系统升级包由我司技术人员提供,使用单位不可随意升级。
61
第四章 舆情分析系统模块功能分析与实现
(四)操作日志用于显示系统用户开闭服务器/网站监控日志。 (五)登陆日志用于显示系统用户登陆该系统的日志。 2、建立系统使用账号流程
新建使用单位。单击权限管理,进行添加使用单位。使用单位性质可选用户/运营商。用户最低权限可以进行进行服务器和网站的状态修改。运营商无法进行状态修改,具体权限可根据实际情况予以分配。
图4-81 添加使用单位
岗位添加。即权限分配。单击【岗位维护】,弹出岗位信息对话框。选择岗位添加,弹出岗位权限分配框。
图4-82 岗位添加
62
第四章 舆情分析系统模块功能分析与实现
一般运营商可分配“基本信息”,“过滤信息”模块即可。系统使用部门工作人员可根据工作内容分配,但不建议分配系统管理。
运营商分配。将运营商分配给具体使用单位,此处可“一对多”,即一个使用单位对应多家运营商。使用单位若不进行分配,则默认所有运营商可见。
单击运营商管理,选中某个运营商,单击【分配】,弹出运营商分配对话框,即可选择。
图4-83 分配运营商
帐号建立。单击用户管理-添加新用户,选择所属单位,所属岗位,报警邮箱等信息,单击添加即可。密码默认,交由使用单位使用。若忘记密码,可单击【还原密码】。
图4-84 添加用户
63
第四章 舆情分析系统模块功能分析与实现
4.2舆情综合分析管理系统
舆情控制队伍指挥调度系统主要包括以下子系统:
4.2.1 舆情综合分析
对舆情情况进行综合分析,找出舆情趋势等。
图4-85
4.2.2 舆情简报
根据舆情分析的结果对舆情信息进行总结汇报并生成相应的图表等。
4.3 舆情管理
舆情通报与违法有害信息处置 本地违法有害信息分析处置
本地有害信息研判处置模块充分发挥现有舆情支撑库“基础数据库”的作用,实现信息的自动比对落地;再通过分析作业,把单纯的“违法有害信息分析处置”进化为“网络信息分析处置”。 通过本地有害信息模块,向各网站安全员发现处置指令,安全员取证、处置、并做好日志,将日志上传,并反馈处置结果。
64
第四章 舆情分析系统模块功能分析与实现
图4-86系统日志
辖区网站管理
主要是利用互联网网站管理系统进行相应的关闭网站,屏蔽板块、帖子等操作。
4.3.4 舆情引导系统
信息引导系统主要是针对舆情重点地带:交互式栏目、电子邮件、手机短消息等的内容信息进行正确的引导。
电子邮件群发系统
实现对指定邮箱及批量邮箱的特定邮件内容,主题,附件的发送功能。 具体指标包括:
1.支持多种代理发送,包括各种sock代理; 2. 隐蔽发送者名字; 3. 防止被邮件过滤系统过滤。
4.4 舆情支撑库
包括重点网站、重点违法犯罪人员、舆材库、舆情预案库等信息库。 舆材库
业务流程为由分析系统接口搜索网上舆情,形成舆情素材,根据设定的舆情
65
第四章 舆情分析系统模块功能分析与实现
基本特点智能归类入库。搜集各类主题信息存入数据库。
舆情预案库
对曾经处理过的舆情案事件以及相关类似的等级的基本情况进行数据保存,加强对已知舆情的研判掌握,判断网上舆情走势。
66
第五章 总结
第五章 总结
随着网络技术的高速发展和我国网民数量的快速增长,来自网络的各种信息逐渐成为人们认知社会百态的重要渠道。但是这些信息良莠不齐,特别是那些暴力、色情、破坏社会稳定的不和谐言论往往会诱导人们做出错误的判断。如何在互联网这个浩瀚的信息大海中及时地发现,监测,跟踪,核查,评估,判定,预警,引导互联网上影响国家安全和社会稳定的舆论信息是当前面临的重要问题,通过本文提出的舆情分析系统可以在很大程度上做到对舆情信息的正确引导和处置。随着信息技术的发展如何做到更加准确对各种舆情信息进行监测分析也是目前遇到的难题,除了在系统设计方面进行优化外,还需要研究更加优化的文本分析算法,这样才能更好的为建设和谐的网络社会进行保障工作。
67
参考文献
参考文献
[1][墨]罗森勃鲁特、威诺.科学模式的作用[J].科学哲学,1951,(12). [2] 邵培仁.传播学[M],北京:高等教育出版社,2007.
[3] [美]维纳(N.Wiener).人有人的用处——控制论和社会[M].陈步译.北京:商务印书馆,1978.
[4]黄晓斌,邱明辉.网络信息过滤系统研究[J].情报学报,2004,(3) [5] 参考黄晓斌,邱明辉.网络信息过滤方法的比较研究[J].大学图书馆学报,2005,(10)
[6] Richard MacManus,5 Ways Sentiment Analysis is Ramping Up in 2009 [EB/OL],2009-08-24. http://digg.com,Retrieved on 2009-12-02
[7] Manoj Parameswaran and Andrew B. Whinston. SOCIAL COMPUTING: AN OVERVIEW. Communications of the Association for Information Systems (Volume 19, 2007).
[8] S.-M. Kim and E. Hovy. Determining the Sentimentof Opinions [A]. In: Proceedings of COLING-04, the Conference on Computational Linguistics (COLING-2004) [C]. Geneva, Switzerland: 2004.
[9] K. Dave, S. Lawrence, D. M. Pennock. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews [A]. In: Proceedings of the 12th International World Wide Web Conference(WWW2003) [C]. Budapest, Hungary: 2003.
[10] M. Gamon, A. Aue, S. Corston-Oliver, and E. Ringger. Pulse: Mining Customer Opinions from Free Text[A]. In: Proceedings of IDA-05, the 6th Internation-al Symposium on Intelligent Data Analysis [C]. Lecture Notes in Computer Science, Springer-Verlag.Madrid, Spain: 2005.
[11] B. Liu, M. Hu, and J. Cheng. Opinion Observer:Analyzing and Comparing Opinions on the Web [A].In: Proceedings of WWW’05, the 14th international conference on World Wide Web [C]. Chiba, Japan:2005.
[12] Craig Macdonald, Iadh Ounis.Overview of the TREC2007 Blog Track,Proceedings of TREC 2007.
[13] Theresa Wilson, Paul Hoffmann, Swapna Somasundaran, Jason Kessler, JanyceWiebe, Yejin Choi,Claire Cardie, Ellen Riloff, Siddharth
Patwardhan.OpinionFinder: A System for Subjectivity Analysis[A]. In: Proceedings of HLT/EMNLP 2005 Demonstration Abstracts [C]. Vancouver, Canada: 2005.
[14] 韦路.新媒体研究何去何从?2009年中国新媒体传播学年会论文[Z],清华大学,2009
[15] [英]麦奎尔.麦奎尔大众传播理论[M].崔保国、李锟译.北京:清华大学出版社.2006.
68
参考文献
[16] 钟瑛.网络内容管理的差异性与多元化[J].新闻大学,2003(秋).
[17] 杜骏飞.政治、社会与新型网络应用——2008年中国网络传播研究的关键主题[J].中国地质大学学报(社会科学版),2009,(4).
[18] S. Boccaletti et al. ,Complex networks: Structure and dynamics .Physics Reports 424 .2006.
[19] 参考贾国飚.基于复杂网络的新闻传播控制策略研究[J].新闻界.2009,(2).
[20] [英]麦奎尔(Denis Mcquail)、[瑞典]温德尔(Sven Windahl).大众传播模式论 [M].上海:上海译文出版社,1987.
[21] 韦路.新媒体研究何去何从?2009年中国新媒体传播学年会论文[Z].清华大学,2009.
[22]徐海霞.聚类分析在Web文本挖掘中的应用[J].情报杂志,2004(12):99-101
69
致谢
致谢
在这里首先我要感谢我的爱人,我写这篇论文的期间我爱人一个人承担起家庭的重任,可以说没有她的支持就没有我稳定的后方。同时还要感谢我的领导和同事,这我写论文期间给我的帮助和指导。还要感谢这几年来一直在指导我的许英林老师,在我的学习过程中给了帮助和指导。
70
因篇幅问题不能全部显示,请点此查看更多更全内容