产品亮点
系统优势:
及时
快页互联网舆情监测系统通过自主开发的分布式异步高并发的爬虫技术保证了采集的及时性。
自动调节采集频率,重点网站优先采集。
全面
通过定向采集新闻、论坛、贴吧、自媒、视频、博客、微博、微信等保证重要信息优先采集不丢失,通过向主流搜索引擎进行搜索补充,保证了信息收集的全面性。
准确
通过自主开发的包含多项专利技术的自然语言处理技术,确保了抓取信息的准确性、分类的准确性和负面判断的准确度。
相似文章识别
准确识别内容相似的文章,可用于文章的去重和突发事件的发现。
无需模版
无需制作模版,随时增添采集源,不受网页改版影响。
全方位的分析报表展示功能
多角度、多层次展示信息特点,揭示数据规律,帮助用户预判所收集到舆情信息的未来走势!
简单易用
界面美观实用。全部配置、操作都可以在线完成,直观方便,用户无需长时间培训即可轻松掌握。
可以添加无限子账号,多个同事无需共用账号。
产品说明
1.1、背景介绍
近年来,我国互联网无论从用户规模、业务应用、技术实现等方面都发生巨大变化。根据中国互联网络信息中心(CNNIC)发布第37次《中国互联网络发展状况统计报告》(以下简称《报告》)。报告显示,截至2015年12月,中国网民规模达6.88亿,互联网普及率达到50.3%,半数中国人已接入互联网。同时,互联网塑造了全新的社会生活形态,“互联网+”行动计划不断助力企业发展,互联网对于整体社会的影响已进入到新的阶段。
互联网已经演化为一个虚拟社会,成为一块正在加速膨胀的思想阵地,越来越多的人们愿意通过这类渠道表达自己的真实想法。在加强互联网管理的同时,通过先进技术手段,开展互联网信息的汇集整理和分析研判,从网络上海量的信息中发掘出对政府有价值的信息,对于全面了解社情民意,为领导决策提供支持和依据,做好各项工作具有重要意义。
面对海量信息,各政府机关、企事业单位目前互联网信息监控采用的是人工手动搜索,通过使用各类搜索工具逐个输入关键词的方式进行搜索甄别分析,效率较低。因此需要一套互联网舆情监控分析系统开展互联网信息的汇集整理和分析,把握网上信息舆论动向,及时掌握、分析网上舆论动态,全面了解社情民意,为领导决策提供舆情信息服务,维护各单位组织在互联网虚拟社会的话语权。
1.2、产品概述
快页作为国内搜索技术产品化的开创者,一直在该领域拥有先进的理念、成熟的技术和先进的信息检索、数据抽取识别和文本挖掘技术。快页大数据分析管理产品通过在多个互联网运营项目上的成功应用,积累了丰富的行业实践经验。
快页结合互联网垂直领域的业务应用需求,依托自身搜索引擎产品和中文信息处理技术,推出全面的互联网云舆情管理平台。快页云舆情管理平台是快页面向政企客户、公关传媒企业、云计算运营商推出的互联网信息搜索、分析监控,痕迹留存、来源追踪产品。可以有效地帮助各类合作伙伴搭建一套云舆情平台服务其客户,从而使客户的相关部门掌握互联网的信息、舆论动向,热点新闻内容自动发现,通过预警机制可以预设敏感词汇,系统在发现可疑内容自动通过email或短信进行通知到达。快页云舆情管理平台通过信息化手段增强对各单位组织涉及互联网舆情信息进行有效管理,实现对各单位组织信息发布以及互联网上涉及本市的信息进行全面掌控,尤其是敏感内容、违规内容和突发事件等信息。实现对互联网信息(新闻、论坛、博客、微博等)实时监测、采集、内容提取及排重和排序;并且对获取的信息进行全面检索、主题检测、专题聚焦、主题演化分析、话题传播分析;按照业务需求定制信息分类规则和排序;为用户辅助编辑提供信息服务,如信息预警、自动形成网络信息报告、追踪已发现的信息焦点等。及时发现不良信息,实现早发现、早报告、早处理,有效引导网上舆论,疏导热点,减少互联网涉及本地舆情不良信息的传播,净化网络环境,维护网络正常秩序和用户在互联网的话语权。
1.3、技术架构
软件系统采用J2EE的体系架构,主要采用B/S架构,控制和浏览终端均无需安装客户端软件。系统的不同功能模块可以灵活地以服务的形式部署在不同主机上,功能模块间的通信通过MOM(面向消息的中间件)完成。软件采用的系统架构具有与平台无关性,便于合理分配
现有资源和进行系统性能调优。
(1)业务数据层
互联网数据作为舆情管理平台的数据输入源,包括结构化数据、非结构化数据和实时流数据等。
(2)数据采集层
该层通过多种方式采集互联网数据,并将该数据上传到核心处理层。事件在数据采集层进行
解析、去噪等预处理工作。采集方式包括直接定向采集、通过第三方搜索引擎间接采集、抓包采集、AGENT采集以及通
过原网站API接口获得所需数据。
(3)核心处理层
在云舆情管理平台中核心处理层实现对舆情数据的处理。它包括两个子系统:业务支持子系统和自身管理子系统。业务管理子系统完成管理平台的业务处理与业务展示的支撑,自身管理子系统是对系统自身的运行、级联、状态等综合的管理。
(4)应用展示层
云舆情管理平台的事件呈现为图形化仪表、多视角态势、其他展示功能。平台的统计分析、事件告警、关联分析结果在统一管理界面上统一展示。用户采用浏览器以B/S的模式访问统一界面。
1.4、功能介绍
云舆情管理平台主要包括舆情采集子系统、舆情分析子系统、舆情存储子系统、舆情应用子系统、舆情导控子系统、舆情展示子系统等六个主要子系统。
1.5、平台特色
抓取技术
互联网数据量巨大且丰富,对于各类爬虫有着较强的应对策略。因此,普通的网站内容爬取方案不适用所有网站和媒体。针对互联网数据需要提供更为灵活的自然人行为模拟策略,因此,我们使用快页独创的Personify-based抓取技术,最大程度的模拟自然人访问行为去抓取目标。
1)不规则代理IP采集
没有哪个人会在一段持续时间内过快访问,除非是随意点击,持续时间也不会太长。可以采用大量不规则代理IP来模拟采集。
2)多账号随机按需采集
如果一个人一天24小时都在访问一个数据接口那就有可能是机器人了,正常人不会这么操作。因此,我们采用数万大量正常账号,按照普通人在社交网站上操作的正常行为习惯进行模拟采集。
3)多核多版本浏览器模拟
系统访问时模拟多个不同内核不同版本的浏览器去访问网站。
2.3.2、弹性框架
1)高性能计算
根据舆情采集和分析的特点,我们选择Redis和ES相结合的开源大数据平台作为本平台的分布式计算和分布式存储支撑。从而实现实时分析的分布式搜索引擎,并可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
支持每天采集并入库1亿条文章信息,最高可达百亿级数据。
2)分布式存储
系统采用分布式存储设计,数据分布在多台存储节点上,分布策略采用一致性hash算法。当存储节点数较少时,存储节点在环上的分布可能较为集中,导致映射到存储节点的key数量不均衡,可能会导致部分存储节点负载较高,而部分存储节点负载较低的情况出现。为解决这一问题,可将每个存储节点映射为多个虚拟节点,如将每个存储节点映射为多个虚拟节点,然后将虚拟节点映射到hash环上,就增加了环上节点的分布数目,使节点分布更加均衡。
使用灵活
用户可以自建多个子账户供本单位其他同事使用,子账户数量无限制。系统没有监测方案数量限制。
售后支持范围
售后服务内容:快页公司技术服务中心提供7x24小时技术支持响应,对保修期内的用户提供全面的故障排除技术服务和故障排除全过程监控(由故障开始直至故障完全排除)。
用户评论 (5)
挺好的
挺好的
挺好的
挺好的
挺好的