期刊专题 | 加入收藏 | 设为首页 12年实力经营,12年信誉保证!论文发表行业第一!就在400期刊网!

全国免费客服电话:
当前位置:首页 > 免费论文 > 社科历史 >

舆情监测工作互联网论文

1系统整体设计思路

在舆情监测系统中,系统分为四个层次,自底向上依次为基础数据层、数据处理层、监管业务层、WEB表现层(图1)。1.基础数据层数据库管理功能,需要对采集的数据有合理的存放规划;分布式计算能力,实现各个子系统内部和子系统之间的不同节点上的对象调用;系统维护,可以对各个子系统进行参数配置,监控系统各个组成部分的运行情况,管理监测人员及其权限等。2.数据处理层数据采集能力,可以对重点网站的网页及音视频内容进行增量式抓取;数据存储,可以管理外部存储系统,能够实现数据迁移、备份和清洗的功能;数据管理功能,可以对网站、网页、视音频节目等监管对象的基本信息和进一步分析出的信息进行管理,如查询、修改、删除、添加。并支持手动导入音视频节目。3.监管业务层内容分析,对采集到的文本、音频、视频数据进行分析,抽取特征,建立数据索引,识别有害信息和跟踪热点、敏感话题等;信息检索,是基于关键词、样例图片、样例音频、样例视频,来进行内容检索;信息统计,根据监测业务的需要,对采集到的视音频网站、节目、和有害信息进行统计归类。4.WEB表现层人机界面,提供各个管理功能友好的操作界面,显示信息检索、信息统计、有害信息识别和舆情分析的结果,进行系统维护等多项操作;系统接口,为相关系统提供统一的服务,便于整合监测业务的其他系统,提高各业务系统的集成性和扩展性。

2信息检索设计思路

2.1多维检索

2.1.1视频检索能够通过业务人员提交的关键词,对视频节目进行内容检索,返回包含指定关键词的视频文件,以及相应文件内的时间信息。能够通过业务人员提交的关键帧,对视频节目进行内容检索,返回包含指定关键帧的视频文件,以及相应文件内的时间信息。能够通过业务人员提交的特定视频片断,在本地视频数据库中检索包含相似或者相同的视频片断的视频节目,并进而发现该视频节目在网上的分布情况。找到的视频片断与查询样本的内容一致,但是在形式上允许存在区别。业务人员可以通过WEB界面,查看检索到的结果视频的摘要及关键帧全景图,关键帧可进行定位播放并且观看、转存结果视频。可以在视频大屏上直接点击出现该视频片断的视频节目。2.1.2音频检索对互联网语音/音频文件建立内容索引,支持监测人员进行特定内容音频检索。通过对特定内容音频信息(或者说敏感信息)的检索,实现对网络音频信息的监管。特定内容的语音/音频信息可以有多种形式,可以是特定关键词,或者特定说话人,或者特定音频片段。(中/英)关键词检索:当监测人员提交关键词文本,系统能够返回包含指定关键词的互联网音频文件,并定位在文件内的时间信息。特定说话人检索:当监测人员提交某个特定说话人的语音样本,系统能够返回包含指定说话人的互联网音频文件,并定位在文件内的时间信息。特定音频片段检索:当监测人员提交某个特定音频片段,系统能够返回包含指定音频片段的互联网音频文件,并定位在文件内的时间信息。2.1.3文本检索系统的核心部分之索引部分的实现不依赖现有的商业数据库,特定的数据格式设计保证信息的安全性及实时检索处理的高效性。另外建立合理有效的索引系统,设计优化的索引文件格式,通过有效的索引压缩技术,在保证不丢失信息的前提下降低索引的存储空间,减小数据膨胀率。面向内容与结构的索引压缩方法。既能够对索引存储空间进行压缩,又能保证在检索时,解压缩所需的时间少于加载压缩后的索引所节省的时间,从而在节省磁盘空间的同时提高系统的响应速度。采用高效、智能的检索算法,实时检索查询的响应时间短,返回结果效果好,综合考虑准确和全面两个指标。2.1.4新闻搜索新闻搜索功能通过一组关键词定义专题,利用语音搜索技术快速准确的从新闻类及访谈类的节目中发现该专题事件,并且能够定位到关键词出现的位置,从而快速找到监测人员所关心的舆情热点和其他相关视音频内容。1.新闻频道对收录的新闻栏目进行回放,监测人员可以任意选择网络视频播放日期和类型。左侧是新闻的播放列表,中间是播放窗口,右侧是同步滚动的新闻口播字幕。登录的监测人员可以下载正在浏览的新闻节目。监测人员可点击新闻字幕及视频摘要中的关键帧,直接跳至对应视频内容处进行播放。2.系列报道监测人员可浏览历史新闻系列报道以及正在进展的新闻系列报道。新闻系列报道可在后台通过系统自动搜索并结合人工审核的方式创建。预先设定一些主题,如“重庆”“、朝天门”等,监测人员通过搜索新闻内容,可把有关重庆、朝天门相关的新闻起始时间锁定并添加入对应主题,系统自动截取这些内容拼接为一个大视频。2.1.5专题任务搜索对个别社会危害大、影响恶劣的视听节目采取的专项清理任务和行动,具有较强的针对性和时效性。完成专项任务,需要系统能够按照监测人员的监管要求制定专门的监控策略,按照即时搜索、专项任务优先的原则,灵活配置和调度专项搜索任务,集中调拨系统资源对专项任务涉及的领域或节目进行搜索和识别,从而达到对专项任务监控对象有效监管的目的,可根据音频样本、视频样本、语音样本搜索。

2.2敏感内容推荐

2.2.1第三方敏感、热点话题搜集根据监测业务需要对指定的网站进行流量访问量统计、采集排名位置等,自动从第三方所公布的网页,门户网站,搜索引擎以及大网站微博等渠道获取相关数据。可以通过输入指定的网站名称、采集第三方公布排名信息的网页、自动从网页中分析出排名数据等获取监测业务需要的数据。2.2.2话题倾向性分析目前,分析网络舆情主要采用的是文本倾向性分析方法,通过基于统计情感词倾向性值的方法,对评论中关键词的所有情感词语义倾向性值的统计加权,以通过对比和分析主帖回帖的倾向性向量而得到回帖对于主帖的态度完成对热点话题的倾向性分析。2.2.3多规则关键字匹配通过关键字匹配,检测节目中是否包含有害内容;根据监测业务的需要对关键字进行配置,可以通过组合条件进行配置,具备与、或、非的各种包含方式,并根据关键字时效性考虑配置有效周期。2.2.4敏感视频内容匹配我们可以配置视频指定采集源,将视频片段数据录入到系统中,也可以手工录制后上传到系统中,当视频片段录入或上传后,系统会自动检索节目库中的视音频文件内容,通过匹配视频样本库,对包含该视频样本的视音频文件进行准确定位。2.2.5敏感音频内容匹配监测业务中的重点文本信息,检索是否出现在视听节目中。向系统录入文本信息,系统自动检索节目库中的视音频文件内容,对包含该文本音频信息的视音频文件进行准确定位。

3舆情监测工作与预警

3.1语义分析

语义分析法是运用语义区分量表来研究事物的意义的一种方法,我们的系统中,语义分析是指可以根据系统既定设置的语义分析规则,进行分析对象识别,分析内容管理,分析任务管理。中文分词速度可以达到200kb/s,F1值可以达到95%以上。词性标注整体准确率为95%以上,未登录词准确率为80%以上,处理速度达到20kb/s以上。

3.2语义库

语义库主要是提供给监测人员进行词汇检索、样本录入、词汇管理等。系统通过爬虫程序可以自动抓取各大热门网站上面比较热门的词汇,并且也可以收录现代汉语词汇,系统支持收录量可以达到25万条以上,其中中文倾向性词条可以达到2万条以上;英文倾向性词汇可以达到11万条以上。系统会提供一套统一接口,方便数据交换和存储扩展。

3.3语义数据库汇总

根据已设置的关键字,互联网爬虫程序在深度扫描的过程中发现相关数据,可以自动抓取并存入数据库,而后通过分析系统对数据进行分门别类及其他处理;系统会对数据库进行周备份、月备份、季度备份、年备份,留下备份以免数据丢失。互联网爬虫可以对各大新闻网站、各大论坛网站以及各大微博网站进行深度扫描,从而获取相关数据。

3.4预警触发

在监测过程中,根据预警发布的层次性和紧急性,通过设置预警级别,可以根据预警事件的紧急程度来发布预警级别,系统配备了不同预警级别执行不同处理措施,监测人员可以参考处理措施做出相应处理。为了使预警发布更有针对性,实现点对点的预警提示,系统需要设置预警对象功能,系统可以自动根据舆情分析系统判别预警对象并发布,使监测人员可以一目了然的发现预警对象。为了使预警的实时性,系统支持最低两分钟一次对数据进行预警分析。

3.5预警分析

监测人员指定规则给系统,对抓取的内容关注度分析和褒贬度分析,并可以进行预警信息查询与检索。系统通过预警汇总模块对采集数据进行每日、每周、每月进行统计分析,起报表类型可以是word或者Excel,图形可选择是曲线图、柱状图、饼图等,为了提高工作效率,系统支持报表一键下载打印功能。方便监管人员工作需要。

4结束语

监测工作中,一套全面高效的监测系统是需要我们监测人员不断探究新监测方式,才能得以更好完成监测工作的,面对不断推进,变迁的新时代,新的信息传播平台不断推出,互联网监测人员的不断增长,对我们监测工作的时效性提出了新的要求,我们在技术领域的探究更显得尤为重要。如何从互联网中更高效的准确的发现问题,与我们利用的技术手段有着密不可分的关系。

作者:惠鑫 孙海文 容杰 单位:重庆广播电视监测台


    更多社科历史论文详细信息: 舆情监测工作互联网论文
    http://www.400qikan.com/mflunwen/skls/179815.html

    相关专题:黑龙江中医药杂志官网 黄菡


    上一篇:社会实践在政治理论课中的实用性
    下一篇:大学生创新创业网站设计研究

    认准400期刊网 可信 保障 安全 快速 客户见证 退款保证


    品牌介绍