加入收藏 | 设为首页 权威学术期刊杂志介绍平台,展示学术期刊行业第一!就在400期刊网!

全国免费咨询电话:

地学前缘杂志社

关注我们

当前位置:首页 > 学术论文 > 自然类 >

文本聚类算法|一种面向聚类的文本建模方法

本文作者:唐晓丽;白宇;张桂平;蔡东风;成功正常投稿发表论文到《山西大学学报(自然科学版)》2014年04期,引用请注明来源400期刊网!



【摘要】:借鉴主题模型的思想,利用word2vec训练数据的高效性以及词聚类结果的有效性,提出了一种基于word2vec的文本建模方法。该方法以word2vec算法得到的词聚类结果为基础,统计文本在词聚类类别上的概率分布,获得文本在类别空间上的特征向量,完成文本建模。将其与两种经典的文本建模方法VSM和LDA进行比较,实验结果显示在聚类效果上F值分别提高6.01%、1.01%,在算法效率上有明显的提高。
【论文正文预览】:0引言随着Web信息的爆炸式增长,计算机的信息处理已进入大数据时代。信息融合技术为Web信息处理提供了新的方法。信息融合[1]借鉴人脑的工作原理,利用计算机对具有相似或不同特征的多源数据和信息进行处理,为用户提供统一的信息视图和可综合利用的信息。文本形式是Web信息呈现
【文章分类号】:TP391.1
【稿件关键词】:主题模型wordvec文本建模文本聚类
【参考文献】:
  • 张小平;周雪忠;黄厚宽;冯奇;陈世波;焦宏官;;一种改进的LDA主题模型[J];北京交通大学学报;2010年02期
  • 马晖男;吴江宁;潘东华;;一种修正的向量空间模型在信息检索中的应用[J];哈尔滨工业大学学报;2008年04期
  • 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
  • 石晶;胡明;石鑫;戴国忠;;基于LDA模型的文本分割[J];计算机学报;2008年10期
  • 夏云庆;杨莹;张鹏洲;刘宇飞;;基于情感向量空间模型的歌词情感分析[J];中文信息学报;2010年01期
  • 张志飞;苗夺谦;高灿;;基于LDA主题模型的短文本分类方法[J];计算机应用;2013年06期
  • 王振振;何明;杜永萍;;基于LDA主题模型的文本相似度计算[J];计算机科学;2013年12期
  • 刘平峰;章佩璐;张军;余文艳;;面向主题的Web信息融合模型[J];图书情报工作;2011年08期
  • 殷宏威;赵伟;杨志伟;;蚁群算法在KNN文本分类中的应用[J];长春理工大学学报(自然科学版);2010年01期
  • 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
  • 许伟佳;;基于向量空间模型的文档聚类研究[J];电脑知识与技术;2009年25期
  • 吴永辉;王晓龙;丁宇新;徐军;郭鸿志;;基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J];电子学报;2010年11期
  • 吴景岚;;一种基于GRASP的文档聚类算法[J];闽江学院学报;2009年05期
  • 胡艳丽;白亮;张维明;;网络舆情中一种基于OLDA的在线话题演化方法[J];国防科技大学学报;2012年01期
  • 孙建凯;李重;;最优聚类中心选取的半监督K均值聚类算法[J];工业控制计算机;2013年05期
  • 马宁;刘怡君;;基于超网络中超边排序算法的网络舆论领袖识别[J];系统工程;2013年09期
  • 马宝君;张楠;孙涛;;智慧城市背景下公众反馈大数据分析:概率主题建模的视角[J];电子政务;2013年12期
  • 易军凯;田立康;;基于类别区分度的文本特征选择算法研究[J];北京化工大学学报(自然科学版);2013年S1期
  • 王静;朱慕华;胡明涵;;部分监督的音乐情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
  • 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
  • 刘权;郭武;;基于核主成分分析的话题跟踪系统[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年
  • 丁兆云;王晖;;一种词位置相关的LDA模型[A];2013第一届中国指挥控制大会论文集[C];2013年
  • 丁轶群;基于概率生成模型的文本主题建模及其应用[D];浙江大学;2010年
  • 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
  • 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
  • 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
  • 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
  • 王小芳;文本主题域划分与无监督特征提取[D];吉林大学;2009年
  • 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
  • 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
  • 尹美娟;基于Web和Email的多元社会网络抽取与分析关键技术研究[D];解放军信息工程大学;2012年
  • 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年
  • 李静;基于情感标签的音乐检索算法研究[D];大连理工大学;2010年
  • 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
  • 荣建文;基于RS-SVM的Web中文文本自动分类研究[D];东北财经大学;2010年
  • 邓子平;面向医学诊疗的本体自动生成系统的研究与开发[D];广东工业大学;2011年
  • 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
  • 罗兵;基于协作过滤的反垃圾邮件网关的设计与实现[D];电子科技大学;2011年
  • 程兆全;面向工程监理的多Agent信息智能检索机制研究[D];东北石油大学;2011年
  • 俞文明;Web中文文本聚类研究[D];杭州电子科技大学;2009年
  • 徐东亮;基于聚类分析的网络论坛舆情信息挖掘技术研究[D];哈尔滨工业大学;2010年
  • 孙向琨;音乐内容和歌词相结合的歌曲情感分类方法研究[D];苏州大学;2011年
  • 张仰森,徐波,曹元大;自然语言处理中的语言模型及其比较研究[J];广西师范大学学报(自然科学版);2003年01期
  • 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
  • 石晶;戴国忠;;基于PLSA模型的文本分割[J];计算机研究与发展;2007年02期
  • 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
  • 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期
  • 徐永东;徐志明;王晓龙;;基于信息融合的多文档自动文摘技术[J];计算机学报;2007年11期
  • 李文波;孙乐;张大鲲;;基于Labeled-LDA模型的文本分类新算法[J];计算机学报;2008年04期
  • 曹娟;张勇东;李锦涛;唐胜;;一种基于密度的自适应最优LDA模型选择方法[J];计算机学报;2008年10期
  • 徐戈;王厚峰;;自然语言处理中主题模型的发展[J];计算机学报;2011年08期
  • 王燕;一种改进的K-means聚类算法[J];计算机应用与软件;2004年10期
  • 傅魁;基于Web的本体学习研究[D];武汉理工大学;2007年
  • 唐亮;段建国;许洪波;梁玲;;基于信息论的文本分类模型[J];计算机工程与设计;2008年24期
  • 施化吉;王贤川;李星毅;;基于规则重构的关联文本分类[J];计算机工程与设计;2009年03期
  • 刘伍颖;王挺;;适于垃圾文本流过滤的条件概率集成方法[J];计算机科学与探索;2010年05期
  • 张征杰;王自强;;文本分类及算法综述[J];电脑知识与技术;2012年04期
  • 彭其华;;关联挖掘下的海量文本信息深入挖掘实现[J];微电子学与计算机;2013年10期
  • 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期
  • 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期
  • 周鹏;数据库中不规范文本文件的数据转换[J];电脑编程技巧与维护;2005年05期
  • 谷峰;吴扬扬;;文本分类关键技术[J];福建电脑;2006年09期
  • 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
  • 许君;王朝坤;刘立超;王建民;刘璋;;云环境中的近似复制文本检测[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
  • 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年
  • 胡蓉;唐常杰;陈敏敏;栾江;;关联规则制导的遗传算法在文本分类中的应用[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
  • 李文波;孙乐;黄瑞红;冯元勇;张大鲲;;基于Labeled-LDA模型的文本分类新算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
  • 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
  • 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
  • 李瑞;王朝坤;郑伟;王建民;王伟平;;基于MapReduce框架的近似复制文本检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
  • 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
  • 江荻;;藏语文本信息处理的历程与进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
  • 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
  • 戴洪玲;向Excel中快速输入相同文本[N];中国电脑教育报;2004年
  • 胡明涵;面向领域的文本分类与挖掘关键技术研究[D];东北大学 ;2009年
  • 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
  • 尚文倩;文本分类及其相关技术研究[D];北京交通大学;2007年
  • 霍跃红;典籍英译译者文体分析与文本的译者识别[D];大连理工大学;2010年
  • 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
  • 李自强;大规模文本分类的若干问题研究[D];电子科技大学;2013年
  • 杨震;文本分类和聚类中若干问题的研究[D];北京邮电大学;2007年
  • 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
  • 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
  • 赵玉茗;文本间语义相关性计算及其应用研究[D];哈尔滨工业大学;2009年
  • 姜英杰;基于本体的短文本分类研究[D];东北师范大学;2010年
  • 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
  • 马渊;短文本情感分析技术研究[D];重庆大学;2011年
  • 张超;文本OLAP关键技术研究[D];山东大学;2012年
  • 王宝龙;面向新闻领域的文本数据获取系统的设计与实现[D];北京邮电大学;2010年
  • 曾洪波;基于类别裁剪和模糊理论的文本分类算法研究[D];暨南大学;2011年
  • 徐立新;互联网文本视频过滤技术研究与应用[D];电子科技大学;2010年
  • 梁鹏鹏;概率主题模型及其在关联文本分类中的应用研究[D];郑州大学;2011年
  • 刘超;基于主题挖掘和覆盖的文本分类研究[D];安徽大学;2011年
  • 蔡月红;基于类短语串和半监督学习的短文本分类研究[D];江苏大学;2010年

【稿件标题】:文本聚类算法|一种面向聚类的文本建模方法
【作者单位】:沈阳航空航天大学知识工程研究中心;
【发表期刊期数】:《山西大学学报(自然科学版)》2014年04期
【期刊简介】:0......更多山西大学学报(自然科学版)杂志社(http://www.400qikan.com/qk/5011/)投稿信息
【版权所有人】:唐晓丽;白宇;张桂平;蔡东风;


    更多自然类论文详细信息: 文本聚类算法|一种面向聚类的文本建模方法
    http://www.400qikan.com/lunwen/ziran/22937.html


    相关专题:陈丹青 中国实用医刊投稿 《地学前缘》相关期刊

    推荐期刊:

  • 中国民族教育
  • 综合实践活动研究
  • 河池学院学报
  • 北京地质
  • 辽宁工程技术大学学报
  • 大气与环境光学学报
  • 常州工程职业技术学院高职研究
  • 郑州轻工业学院学报
  • 上海调味品
  • 河北法学


  • 上一篇:西北地区干旱的原因|中国西北干旱区极端气温的时空变化特征
    下一篇:异构体|一种新的Bax异构体Baxθ促进细胞凋亡(英文)

    认准400期刊网 可信 保障 安全 快速 客户见证 退款保证


    品牌介绍