首页
论坛
楼盘点评
商家店铺
登录
注册
我的空间
我的消息
我的收藏
我的好友
我的相册
帐号设置
退出登录
当前位置:
»
论坛
›
【沂水社区】
›
情感倾诉
›
帖子
返回列表
发帖
文本挖掘:避孕药主题情感分析
[复制链接]
查看:
187
|
回复:
0
admin
admin
当前离线
积分
138403
发表于 2018-1-3 18:54:55
|
显示全部楼层
|
阅读模式
笔者5年前做舆情分析时候一般来说就是人工舆情,并没有加入高级点的分析工具减少人工投入。随着R,python等的流行,同时,随着各种开源包tm,LDA,Rwordseg开发,以及高等概率数学的应用,例如分词算法根据隐性马尔科夫链算法编写而成(有兴趣的同学自己研究),让我们之前的工作量大大减少。因此人工舆情转换成人工纠正舆情大势所趋,即我们使用工具减少读帖子的时间,并且让机器学习,人工后期纠错。
前两个可以作为统计分析-统计时间趋势音量,音量份额,后两个可以作为建模分析-主题分析,情感判别。
将文本中的分词按照中英文词典的正负面词打分,计算分值,若中性词(不出现字典)则记为0。
如果在舆情分析而言,我们在做营销分析,分析产品、活动优劣,或者希望维护品牌PR,我们就需要针对消费者网络发声去分析情感,来帮助我们维护品牌,改善活动产品,来达到监测舆情分析效果。换句话说也就是我们今天分享的主题sentiment
文本处理后,根据词频出现频次,且过滤掉分词为单个词的中文,绘制词云图,鼠标所过的词可以显示文本出现次数,例如避孕药:767次
言回正传,情感分析就是表达发言人对一个主题的看法,有好有坏,或者中立。情感分析应用分类两类,第一是给定正负面词,算分值,高于或者低于baseline则表示正面、负面情绪。第二,根据深度学习,利用神经网络来区分正负情感。本文先实现第一类情感分析。
距离上次文本挖掘小文章时间已经过了3个月了,北京已经入冬,有人说北京的冬天很冷,但是吃上火锅很暖;也有人说北京的冬天雾霾严重,太干。这两句表达的是对北京冬天的情感,即有正面也有负面。
由于本文是医用词汇,需要添加的词汇偏重医用或者品牌,不让分词拆成单个字符
这里有个小插曲:上次分享的是主题分析,笔者最近又重新梳理了下LDA,发现tm包中文分词形成词频矩阵很不理想,这会导致LDA无法应用,因此,后续笔者会自己写个脚本将词频矩阵实现,这样会方便LDA,会方便聚类分析,以及预测分析。
回复
使用道具
举报
返回列表
发帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
精选推荐
山东网络警察报警平台
经营性网站备案信息
山东市公安局网监备案
不良信息举报中心
返回顶部
关注微信
下载APP
返回列表
扫一扫,关注我们
下载APP客户端