文本挖掘：避孕药主题情感分析

admin 发表于 2018-1-3 18:54:55

　　笔者5年前做舆情分析时候一般来说就是人工舆情，并没有加入高级点的分析工具减少人工投入。随着R，python等的流行，同时，随着各种开源包tm，LDA，Rwordseg开发，以及高等概率数学的应用，例如分词算法根据隐性马尔科夫链算法编写而成（有兴趣的同学自己研究），让我们之前的工作量大大减少。因此人工舆情转换成人工纠正舆情大势所趋，即我们使用工具减少读帖子的时间，并且让机器学习，人工后期纠错。
　　前两个可以作为统计分析-统计时间趋势音量，音量份额，后两个可以作为建模分析-主题分析，情感判别。
　　将文本中的分词按照中英文词典的正负面词打分，计算分值，若中性词（不出现字典）则记为0。
　　如果在舆情分析而言，我们在做营销分析，分析产品、活动优劣，或者希望维护品牌PR，我们就需要针对消费者网络发声去分析情感，来帮助我们维护品牌，改善活动产品，来达到监测舆情分析效果。换句话说也就是我们今天分享的主题sentiment
　　文本处理后，根据词频出现频次，且过滤掉分词为单个词的中文，绘制词云图，鼠标所过的词可以显示文本出现次数，例如避孕药：767次
　　言回正传，情感分析就是表达发言人对一个主题的看法，有好有坏，或者中立。情感分析应用分类两类，第一是给定正负面词，算分值，高于或者低于baseline则表示正面、负面情绪。第二，根据深度学习，利用神经网络来区分正负情感。本文先实现第一类情感分析。
http://image.woshipm.com/wp-files/2017/12/TYm73QNDDd42vy0hm2vg.png
　　距离上次文本挖掘小文章时间已经过了3个月了，北京已经入冬，有人说北京的冬天很冷，但是吃上火锅很暖；也有人说北京的冬天雾霾严重，太干。这两句表达的是对北京冬天的情感，即有正面也有负面。
　　由于本文是医用词汇，需要添加的词汇偏重医用或者品牌，不让分词拆成单个字符
　　这里有个小插曲：上次分享的是主题分析，笔者最近又重新梳理了下LDA，发现tm包中文分词形成词频矩阵很不理想，这会导致LDA无法应用，因此，后续笔者会自己写个脚本将词频矩阵实现，这样会方便LDA，会方便聚类分析，以及预测分析。
http://image.woshipm.com/wp-files/2017/12/vDGzL5FspVkILhu7MsAp.png
http://image.woshipm.com/wp-files/2017/12/06zY1UTr7EL6NQDuIsXo.jpg

页: [1]

沂水在线,沂水论坛,沂水天气,沂水信息港,沂水旅游's Archiver

文本挖掘：避孕药主题情感分析