快捷导航

        豆瓣电影的情感分析

        2019-12-20 16:27| 发布者: ym| 查看: 4404| 正规快三平台app: 2

        摘要: 文本分析和文本挖掘方法和技术往往看起来复杂难懂,可以试试集搜客GooSeeke的工具,力求把使用门槛降到最低。在一个情感分析场景中,集搜客提供两个工具配合完成分析任务: 1,用集搜客爬虫做数据快三平台-Welcome!!:解决数据来源 ...

        文本分析和文本挖掘方法和技术往往看起来复杂难懂,可以试试集搜客GooSeeke的工具,力求把使用门槛降到最低。在一个情感分析场景中,集搜客提供两个工具配合完成分析任务:

        1,用集搜客爬虫做数据快三平台-Welcome!!:解决数据来源和收集的问题;

        2,用集搜客分词和分类检索平台:做文本分词、情感分析、文本分类的数据处理;

        下面用豆瓣电影短评-做案例,展示整个操作流程,体会一下情感分析是如此简单。


        1、爬取影评数据

        我们用集搜客爬虫的快捷快三平台-Welcome!!工具来北京快三平台“豆瓣_电影短评”数据,把热门和最新正规快三平台app的网址添加进去快三平台-Welcome!!,由于豆瓣有浏览限制只能采到前10页,为了获取尽量多的正规快三平台app,最好是在电影上线后每天重新采一遍最新正规快三平台app的网址,这样就可以增量采到新发布的正规快三平台app。

        完成快三平台-Welcome!!后打包下载数据,可能会有重复的数据,我们利用Excel的“数据->删除重复项”功能来去重,过滤后是有775条数据,然后,为了下一步做文本分词和情感分析,我们按照下图的表字段名来修改表头。


        2、情感分析

        访问下面网址,登录到集搜客的分词和分类检索平台上,创建任务并且导入前面整理好的Excel表。然后点进“情感分析”菜单,我们会看到它自带包含2万多个词语的情感词典,点“启动情感分析”,就会把原数据切出句子,并自动与情感词典做匹配,计算输出句子的正负面情感倾向。

        当然,自带的情感词典无法对所有语义环境的文本都适用,但没关系,我们可以修改情感词典,甚至把整个词典删掉,导入我们自己整理好的情感词典,每次修改情感词典后,都可以重启情感分析,这样,通过调整情感词典,可以达到更好的情感分析效果。

        情感词典也很好整理,分为类型、词语、权值3个属性,类型分为正面词、负面词、否定词、程度词4种,顾名思义,正面词就是具有积极正向情感的词语,负面词就是消极情感的词语,否定词就是对句子情感倾向起到反转作用的词语,程度词就是表示增强或减弱情感强度的词语。而权值就代表了词语所带的情感强弱,4类词都有自己的取值范围,在规定范围里可以根据需要调整词语的权值大小。而系统最终会根据每个词的权值来计算句子的得分,进而判断出对应的情感倾向。

        我们可以在“分词选词”菜单里,按词性筛选出形容词、名词、动词等,选出带情感色彩的词语,再整理成情感词表导入分析,这样得到的情感词典就会大大提高跟原数据的拟合度和准确性。


        3、统计分析

        然后,我们导出情感分析表,会看到有序号和句子序号两个字段,序号就是我们最初整理到的原数据排序,用它可以关联原数据;而句子序号就会句子在原数据里的先后序号。接下来会做一些统计和可视化。

        上面表里的情感倾向是对应到句子的,我们通过数据透视图,就可以生成下图。按句子看的话,中性情感是最多的,占比达41%,其次是正面情感占比34%,负面情感占比25%,与正面对比,两者相差9%。

        下面我们通过句子来推导出原数据的情感倾向,把属于同一条原数据的正面、中性、负面句子转换为对应的数值1、0、-1,计算求和得到原数据的情感倾向。跟前面句子的情感分布对比,中性情感的占比降低了8%,正面、负面情感分别增加了4%;按原数据来看,整体上表达正面情感的居多,其次是中性情感,最后是负面情感,它跟正面情感的差距依然是9%。

        把上图与豆瓣评分进行对比,中性情感比3星占比要少14%,说明不少3星正规快三平台app,它实际上的情感是偏向正面或负面的,并不是绝对的中性。

        最后,把前面匹配到的正面词、负面词分别拷贝添加到“分词选词”菜单的“选词结果”中,就能自动获取到由正面词、负面词各自组成的词云图。从下图1正面词云图可以看出,正面正规快三平台app里表达喜欢、不错、爱情、惊喜、成功、凯旋的比较多;看下图2负面词云图,负面正规快三平台app里讨论更多的是绑架、尴尬、荒诞、遗憾、欺骗等。

        5

        鲜花

        握手

        雷人

        路过

        鸡蛋

        刚表态过的朋友 (5 人)

        相关阅读

        发表正规快三平台app

        最新正规快三平台app

        正规快三平台app Fuller 2020-4-10 09:53
        842337597: 求问,情感分析的时候把句子分成了两段,怎么能判断整个句子的情感倾向呢?还有赋值怎么能体现出来呢
        因为这里无法截图,如果需要看截图讲解的话,可以在“使用交流”那里专门发一个帖子。

        在情感分析页面上,看到的分析结果列表是句子级的,如果点击某个句子,在弹出框中看到的是整篇文章的,文章的倾向性是句子的倾向性总和。

        目前,情感判断时候的打分值没有导出。如果你的分析任务需要分值,你可以归一化成-1,0,1,-1代表负面,0,中性,1是正面。统计出来的结果跟精确打分的结果差别不大
        正规快三平台app 842337597 2020-4-10 09:34
        求问,情感分析的时候把句子分成了两段,怎么能判断整个句子的情感倾向呢?还有赋值怎么能体现出来呢

        查看全部正规快三平台app(2)

        GMT+8, 2020-8-12 14:18