1. 什么是情感分析(别名:观点提取,主题分析,情感挖掘。。。)
应用:
1)正面VS负面的影评(影片分类问题)
2)产品/品牌评价: Google产品搜索
3)twitter情感预测股票市场行情/消费者信心
2. 目的
利用机器提取人们对某人或事物的态度,从而发现潜在的问题用于改进或预测。
这里我们所说的情感分析主要针对态度(attitude)。
注:Scherer 情感状态类型主要可以分为:
情绪(emotion):有一定原因引发的同步反应。例如悲伤(sadness),快乐(joy)
心情(mood):没有明显原因引发的长期低强度的主观感受变化。例如忧郁(gloomy),倦怠(listless)
人际立场(interpersonal stance):对他人的特定反应。例如疏远(distant),冷漠(cold)
态度(attitude):对特定人或事物的带有主观色彩的偏好或倾向。喜欢(like),讨厌(hate)
个性特质(personal traits):相对稳定的个性倾向和行为趋势。例如焦虑(nervous),渴望(anxious)
具体定义可以参考这篇文章
3. 情感分析的内容
考虑到态度可以具体分成一下内容:
1) 态度的持有者(source)
2) 态度的目标(aspect)
3) 态度的类型:一系列类型如喜欢(like),讨厌(hate),珍视(value),渴望(desire)等;或着简单的加权极性如积极(positive),消极(negative)和中性(neutral)并可用具体的权重修饰
4) 态度的范围:某句话/全文
因此情感分析的目标可以分为一下几种:
初级:文章的整体感情是积极/消极的?
进阶:对文章的态度从1-5打分
高级:检测态度的目标,持有者和类型
4. 基准算法(Baseline Algorithm)
极性检测(Bo Pang et.al. Thumbs up? Sentiment Classification using Machine Learning Techniques. EMNLP-2002, 79-86)
数据样例: IMDB影评数据
步骤: