数据集

名称 格式 链接 提取码
SMP2019_ECISA.zip zip (3.2 MB) https://pan.baidu.com/s/1fHPG-47UXHepn4GmwWZNCw tzgn
SMP2019_ECISA_Test.xml xml (2.8 MB) https://pan.baidu.com/s/1vvCjytha9Bw8eGqzSQ9H_w ytqk

背景简介

关于SMP 2019

全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。第八届全国社会媒体处理大会(SMP 2019)由哈尔滨工业大学(深圳)承办,将于2019年8月16—18日在深圳召开。本次会议的评测单元有隐式情感分析、中文人机对话和文本溯源三个项目。

评测任务

本届“拓尔思杯”中文隐式情感分析评测任务为中文隐式情感句识别与情感分类。任务描述如下:

文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。从文本的语言表达层面,依照是否含有显式情感词,可分为显式情感分析和隐式情感分析。显式文本情感分析作为该领域的基础性研究,已有大量的相关研究成果。然而,在日常表达中,人们在对客观事物体验及其行为所反映出的情感是丰富而抽象的,除采用显式情感词表达情感外,还采用客观陈述或者修辞方式来隐式地表达自己的情感。根据我们对收集的文本数据的标注结果,隐式情感句占总情感句的15%-20%左右。

我们将隐式情感定义为:“不含有显式情感词,但表达了主观情感的语言片段”,并将其划分为事实型隐式情感和修辞型隐式情感。其中,修辞型隐式情感又可细分为隐喻/比喻型、反问型以及反讽型。本次评测任务中,仅针对隐式情感的识别与情感倾向性分类。

【中文隐式情感句示例】

例1你们公司一年的销售额也赶不上我们一个月的。(贬义隐式情感)

例2有种活着诗里的感觉:烟笼寒水月笼沙,夜泊秦淮近酒家。(褒义隐式情感)


例3 我去的时候,客栈标间大多开价100元一间,还价到70元住下。(不含情感)

数据集说明

本次“拓尔思杯”中文隐式情感分析评测使用的数据集由山西大学提供,数据来源主要包括微博、旅游网站、产品论坛,主要领域/主题包括但不限于:春晚、雾霾、乐视、国考、旅游、端午节等。

本次评测中,我们将使用一个大规模情感词典,过滤掉所有包含显式情感词的文本。对这类不含显式情感词的数据进行标注,将数据标注为:褒义隐式情感、贬义隐式情感以及不含情感倾向的句子。评测数据以切分句子的篇章形式发布,保留了完整的上下文内容信息。

训练数据集包括篇章12664篇,其中标注数据14774句,褒义、贬义隐式情感句分别为3828、3957句,不含情感句为6989句。验证集包括篇章4391篇,其中标注数据5143句,褒义、贬义隐式情感句分别为1232、1358句,不含情感句为2553句。测试数据集包括篇章6380篇,其中标注数据3800句,褒义、贬义隐式情感句为919和979句,不含情感句为1902句。其余为混淆数据,混淆数据不作为测点,在最终结果评测时会预先去除。

数据集以xml格式发布,内容形式为:

  1. <Doc ID="5">
  2. <Sentence ID="1">因为你是老太太</Sentence>
  3. <Sentence ID="2" label="1">看完了,满满的回忆,很多那个时代的元素</Sentence>
  4. </Doc>

红色加粗为标记句子,含有完整的上下文,标签为:0-不含情感,1-褒义隐式情感,2-贬义隐式情感。