第七届全国社会媒体处理大会技术评测(SMP CUP 2018)

 欢迎来到全国社会媒体处理大会技术评测(SMP CUP 2018)!

 全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。第七届全国社会媒体处理大会(SMP 2018)将于8月2日至4日在哈尔滨召开。

 本届会议将并行举办三个技术评测竞赛单元:

背景简介

用户画像技术评测(SMP-EUPT)

 随着机器创作能力越来越强,今后社会媒体上将会产生越来越多的机器创作者自动生产的内容。有效识别出哪些是人类作者生产的内容,哪些是机器作者生产的内容,对于媒体内容的审核、分发、推荐等,具有十分重要的意义。

 本届用户画像技术评测聚焦于媒体内容创作者画像问题,由北京字节跳动科技有限公司(今日头条)提供丰富的媒体内容数据集,进行作者身份的自动识别。

中文人机对话技术评测(SMP-ECDT)

 人机对话技术近年来受到了学术界和产业界的广泛关注。学术上,人机对话是人机交互最自然的方式之一,其发展影响并推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展;产业上,众多产业界巨头相继推出了人机对话技术相关产品,如个人事务助理、虚拟情感陪护机器人、娱乐型聊天机器人等等,并将人机对话技术作为其公司的重点研发方向。

 本届中文人机对话技术评测将聚焦于用户意图的识别和响应问题,以科大讯飞股份有限公司提供的数据集为基础,分别开展用户意图领域分类和特定领域任务型人机对话在线评测。

文本溯源技术评测(SMP-ETST)

 文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文件。文本溯源技术在学术诚信检测、搜索引擎优化等领域有广泛应用。

 本届文本溯源技术评测以科研立项或成果创新型审查为应用背景,以著名的学术搜索系统AMiner提供的大量中文论文摘要数据为基础,进行句子溯源技术评测。

任务描述

评测单元 任务描述
用户画像  给定一个由若干媒体内容文档构成的数据集,参赛队伍采用适当的算法,对每篇文档的作者进行身份识别,区分出该文档属于人类写作、机器写作、机器翻译和机器自动摘要中的哪一类。
中文人机对话  任务1:用户意图领域分类
 在人机对话系统的应用过程中,用户可能会有多种意图,相应地会触发人机对话系统中的多个领域(domain) ,包括任务型垂直领域(如查询机票、酒店、公交车等)、知识型问答以及闲聊等。本任务的目标就是正确地将用户的输入分类到正取的领域(domain)中。
 任务2:特定域任务型人机对话在线评测
 针对特定域的任务型人机对话系统,人工实时在线对话交互及评价能够反映系统对于用户意图响应的性能以及用户真实的满意度。本任务的目标是面向特定领域的任务型人机对话在线评测。
文本溯源  本次文本溯源技术评测的任务是句子级的检测,即给定一批待查句子和一个源数据集,判断待查句子是否改编自源数据集中的句子,如果是则找出相应的源句子。句子改编的范畴包括但不限于:微修改、增加、部分删简、对文字表述进行概括、改变原有的排列顺序、关键词替换等。

数据集说明

  1. 用户画像技术评测数据集由今日头条提供,中文人机对话技术评测数据集由科大讯飞提供,文本溯源技术评测数据集由清华大学AMiner系统提供。所有数据集仅限于本次技术评测使用,未经许可不能用于任何其他目的和任何地方,不得汇编入其他数据集或数据库。如需将某数据集用于其他课题研究及发表论文,需与评测主办方联系取得许可后方可使用。
  2. 数据集的具体内容、范围、规模及格式以最终发布的真实数据集为准。
  3. 训练集用于模型的学习,验证集用于在线实时评估算法效果,评测集用于最终的效果评测。其中验证集和评测集的标签信息不公开发布,用于组委会进行在线实时评测和最终评测。

重要日期

评测单元 重要日期
用户画像 4月15日:发布评测方案,开始报名
5月05日:发布训练集
6月01日:发布验证集,开始提交中间结果并发布周排行榜
6月31日:停止提交验证集中间结果
7月01日:发布评测集,提交最终评测结果(1天之内完成)
7月23日:发布获奖者名单
8月03日:技术评测论坛(颁奖+技术报告)
中文人机对话 4月01日:开始预报名
4月11日:开始正式报名
5月01日:发布训练及开发集
5月02日:开始系统搭建及调整
7月13日:提交任务1最终评测结果(1天之内完成)
7月14日:提交任务2最终评测结果(3天之内完成)
7月23日:发布获奖者名单
8月03日:技术评测论坛(颁奖+技术报告)
文本溯源 5月03日:发布评测方案,开始报名
5月15日:发布训练集
6月01日:发布验证集,开始提交验证集中间结果
6月31日:停止提交验证集中间结果
7月01日:发布评测集,提交最终评测结果(1天之内完成)
7月23日:发布获奖者名单
8月03日:技术评测论坛(颁奖+技术报告)

奖励

评测单元 奖励
用户画像 A. 奖金
一等奖1名:10000元
二等奖2名:每名5000元
三等奖3名:每名3000元
B. 奖励
获奖者可获得直接面试今日头条AI Lab的机会
每周排行榜的冠军获得者简历可直通今日头条HR
中文人机对话 A. 任务1
第1名:8000元
第2名:5000元
第3名:4000元
B. 任务2
第1名:15000元
第2名:10000元
第3名:8000元
文本溯源 一等奖1名:20000元
二等奖2名:每名10000元
三等奖3名:每名4000元

组织者

主办单位:

中国中文信息学会社会媒体处理专业委员会

评测指导:

刘 挺 哈尔滨工业大学

唐 杰 清华大学

李 航 北京字节跳动科技有限公司(今日头条)

承办单位:

用户画像

北京交通大学网络科学与智能系统研究所

北京字节跳动科技有限公司(今日头条)

中文人机对话

哈尔滨工业大学社会计算与信息检索研究中心

科大讯飞股份有限公司(iFLYTEK)

文本溯源

军事科学院军事科学信息研究中心

清华大学计算机系AMiner团队

评测主席:

蒋盛益 广东外语外贸大学

万怀宇 北京交通大学(用户画像)

张伟男 哈尔滨工业大学(中文人机对话)

蔡 超 军事科学院军事科学信息研究中心(文本溯源)

评测委员:(按姓氏笔画排序)

用户画像 李 磊 北京字节跳动科技有限公司
沙 灜 中国科学院信息工程研究所
周 浩 北京字节跳动科技有限公司
薛 云 华南师范大学
中文人机对话 车万翔 哈尔滨工业大学
陈志刚 科大讯飞股份有限公司
芮祥麟 华为公司
文本溯源 邓志鸿 北京大学
齐浩亮 黑龙江工程学院
宋 驰 清华大学
周玉秀 军事科学院军事科学信息研究中心
高 强 军事科学院军事科学信息研究中心

竞赛要求

详见各评测单元页面:

用户画像:SMP-EUPT 2018

中文人机对话:SMP-ECDT 2018

文本溯源:SMP-ETST 2018