数据集

名称 格式 链接 提取码
training.tar.gz gz (117.5 MB) https://pan.baidu.com/s/1cUMiqxlMeQhDluIdRDnODg yrit
validation.tar.gz gz (46.7 MB) https://pan.baidu.com/s/1s6r6JLiz1yn-0IjCYlmYbg spwn
eupt_sample_submission.csv csv (1.2 MB) https://pan.baidu.com/s/1iPNGKBgVNE6QEcIf4hChiQ at4q
(2)training.tar.gz gz (77.7 MB) https://pan.baidu.com/s/1tHeo1uHXllr4OE5dDhHpXw kn39
(2)validation.tar.gz gz (29.4 MB) https://pan.baidu.com/s/14T6W3GfV3v5V53GcWifKpA 1mhg
testing.tar.gz gz (37.8 MB) https://pan.baidu.com/s/1WHc3blkNO_EK9w_pAO9fCA nctw

背景简介

关于SMP 2018

全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。

第七届全国社会媒体处理大会(SMP 2018)由哈尔滨工业大学承办,于2018年8月2—4日在哈尔滨召开。

关于用户画像技术评测

用户画像(user profiling)是指对用户的个体特征、行为模式、兴趣偏好等不同维度的属性进行标签化,它是互联网时代实现精准化推荐和个性化服务的必经之路,在网络营运、管理和安全等领域具有重要意义。

全国社会媒体处理大会分别于2016和2017年举办了两届用户画像技术评测。第一届评测的题目是微博用户画像,包括用户年龄推断、用户性别推断以及用户地域推断三项评测任务。第二届评测的题目是CSDN用户画像,包括文档主题词生成、用户兴趣标注以及用户成长预测三项评测任务。前两届评测活动一共吸引了来自全球的1322名参赛者组成的528支队伍参赛。

关于今日头条作者画像

SMP 2018用户画像技术评测由北京字节跳动科技有限公司(今日头条)协办并赞助。今日头条是一款基于数据挖掘技术的个性化推荐引擎产品,它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品之一。今日头条每天推送超过100亿条资讯,让超过1亿人与感兴趣的信息相遇,每天由此产生数十亿次点击,处理数据量超过7.8PB。

 随着机器创作能力越来越强,今后社会媒体上将会产生越来越多的机器创作者自动生产的内容。有效识别出哪些是人类作者生产的内容,哪些是机器作者生产的内容(包括机器写作、机器翻译、机器自动摘要),对于媒体内容的审核、分发、推荐等,具有十分重要的意义。因此,本届技术评测将聚焦于媒体内容的作者画像问题,具体评测任务是针对今日头条提供的大量媒体内容文档,对其作者身份进行识别。

数据集说明

数据集统计信息

本次技术评测数据集共283,085篇文档,包含四个部分:机器人作者生成的文章,由今日头条提供,共60,250篇;人类作者写作的文章,爬取自各大中文新闻网站,共92,835篇;机器翻译生成的文章,从英文新闻网站爬取后调用各种机器翻译接口生成,共70,000篇;自动摘要生成的文章,从新闻网站爬取后调用各种自动摘要工具生成,共60,000篇。

整个数据集将被分为训练集、验证集和测试集。训练集用于模型的学习,共146,421篇,将于5月8日发布;验证集用于在线实时评估算法效果,共58,567篇,将于6月1日发布;测试集用于最终的效果评测,共78,097篇,将于7月1日发布。

训练集格式

训练集共包含146,421篇文档,文件名为training.txt,,每一行代表一篇文档,包含三个字段,依次为文档标签、文档内容和文档ID,Unicode编码,JSON格式,如下所示:

  1. {
  2. "标签":"自动摘要",
  3. "内容":"分析中国经济,要看这艘大船方向是否正确,动力是否强劲,潜力\u662f否充沛。只要投资者全面了解中国改革 开放以来的经济发展历程、近期中国为促进经\u6d4e持续稳定增长制定的战略以及中国经济各项数据和趋势,就会作出正确判断。",
  4. "id":0
  5. }

数据集说明

1. 本次技术评测使用的数据集由今日头条提供,仅限于本次技术评测使用,未经许可不能用于任何其他目的和任何地方。如需将本数据集用于其他课题研究及发表论文,需与评测主办方或今日头条联系取得许可后方可使用。

2. 数据集的具体内容、范围、规模及格式以最终发布的真实数据集为准。

3. 训练集用于模型的学习,验证集用于在线实时评估算法效果,评测集用于最终的效果评测。其中验证集和评测集的标签信息不公开发布,用于组委会进行在线实时评测和最终评测。

数据提供

主办单位:

中国中文信息学会社会媒体处理专业委员会

协办单位

北京交通大学网络科学与智能系统研究所

北京字节跳动科技有限公司(今日头条)

评测指导:

刘 挺哈尔滨工业大学


唐 杰清华大学

李 航北京字节跳动科技有限公司(今日头条)

评测主席:

蒋盛益广东外语外贸大学

万怀宇北京交通大学

评测委员:(按姓氏笔画排序)


李 磊北京字节跳动科技有限公司(今日头条)

沙 灜中国科学院信息工程研究所

周 浩北京字节跳动科技有限公司(今日头条)

薛 云华南师范大学