名称 | 格式 | 链接 | 提取码 |
---|---|---|---|
unlabeled_status | zip,z01 (2.0 GB) | http://pan.baidu.com/s/1pKKDD0J | a3f2 |
unlabeled_links | zip,z01/02 (2.5 GB) | http://pan.baidu.com/s/1hsLigAC | v7fz |
train | zip (19.4 MB) | http://pan.baidu.com/s/1gf4VhDp | dc21 |
test | zip (7.7 MB) | http://pan.baidu.com/s/1o8ReMIQ | iaex |
vaild | zip (6.0 MB) | http://pan.baidu.com/s/1pKYkMQB | q5md |
final_labels | txt (44.5 KB) | https://pan.baidu.com/s/1minoyAO | 8z4x |
用户画像(user profiling)是指对用户的人口统计学特征、行为模式、偏好、观点、目标等进行标签化,是互联网时代实现精准化服务、营销和推荐的必经之路,在网络安全、管理和营运等领域具有重要意义。
微博用户画像是指利用微博用户的内容信息(如发表的微博和评论)、行为记录(如浏览、转发、点赞、收藏等)和链接结构(如用户之间的粉丝关系)等,对用户的不同维度进行画像,对完善及扩充微博用户信息、分析微博生态以及支撑微博业务等方面具有非常重要的意义。
本次使用的数据集中一共包含三类信息:
1、社交关系信息--包含一个约256.7万微博用户构成的社交网络,其中的社交关系可能是单向的(即单向关注,即为粉丝关系)或双向的(即互相关注,即为好友关系)。
2、用户微博信息--包含约4.6万用户的微博文本,这些用户都属于上述社交网络。
3、用户标签信息--包含约5千用户的年龄、性别及地域标签,这些用户都属于上述4.6万带微博文本数据的用户。我们将基于这5千带标签的用户划分训练集、验证集和测试集。
数据集统计信息(大致数据)如下表所示:
数据集 | 社交网络规模 | 带微博文本用户数 | 带标签信息用户数 |
---|---|---|---|
训练集 | 256.5万用户,5.5亿关注关系 | 4.4万 | 0.3万 |
验证集 | 0.1万用户,15万关注关系 | 0.1万 | 0.1万 |
测试集 | 0.1万用户,13万关注关系 | 0.1万 | 0.1万 |
总计 | 256.7万用户,5.5亿关注关系 | 4.6万 | 0.5万 |
1、训练集用于模型的学习,验证集用于在线实时评估算法效果,测试集用于最终的效果评测
2、训练集包含了整个数据集社交网络;
3、验证集和测试集的用户标签信息不发布,用于组委会进行在线实时评测和最终评测。
训练集、验证集和测试集都包含有四个文件,其格式如下:
1、info.txt:用户信息文件
每一行代表一个用户,包含三个属性,用||分开。包含的属性依次如下:
uid: 用户唯一标识,由数字组成
screen_name: 用户名,与uid一一对应,None代表此项信息缺失
avatar_large: 用户头像的网址,None代表此项信息缺失
2、labels.txt:用户标签文件
每一行代表一个用户,包含四个属性,用||分开。包含的属性依次如下:
uid: 用户唯一标识,由数字组成
gender: 用户性别,m代表男性,f代表女性,None代表此项信息缺失
birthday: 用户出生年份,None代表此项信息缺失
location: 用户地域,部分用户包含省份和城市信息,部分用户只有省份信息,None代表此项信息缺失
3、links.txt:用户关系文件
每一行代表一个用户的粉丝列表,由多个用户id组成,以空格分隔,从第二个用户到最后一个用户均为第一个用户的粉丝
4、status.txt:微博文本文件
每一行代表一条用户微博,由6个属性组成,以英文逗号分隔。包含的属性依次如下:
uid: 用户唯一标识,由数字组成
retweet count: 转发数,数字
review count: 评论数,数字
source: 来源,文本
time: 创建时间,时间戳文本(目前有两种格式,yyyy-MM-dd HH:mm:ss和yyyy-MM-dd HH:mm)
content: 文本内容(可能包含@信息、表情符信息等)
主办单位
中国中文信息学会社会媒体处理专业委员会
协办单位
北京创新乐知信息技术有限公司(CSDN)
评测主席
蒋盛益广东外语外贸大学
万怀宇北京交通大学
评测委员:(按姓氏笔画排序)
王军伟北京创新乐知信息技术有限公司(CSDN)
左建平北京创新乐知信息技术有限公司(CSDN)
刘 洋山东大学
刘德喜江西财经大学
沙 灜中国科学院信息工程研究所
胡 照江西萍乡检察院
蔡 超中国国防科技信息中心
薛 云华南师范大学