数据集

名称 格式 链接 提取码
SMPCUP2017数据集 txt (4.8 GB) http://pan.baidu.com/s/1jI0wmEU f734
SMPCUP2017任务1训练集 Folder (372 字节) https://pan.baidu.com/s/1o8kFEpO gmh3
SMPCUP2017任务2训练集 Folder (1009 字节) https://pan.baidu.com/s/1qYNR8Eo akq1
SMPCUP2017任务3训练集 Folder (399 字节) https://pan.baidu.com/s/1nvJTVmh vch8
SMPCUP2017验证集 Folder (31.0 KB) https://pan.baidu.com/s/1qXZNkfy djqe
SMPCUP2017评测集 Folder (520.0 KB) https://pan.baidu.com/s/1o8mKNRs p4gp

背景简介

 SMP 2017用户画像技术评测由CSDN提供数据并赞助。CSDN(www.csdn.net)是中国最大的开发者服务平台,也是全球最大的中文IT技术社区,拥有5000万注册用户,每天有数十万用户在论坛上进行IT技术的交流、咨询和分享。

 本数据集将聚焦CSDN技术论坛的用户画像问题。CSDN用户画像是指利用CSDN用户的内容信息(如发表的博客、帖子、评论等)和行为数据(如浏览、评论、收藏、转发、点赞/踩、关注、私信等)等,对用户的不同维度属性进行画像,对完善及扩充CSDN用户信息、分析CSDN社区生态以及支撑CSDN业务发展等方面具有非常重要的意义。

数据集说明

SMP CUP 2017任务1训练集

文件SMPCUP2017_TrainingData_Task1.txt为任务1(主题词生成)训练数据集。每一行代表一篇博客的5个标注主题词,包含6个字段,依次为博客编号、博客编号、主题词1、主题词2、主题词3、主题词4、主题词5,用分开。

说明:任务1的训练集、验证集及测试集都将为每篇文档给出5个标注主题词,参赛者在线评估及最终评测时,只需(且只能)为每篇文档计算3个主题词,计算的主题词与标注主题词匹配上1个得1/3分,匹配上2个得2/3分,匹配上3个得1分。

SMP CUP 2017任务2训练集

文件SMPCUP2017_LabelSpace_Task2.txt列出了任务2(用户兴趣标注)的标签空间,共包含42个标签,数据集(训练集、验证集、评测集)的所有样本的标签都属于该标签空间范围之内。

文件SMPCUP2017_TrainingData_Task2.txt为任务2的训练集。每一行代表一个用户的3个标注的兴趣标签,共包含4个字段,依次为用户编号、兴趣标签1、兴趣标签2、兴趣标签3,用分开。

说明:任务2的训练集、验证集及测试集都将为每个用户给出3个兴趣标签,参赛者在线评估及最终评测时,至多为每篇文档提交3个兴趣标签,提交的兴趣标签与标注的标签匹配上1个得1/3分,匹配上2个得2/3分,匹配上3个得1分。

SMP CUP 2017任务3训练集

文件SMPCUP2017_ TrainingData_Task3.txt为任务3(用户成长值预测)的训练集。每一行代表一个用户在2016年的成长值,共包含2个字段,依次为用户编号和成长值,用分开。

说明:任务3的训练集、验证集及测试集都将为每个用户给出其在2016年的真实成长值,参赛者在线评估及最终评测时,为每个用户计算一个预测成长值,系统最终通过预测值与真实值之间的平均相对误差来进行评测。

数据集统计信息

本次技术评测数据集由全球最大的中文IT技术社区CSDN提供,共包含157,427位用户在2015年期间产生的内容和行为数据以及他们之间的社交关系数据,此外还有部分标签数据。数据集统计信息如下:

数据类别 数据内容 数据量
用户内容数据 用户发表的博客文档 1,000,000篇
用户行为数据 用户发表博客记录 1,000,000条
用户浏览博客记录 3,536,444条
用户评论博客记录 182,273条
用户对博客点赞记录 95,668条
用户对博客点踩记录 9,326条
用户收藏博客记录 10,4723条
社交关系数据 用户之间关注关系 667,037条
用户之间私信记录 46,572条
标签数据 标注了主题词的博客 3,000篇
标注了兴趣的用户 3,000位
标注了成长值的用户 3,000位

说明:标签数据平均分为训练集、验证集和测试集。训练集用于模型的学习,将于近日发布;验证集用于在线实时评估算法效果,其对应的用户和文档编号将于7月1日发布;测试集用于最终的效果评测,其对应的用户和文档编号将于8月1日发布。

数据格式

数据集中用户编号为U0000001至U0157247,文档编号为D0000001至D1000000。全部数据集共包含以下9个文件:

1_BlogContent.txt:用户发表博客内容文件

每一行代表一篇博客,包含三个字段,依次为博客编号、博客标题和博客内容,用分开。

2_Post.txt:用户发表博客记录文件

每一行代表一条发表记录,包含三个字段,依次为用户编号、博客编号和发表时间,用分开。

3_Browse.txt:用户浏览博客记录文件

每一行代表一条浏览记录,包含三个字段,依次为用户编号、博客编号和浏览时间,用分开。

4_Comment.txt:用户评论博客记录文件

每一行代表一条评论记录,包含三个字段,依次为用户编号、博客编号和评论时间,用分开。

5_Vote-up.txt:用户对博客点赞记录文件

每一行代表一条点赞记录,包含三个字段,依次为用户编号、博客编号和点赞时间,用分开。

6_Vote-down.txt:用户对博客点踩记录文件

每一行代表一条点踩记录,包含三个字段,依次为用户编号、博客编号和点踩时间,用分开。

7_Favorite.txt:用户收藏博客记录文件

每一行代表一条收藏记录,包含三个字段,依次为用户编号、博客编号和收藏时间,用分开。

8_Follow.txt:用户之间关注关系文件

每一行代表一条关注关系,包含两个字段,第一列为被关注用户编号,第二列为关注用户编号,用分开。

9_Letter.txt:用户之间私信记录文件

每一行代表一条私信记录,包含三个字段,依次为发信用户编号、收信用户编号和发信时间,用分开

其他说明

1) 本次技术评测使用的数据集由CSDN提供,仅限于本次技术评测使用,未经许可不能用于任何其他目的和任何地方。如需将本数据集用于其他课题研究及发表论文,需与评测主办方或CSDN联系取得许可后方可使用。

2) 本数据集中的所有博客文档都经过筛选(中文字符不少于100字)和过滤(已去掉博客内容中的绝大部分程序代码块)。

3) 数据集已进行脱敏处理,隐去用户ID、用户名、文档ID等信息。

4) 数据集中的标签数据(文档主题词和用户兴趣标签)采用了用户自定义标签与人工标注相结合的标注方式,力求做到精准,但由于主题词生成和兴趣标注问题本身带有一定的主观性和不确定性,因此不存在绝对标准答案。本次技术评测的在线评估和最终评测均以主办方标注的标签数据为标准。

数据提供

主办单位:

中国中文信息学会社会媒体处理专业委员会

协办单位

北京创新乐知信息技术有限公司(CSDN)

评测主席:

蒋盛益广东外语外贸大学

万怀宇北京交通大学

评测委员:(按姓氏笔画排序)


王军伟北京创新乐知信息技术有限公司(CSDN)


左建平北京创新乐知信息技术有限公司(CSDN)

刘 洋山东大学


刘德喜江西财经大学