数据集

名称 格式 链接 提取码
源句子.txt txt (17.8 MB) https://pan.baidu.com/s/1CziKtsB5Idp7b-vB7E34XQ udi0
待判定句子.txt txt (189.0 KB) https://pan.baidu.com/s/1ugiBQyLDflNf9JPKJM7sNg jb8i
smp_sample.csv csv (15.0 KB) https://pan.baidu.com/s/1981pvdkesVPIxfNe2W37qg tsl2
测试集(gb2312) Folder (485.0 MB) https://pan.baidu.com/s/1RrEqh_0dasZIKHrwptjPzw
测试集(utf-8) Folder (485.0 MB) https://pan.baidu.com/s/1urydsv2CexwITlnxwzXHqw

背景简介

关于SMP 2018

全国社会媒体处理大会(SMP)由中国中文信息学会社会媒体处理专委会主办,专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。第七届全国社会媒体处理大会(SMP 2018)由哈尔滨工业大学承办,将于2018年8月2—4日在哈尔滨召开。本次会议的竞赛单元有用户画像、中文人机对话和文本溯源三个项目。

关于文本溯源技术评测

SMP 2018文本溯源技术评测由军事科学院军事科学信息研究中心与大会联合主办。本次技术评测以科研立项或成果创新型审查为应用背景,文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文件。文本溯源技术在学术诚信检测、搜索引擎优化等领域有广泛应用。

数据集说明

任务描述

本次文本溯源技术评测的任务是句子级的检测,即给定一批待查句子和一个源数据集,判断待查句子是否改编自源数据集中的句子,如果是则找出相应的源句子。句子改编的范畴包括但不限于:微修改、增加、部分删简、对文字表述进行概括、改变原有的排列顺序、关键词替换等。 

数据说明

1. 本次技术评测使用的数据集仅限于本次技术评测和研究使用,未经许可不得用于营业性目的,不得汇编入其他数据集或数据库。

2. 数据集包括验证集和最终评测集。验证集和评测集都包含两部分数据:待查句子集、源句子集。验证集用于参赛队伍评估方法模型的检测效果,评测集用于最终的效果评测。其中验证集和评测集的标签信息不公开发布,用于组委会进行在线实时评测和最终评测。

数据提供

主办单位:

中国中文信息学会社会媒体处理专业委员会

军事科学院军事科学信息研究中心

协办单位

清华大学计算机系AMiner团队

评测主席:

蒋盛益广东外语外贸大学

蔡 超军事科学院军事科学信息研究中心

评测委员:(按姓氏笔画排序)


邓志鸿北京大学

齐浩亮黑龙江工程学院

宋 驰清华大学

周玉秀军事科学院军事科学信息研究中心

高 强军事科学院军事科学信息研究中心