把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。
- 数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。
- 有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。
- 我这里“问答”和“阅读理解”划分的标准是:输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;“问答”可以看做是对话的另外一种形式。
关注公众号:尘世美小茶馆,获取更多丰富资源。
目录:
- 1. NLP中文语料
- 2. NLP外文语料
- 3. 语言资源
- 4. KG数据
包含1946年-2003年人民日报全部数据以及文革网(2005-2008)全部图文数据库。原始发布地址不详,只找到转载的页面 ,作者邮箱应该是 [email protected] ,联系过,没收到回复。原始数据是图文数据库,我将其转存百度网盘 ,然后单独整理了一个sql文件方便使用和查询。大多数情况下,只需要考虑文本内容,我写了一个脚本rmrb.py 将所有新闻导出到txt文件中,方便使用。新闻一共有137万多条。
微信公众号语料库:只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文,数据大约3G。
中国历代人物传记数据库(The China Biographical Database, CBDB)是一个线上关系型数据库,其远期目标在于系统性地收入中国历史上所有重要的传记资料,其内容无限制地、免费地提供学术研究。截止2018年9月为止,该数据库一共收录了422,600人的传记资料,这些人主要出自七世纪至十九世纪,该数据库目前致力于增录更多的唐代和明清的人物传记资料。
CBDB的数据是用access和sqlite两种数据库进行存储,我转了一个mysql的版本,表格和字段的具体说明请参考官网。由于数据是不断更新的,需要最新数据的请到官网下载。脚本cbdb.py是将sqlite中的数据导入mysql中,如果数据库表格发生改变,可能需要更新一下脚本。
2018中国‘法研杯’法律智能挑战赛(任务:罪名预测、法条推荐、刑期预测)的[数据](https://cail.oss-cn-qingdao.aliyuncs.com/CAIL2018_ALL_DATA.zip),数据集共包括268万刑法法律文书,共涉及183条罪名,202条法条,刑期长短包括0-25年、无期、死刑。今日头条中文新闻(短文本)分类数据集:共382688条,分布于15个分类中,包含民生、文化、娱乐、体育、财经、房产、骑车、教育、科技、军事、旅游、国际、证券、农业、电竞。
清华新闻分类语料:74万篇新闻文档,划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
包含了两个任务的数据集:用户意图领域分类,特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴。
中国新闻网新闻分类语料:从中国新闻网爬取2008-2016年七个新闻种类的新闻,包括中国大陆政治、港澳台政治、国际新闻、金融、文化、娱乐、体育(论文还提到health这个类别,数据里其实没有)。每个样本只包括新闻的第一段话。每个类别样本数相同。140万训练集,11.2万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Chinanews子文件)
凤凰网新闻分类语料:从凤凰网爬取2006-2016年五个新闻种类的新闻,包括中国大陆政治、国际新闻、港澳台、军事和社会新闻。每个样本只包括新闻的第一段话。每个类别样本数相同。80万训练集,5万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,Ifeng子文件)
SiGHAN2005分词[数据集](http://sighan.cs.uchicago.edu/bakeoff2005/)(或在我的repo中下载):北大、香港城市大学、台湾“中央研究院”(繁体)、微软亚研院四个机构提供的中文分词数据集。MSRA命名实体识别数据集:包含地名、人名和机构名三类。
人民日报命名实体识别数据集:包含地名、人名和机构名三类。
微博命名实体识别数据集:包含地名、人名、机构名、行政区名四类。
影视、音乐、书籍实体标注数据:类似于人名/地名/组织机构名的命名体识别数据集,大约10000条影视/音乐/书籍数据。
BosonNLP(好像不维护了,数据可以在我的repo中找到):2000条,包含人名、地名、时间、组织名、公司名、产品名。
cluener:是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS。数据分为10个标签类别,分别为: 地址(address),书名(book),公司(company),游戏(game),政府(government),电影(movie),姓名(name),组织机构(organization),职位(position),景点(scene)
人民日报2014NER标注数据(数据可以在我的repo中找到):包含人名、地点、组织、时间。
1300W字的新闻标注语料,该语料可用于分词、NER、POS等任务。标记和格式请参考此文章。
CLUEWSC2020: WSC Winograd模式挑战中文版,中文指代消解任务,训练集:1244,开发集:304。
医疗领域对话数据集,110万轮对话,共400万句:从好大夫网上爬的。
中文医疗对话数据集:
领域 | 数据量 |
---|---|
男科 | 94596 |
内科 | 220606 |
妇产科 | 183751 |
肿瘤科 | 75553 |
儿科 | 101602 |
外科 | 115991 |
携程网酒店评论数据:5000+条正向评论,2000+负向评论。
外卖评论数据:4000+正向,8000+负向。
电商商品评论数据:10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条,包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店。
微博情感数据:10万多条,带情感标注的新浪微博,正负向评论约各 5 万条。
微博情感数据:36万多条,带情感标注的新浪微博,包含4种情感,其中喜悦约 20 万条,愤怒、厌恶、低落各约5万条。
电影评论评分数据:28部电影,超70万用户,超200万条评分/评论数据,包括1-5分评分,及评论的点赞数。
大众点评餐馆评论数据:24 万家餐馆,54 万用户,440 万条评论/评分数据。包括总体评分(0-5),环境评分(1-5),口味评分(1-5),服务评分(1-5)
Amazon商品评论数据:52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据,评分1-5。
豆瓣电影评论数据:5万多部电影(3万多有电影名称,2万多没有电影名称),2.8万用户,280万条评分数据,评分1-5。
大众点评用户评论:从大众点评爬取的用户评论。1-3星划分为负面评论、4-5星为正面评论。每个类别样本数相同。200万训练集,50万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,dianping子文件)
京东用户评论数据:JD full是五分类数据,1-5星每个星级为一个类别,类别的样本数相同。300万训练集,25万测试集。JD binary是二分类数据,1-2星属于负面评论,4-5星属于正面评论,忽略3星,类别的样本数相同。400万训练集,36万测试集。(https://pan.baidu.com/s/1G-krApbhq-Lb2mxNSQXdhg#list/path=%2F,提取码:7xh0,JD full和JD binary子文件)
LCQMC:26万对句子,判别两个问句是否表示相同的意思。(https://pan.baidu.com/s/1yerI7P6Lvm7HdgrKdRJyGQ,提取码:q8y1)
中文文本语义相似度语料库:相似度值:0-5,5表示相似度最高(意思一样),0表示相似度最低(语义相反或不相干)
ATEC蚂蚁金服语义相似度数据:给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义(数据集在我repo也可以下载)。
580万百度知道社群问答:包括超过580万的问题,每个问题带有问题标签。问答对983万个,每个问题的答案个数1.7个,问题标签个数5824个。
DuReader:百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。
不同领域的知道问答数据:包含保险、金融、法律等领域,字段有用户query,网友回答和最佳回答。
社区问答数据:含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个话题,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。
人民日报&童话故事:完形填空类型的,预测的是一个词,2.8万篇文档,10万个query。
CMRC2017:新闻领域的语料,形式为完形填空和用户提问类两种,共36万+数据。
CMRC2018:维基语料,1.8万个query,形式为给定用户query从上下文抽取span。
CMRC2019:句子级别的完形填空。1000篇文档,10万个query。根据给定的一个叙事篇章以及若干个从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。与CMRC 2017的不同是:空缺部分不再只是一个词,而是一个句子;每个篇章不只是一个空缺,会包含多个空缺位置,机器可利用的信息大大减少;候选选项中包含假选项,即该选项不属于篇章中任何一个空缺位置,显著增加了解答难度。
DRCD:维基语料,3.4万个query,形式为给定用户query从上下文抽取span(繁体汉语)。
C^3:文档是混合类型的,有对话、故事、新闻报道、广告等。形式为用户提问类,结果是根据候选答案进行选择(只有一个是正确的)。1.4万篇文档,2.4万query。
ChiD:成语预测类型任务(完形填空),给定上下文和每个位置候选的成语列表,预测该位置应该填什么成语。共58万篇文档,72.9万query(cloze)。
DuReader:百度开源的一个QA和MRC数据集,共140万篇文档,30万个问题,及66万个答案。
Fake News Corpus:940万篇新闻,745个类别(domain)。
AG News:100多万的新闻数据,分为全球新闻、运动、商业和科技四类。
ColBERT:20万条短文本,判断是否包含幽默元素的二分类数据集,正负各十万。
MovieTweetings:推特电影评分数据集,822,784条,0-10分评分。
Amazon Fine Food Reviews:亚马逊上的食品评价,包含56万条评论,涉及7.4万产品,1-5分。
Amazon Reviews:美亚上面商品的评论数据,有2.3亿条。
Yelp Open Dataset:包含800多万条评论。
MovieLens:包含2500万条电影评论,涉及6万2千部电影和16万用户,100万个标签。
Twitter Chat Corpus:500多万推特对话数据。
DAWT:包含了六种语言共1300万的文章,实体提及(mention)是链接到Freebase的具体实体上的,标注信息也包括了实体类别。
欧盟21种语言翻译平行语料:20种语言到英语的平行语料,包括保加利亚语、捷克语、丹麦语、德语、希腊语、西班牙语、爱沙尼亚语、芬兰语、法语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语。 百度网盘 y7k3
联合国平行语料,当前版本(1.0)由联合国的官方文件和其他议会文件组成,包含了联合国的六种官方语言(英语、法语、俄语、汉语、阿拉伯语、西班牙语两两之间的平行语料对),语料的内容主要是在1990-2014年之间产生和翻译的,并在句子级别上进行了对齐。百度网盘(目前只包含中文到除阿拉伯语的其他语言翻译对) pnhy
WMT提供的新闻评论语料,共98个双语对,15种语言。百度网盘 igss
WMT提供的维基百科标题多语对,共11个双语对,14种语言。百度网盘 inxn
News-Commentary和wikititles的下载脚本
Ted上面有丰富的语料资源,包含了109种语言。ajinkyakulkarni14提供了2014年获取的平行语料,和获取语料的脚本。
neubig也提供了他们用于论文实验的Ted数据。
neubig数据百度网盘 dn6y
中英翻译数据集:520万对中英文平行语料,每一个对,包含一个英文和对应的中文。中文或英文,多数情况是一句带标点符号的完整的话。对于一个平行的中英文对,中文平均有36个字,英文平均有19个单词。
PAWS and PAWS-X:Goggle公开的同义句识别语料。PAWS是英文语料,包含108463对英文句子对;PAWS-X包含中、法、德、日、韩、西班牙六种语言的语料,每种语言大约5.3W条。
Dialogue Natural Language Inference:用于改善对话模型的一致性,判断句子对之间的关系,是蕴含、中性还是矛盾。
MultiNLI Matched/Mismatched:43万对句子,判断是蕴含、中性还是矛盾。包含多种类型的文本,涉及口语和书面语言。
XNLI:11.2万句子对,判断是蕴含、中性还是矛盾。共有十四种语言,有中文。
SNLI:57万个句子对,判断是蕴含、中性还是矛盾。
Quora Question Pairs:判断两个问句是否是语义等价的,共40万对。
MS MARCO:100多万的问答数据,也适用于阅读理解、文章排序、关键词抽取等任务。
HotpotQA:100多万问答对。需要多跳推理才能得到正确答案,难度更大。
SQuAD v2.0:15万问答对,依据给出的上下文,其中10万可回答,5万不可回答。
BigPatent:包含130万的美国专利文档,和人工撰写的摘要。
百科实体(2010年):根据当时百科页面的标签来筛选实体类型(人名、地名),存在一定噪音,酌情使用。95433个地名,278577个人名。
中国古代编年史CBDB实体(2017年):227266个人名和百科的会有重合。
百科词条名(2010年百度百科):一千万词条名。
该资源作者为刘邵博,由其综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。词典结构为:词语\t词性\t词频。词频是用ansj分词对270G新闻语料进行分词统计词频获得。
谷歌书籍N-gram数据:分别整理了多种语言的n-gram词典资源,包含中文,从1到5-gram都有。
1.4亿三元组中文知识图谱
Dbpedia:多语知识图谱数据,共有130亿个三元组,但大部分都是英语。有760个类,1105个关系,1622个属性。
开放的中文知识图谱社区:这里有很多垂直领域图谱数据,我就不一一放上来了。