分享好友 最新动态首页 最新动态分类 切换频道
超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级
2024-11-07 23:08

新智元原创

超100亿中文数据,要造出中国自己的BERT!首个专为中文NLP打造的语言理解基准CLUE升级

编辑:小智,元子

【新智元导读】首个专为中文NLP量身打造的CLUE升级了!目前拥有八个数据集的整体测评及其基线模型,30多位来自各个顶尖机构的志愿者加入并成为了会员。CLUE还发布了已经处理好的100G大规模中文语料,研究者可直接拿来做预训练,完成下游的语言理解、文本分类等任务。「新智元急聘主笔、高级主任编辑,添加HR微信(Dr-wly)或扫描文末二维码了解详情。」

做中文NLP,太难了!

分词难。

分在不同的位置意思大不同。比如「我喜欢上一个人」,到底说的是「I like the last one」,还是说「I'm falling love with someone」?需要根据上下文语境来判断。

「一位友好的哥谭市民」 vs「一位友好/的哥/谭市民」

容易混淆的中文例子

多音字也难。

用过具有AI阅读功能的读书app,你会发现很多时候它读的停顿不对,很多读音也不对,比如把「有债必还」,读成「有债必孩」。千万别让孩子跟着AI学语文!

获取资源更难。

英文很多数据集、预训练模型都是开源的,而中文这方面非常稀缺,虽然很多大厂最先进的技术都用上了,但没有开源数据集和预训练模型,那么多数人就用不上;同时由于是针对企业内部定制的,缺乏普适性。

天下苦中文NLP久矣!

好在,希望出现了!

一群中文NLP开发者,凭着一腔热情,利用业余时间,在GLUE的基础上,做出了中文语言理解测评基准CLUE。这是什么精神?

CLUE包含了代表性的数据集、基准(预训练)模型、语料库、排行榜。

它的诞生,承载着这群开发者巨大的野心:跑遍主流的中文数据集,解决当前中文任务公开可用数据集匮乏、没有基准测评、最先进的预训练模型不足等中文任务基础设施问题,见证像BERT一样、更强大的中文 NLP 模型。

目前CLUE主要构建了以下内容:

本次选取的8个任务可以全面测试预训练模型的语言理解能力,CLUE团队制定了一套科学的任务遴选标准。

不同的任务中文本的大小、语言理解的类型、训练的样本量都要有差异性,而且每个任务必须要有明确的定义,比如短文本的分类任务,句子相似性判断等。CLUE官方会处理好数据,让研究者可以更专注在建模本身。

任务的难度方面,不能太简单也不能是已经解决的问题,太简单的问题没有研究价值,只有未解决的问题才能激发研究者去搭建更好的模型。

任务必须是自然语言理解任务的代表,可以很容易应用到现实场景,如果任务很生僻没有实用价值,那它就没有多大意义了。

最后一点,任务要能衡量汉语独有的语言特性,比如成语、俗语,这块将会给模型带来巨大的挑战,汉语本身就很难了,再加上成语大多是高度概括的,模型理解起来就更有难度。

八个任务

CLUE官方总共收集了214 GB的原始语料库,大约760亿个单词,包含三个部分,CLUECorpus2020-small,CLUECorpus2020和CLUEOSCAR。

CLUECorpus2020-small包含14 GB的中文语料库,包括四个子部分:新闻,网页文本,维基百科和评论。

CLUECorpus2020包含100 GB的中文原始语料库,该语料库可从Common Crawl中检索。这个数据集可以直接用于预训练,而无需其他预处理,包含约2万9千个单独的文件,每个文件都处理成了预训练格式。

CLUEOSCAR是一个庞大的多语种语料库,它是通过Common Crawl语料库的语言分类过滤得到的,包含250 GB的中文原始语料库,做进一步的处理后,最终得到100 GB的中文数据。

你建好了模型,还要一个个去适配所有的8个任务,那就太麻烦了,CLUE官方专门写了一个工具PyCLUE,可以帮你一键完成在不同任务的测试。

为了检测模型是否真正理解了句子的语义,结合中文的特点手工制作了一个包含514个句子对的诊断集,这些句子对覆盖了常见的9种容易造成错误理解的场景。

CLUE还提供了一个排行榜,供用户在CLUE上提交自己的结果。当用户提交预测结果时,评估系统将为每个任务提供最终分数。为了鼓励模型复现,如果模型是开源的,会将模型标记为“已认证”。

看看榜单上这些名字!华为、腾讯都来CLUE刷榜了,但看起来都不如CLUE官方团队提供的人类成绩,实力还是有待提高!

如果想了解CLUE的更多详细信息,可参见CLUE团队最近发表在arxiv的论文。

论文链接:

https://arxiv.org/abs/2004.05986

现在,CLUE诚挚邀请中文自然语言理解方面的专家学者、老师同学、参与者提供更多的中文自然语言理解数据集。这些数据集可以是你自己制作推出的,也可以是您认为很有意义但是是他人制作的数据集。CLUE官方计划在5月14日前完成筛选,推出正式的CLUE Benchmark。

请您将推荐数据集的名称、作者、形式以及License情况发送至:

CLUE@CLUEBenchmarks.com

只需满足以下要求,即可进行推荐:

如果您推荐的数据集被选中,将能极大扩展数据集的知名度,并为学界、业界对自然语言理解的研究做出贡献

点击阅读原文即可查看CLUE的官网详细介绍。

参考链接:

最新文章
快速建站新体验轻松打造专业网站助你成就在线梦想
在这个数字化的时代,拥有一个专业的网站已成为每个人、每个企业的必备工具。无论你是创业者、自由职业者,还是希望展示个人作品的艺术家,网站都是你在线展示自我的最佳平台。传统的建站过程往往复杂而繁琐,需要专业的技术知识和大量的时
短营销攻略,打造品牌崛起新引擎
本方案针对短推广,通过精准定位目标受众、创意内容制作、优化发布时间及平台策略,全方位提升品牌影响力。借助数据分析与效果监控,实现品牌快速崛起,助力企业抢占市场先机。随着移动互联网的快速发展,短已成为当下最受欢迎的传播方式之
网站优化排名推荐,最好的SEO排名优化工具?
关于“网站优化排名”的问题,小编就整理了【6】个相关介绍“网站优化排名”的解答:最好的SEO排名优化工具?1、百度站长工具2、第三方站长免费工具3、百度指数4、百度统计5、17ce是国内专业做网站测速的第三方平台6、5118数据分析平台。7
SEO优化什么意思及最佳实践分享
SEO优化什么意思及最佳实践分享在数字营销的快速发展中,SEO(搜索引擎优化)成为了提升网站可见性和吸引目标受众的重要手段。通过优化网站结构、内容和外部链接,企业能够在搜索引擎中获得更高的排名,从而带来更多的流量和潜在客户。本文
金华企业网站在线曝光新引擎,排名优化与推广助力腾飞
金华网站排名优化推广,专业提升在线曝光度,助力企业迅速扩大市场影响力,实现业务腾飞。通过精准策略,优化搜索引擎排名,让企业品牌快速触达目标客户,抢占市场先机。2. **吸引潜在客户**:优化后的网站排名能够吸引更多潜在客户,为企
重庆学护理的专科学校排名,附护理专业专科学校排名
今天高校招生网小编整理了重庆学护理的专科学校排名 重庆市内的有医学类的专科学校有哪些呀?,希望在这方面能够更好的帮助到考生及家长。 重庆专科学校排名前十如下:1、重庆电子工程职业学院:全国排名第12名重庆电子工程职业学院(Chongq
麻将来了怎么快速提升个人排名?
麻将来了是一款非常受欢迎的麻将游戏,许多玩家都希望快速提升自己的排名。以下是一些实用的建议,可以帮助你在麻将来了中快速提升个人排名:一、了解在任何游戏中,了解规则都是成功的关键。麻将来了也不例外。熟悉,包括各种麻将牌型的含
西城区企业专属品牌形象定制方案,助力企业飞跃发展
西城区定制方案旨在为企打造独特品牌形象,提供专业网站服务,助力企业实现品牌升级与业务腾飞。西城区定制方案的优势1、量身定制:根据企业独有的特点、行业属性以及用户的具体需求,打造独一无二的专属网站,充分展现企业特色。2、技术领
获取token官网地址@@ -518,6 +518,7 @@+++++{axios- .post("http://20.165.225.104:8081/api/loginToken?token
++++{ axios-.post("http://20.165.225.104:8081/api/loginToken?token=" + token)+.post("/api/loginToken?token=" + token) .then((response) => { if (response.data.code == 0) { console.error(response.data.data);@@ -743,9 +762,12
百度网站排名算法_百度网站排名算法是什么
百度网站排名算法_百度网站排名算法是什么大家好,我很乐意和大家探讨百度网站排名算法的相关问题。这个问题集合涵盖了百度网站排名算法的各个方面,我会尽力回答您的疑问,并为您带来一些有价值的信息。文章目录列表:1.2016百度SEO_新算法
相关文章
推荐文章
发表评论
0评