分享好友 最新动态首页 最新动态分类 切换频道
普通人也能用的9个语料库网站,做研究、学外语的来看看
2024-11-07 21:39

提到语料库,很多人脑中浮现出这样的画面——

普通人也能用的9个语料库网站,做研究、学外语的来看看

或者这样的——

但其实,语料库可以是我们做(语言)研究、学外语的好帮手。比如,你可以在某些语料库查到最地道的英语表达,也可以听到世界各地的英语口音。

今天就为大家介绍9个语料库网站——

1. 语言结构世界地图集

Word Atlas of Language Structure

知道阿伯卡茨语有多少元音和辅音?波罗罗语的词缀有几种形态?恰卡通戈米斯特克语有几种声调?

想回答这些问题?

你需要的只是登陆这个名为The World Atlas of Language Structures Online(语言结构世界地图册,简称WALS)的网站

这里有各类语言分布的详细地图,有对于世界上2600多种语言192个语言学特征的详细记录,非常适合语言爱好者。

嗯,妈妈再也不用担心我被多语狂魔们实力嘲讽了,随便选出一个语言了解一下,足以技惊四座!

详细的使用指南以及更多精彩内容,午餐早已备好,我不会这门语言,但我可以查到关于它的一切 | 语言学午餐

2. 语言口音档案馆

the Speech Accent Archive

大家学英语这么多年,基本上属于身经百战了,哪个地方的英语口音没听过,什么纯正伦敦音,印度咖喱腔,苏格兰懵逼腔,布鲁克林街头腔,那是如数家珍。

但是,你听过刚果金非洲小哥的英语口语嘛?你了解玻利维亚大妈的英语口音嘛?喏,这个名为the Speech Accent Archive 的网站绝对可以满足各位英语语音控的猎奇愿望。

该数据库搜集了几百名来自世界各地,不同民族语言背景的人们针对同一段文字的录音资料,每段录音都详细记录了音频提供者的详细背景资料,每段语音也很详细的进行了转写。

对于研究者来说,可视之为研究英语使用者发音特征的独门利器;对普通人来说,则是一个了解各地英语口音的难得窗口。

3. 当代美国英语语料库

COCA

想知道某个单词在新闻和小说中的使用有什么差异?英文写作的时候想知道自己写出来的英语搭配够不够地道?想知道背下多少单词就可以流利阅读各类小说报纸?

嗯,你需要的只是一个语料容量巨大的英语语料库,COCA恰好可以满足你的这些需求。

当代美国英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库

语料库由包含4.5亿词的文本构成,文本分为口语、小说、流行杂志、报纸以及学术文章五种不同的文体。单词,短语,搭配,想搜什么搜什么,丰富的英语语料很适合英语学习者了解地道表达。

再一份详细使用指南倾情奉上,走近COCA,在线语料库的翘楚 | 语言学午餐(注:目前COCA界面和该文章写成时稍有出入,但主要操作流程仍值得参考)。

4. 儿童语音语料库

CHILDS

午餐君曾经有过这么一个想法,将来如果成功升级为孩儿他爸,一定要把自己孩子学说话的过程进行录音,然后安心保存,处理,分析,说不定可以探究出语言习得的奥秘,然后提出理论,一战封神,著书立说,设馆招徒,麾下天启四骑士,再然后成为顶级公知(喂喂喂!快醒醒!你个单身狗!)

不过话说回来,实际记录儿童语言这个想法早就有学者付诸实践了,他们还创立了一个规模庞大的儿童语音语料库CHILDES(Child Language Data Exchange System)。

儿童语言数据交流系统是在儿童语言研究相关领域被最广泛使用的语料库,创立于上世纪八十年代,涵盖了多门语言中儿童习得者的语音记录。根据学者统计,截至2000年,已有1000余项基于该语料库的研究成果发表( MacWhinney 2000)。

在这里,你可以找到儿童语言习得过程的详细音频文件和转写文本,涉及的语言包括英语,德语,法语,日语,汉语,广东话等等。错过了记录自己牙牙学语的轨迹,或许这个数据库是一个不错的弥补手段。

嗯,这个也有使用指南:一款超级强大的儿童语音语料库 | 语言学午餐

5. 语言学数据联盟

Linguistic Data Consortium

前不久AlphaGo席卷棋坛,人工智能再显神威;提到语言学中的人工智能,大家第一反应或许会是苹果的语音助手Siri。

不过各位有没有想过如果你有足够的数据资料,辅以适当的算法,做一个人工智能语言系统也许并不是那么困难,这不,Linguistic Data Consortium就为你提供了这种可能。

这个上世纪90年代初由宾夕法尼亚尼亚大学发起的数据共享平台,目前已经由上百所大学加盟,涵盖几百种语言数据,包含英语,法语,西班牙语,汉语等十多种语言。

Siri之所以能够神奇的听懂使用者的命令,很大程度上得益于其背后强大的语音数据库,而LDC的强大之处就在于它提供了大量的语音资源,口语对话,新闻广播,电话对话等等。唯一有些伤感的是,这个数据库并不是免费的,不过也别气馁,如果你有惊人的idea不妨尝试申请一下LDC提供的研究奖励金,这样就可以继续实现你的语言智能梦想了。

说了这么多,就差一个程序员了...

6. 北大&北语汉语语料库

CCL and BCC

刚刚说了好多英语数据库,我们再来聊聊汉语语料库。

汉语语料库里有两个不得不说,一个是老牌劲旅,北京大学汉语语料库(CCL);一个是后起之秀,北京语言大学汉语语料库(BCC)。

两个语料库各有千秋,各有特点,小编也不敢妄下评价,不过有一点是相同的,那就是两个语料库用来做汉语研究和日常搜索(比如教外国人汉语时找例句)都相当不错。

北京大学汉语语料库是汉语研究中最主要的语言案例来源,每当使用的时候,都可以自豪的说出自己使用的是专家同款语料库,其语料编排得当,挑选细致,搜索方便,这些优点都使得其广为语言学众所喜爱。北语汉语语料库则拥有更多数据搜索功能,例如可以查看搜索词的历时词频变化,学生作文语料等等,语料容量更是达到了惊人的bilion级。

除了上述这些以外,语言学数据库还有很多很多,比如一些强大的专业性语料库,双语平行语料库,多模态语料库,依存树库等等。

在文末午餐君再为各位附上两个提供语料库索引功能的网站:

http://www./varieng/CoRD/corpora/corpusfinder

这个名为corpus finder的网站提供了近60种语料库的资料信息和使用链接,感兴趣的朋友不妨试试看。

http://www.

不少大学院系网站上也会提供大量的数据资源和相关指南,北京外国语大学语料库团队的网站就是一个不错的选择,网站提供了大量语料库相关资源,相比国外网站,其汉语数据也更丰富。

最新文章
韩国浦项科技大学Hyoung Seop Kim院士应邀到我校讲学
(通讯员 熊仁龙马飞燕)10月25日下午,韩国浦项科技大学的Hyoung Seop Kim院士应研究生院、机电工程学院和国际交流合作中心的邀请,在流芳校区文科楼413报告厅开展题为“Hetero structured Material Design of High Entropy Alloys and Ad
学Python最赚钱的两种赚钱方式,还不快来了解一下
一、赚钱第一种方式:接私活 刚学会Python那会,就有认识的朋友介绍做一个网站的私活,当时接单赚了4K(仅代表个人收入),后又自己接过开发网站后台接口、做数据处理等事情,都赚了一些。 接私活指的是利用自
全市场首只创业板人工智能ETF(159363)今日上市
12月16日,全市场首只创业板人工智能ETF——创业板人工智能ETF华宝(159363)正式在深圳证券交易所上市。近期,该ETF在短短5个交易日内,首发募得资金7.89亿元,备受市场关注。最新公开数据显示,创业板人工智能ETF华宝(159363)上市前的最新
9 个最佳 WordPress 内部链接插件(自动 + 手动)
您是否正在寻找最好的内部链接插件来改善您的 SEO 策略?内部链接在搜索引擎优化(SEO)中发挥着重要作用。它们帮助搜索引擎发现您的内容并在搜索结果中排名更高。内部链接插件可以帮助自动化该过程并提供构建更好链接的建议。例如,上面的
武汉地铁下一轮建设计划网络版里,黄陂和江夏,算不算最大赢家?
武汉地铁下一轮建设计划网络版里,黄陂和江夏,算不算最大赢家?网络版武汉市第5轮轨道建设计划按照一般规律,武汉每隔5年会编制一份轨道交通建设计划,提交给国家审查通过后,接下来就按照规划分批建设。2019年1月,武汉第4轮轨道建设计划
史上最全大型互联网“Java架构师成长路线”首发,对标BAT等互联网大厂P6+需求
上述知识点,囊括了目前互联网企业的主流应用技术以及能让你成为“香饽饽”的高级架构知识,每个笔记里面几乎都带有实战内容。 很多人担心学了容易忘,这里教你一个方法,那就是重复学习。 打个比方,假如你
云南排名前十seo公司(云南百度推广排名查询)
其实云南排名前十seo公司的问题并不复杂,但是又很多的朋友都不太了解云南百度推广排名查询,因此呢,今天小编就来为大家分享云南排名前十seo公司的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!本文目录网络seo排
AI+传媒:全维赋能开启新纪元,2025年大展宏图!
在迅速发展的科技浪潮中,人工智能(AI)正在全方位推动各行各业的变革。最近,北京人工智能产业联盟发布的《人工智能蓝皮书:中国通用人工智能发展报告(2024)》一方面揭示了生成式人工智能的创新动态,另一方面也昭示着AI在传媒领域的广
如何选择合适的邮箱进行OpenAI注册
如今,AI技术的发展已经渗透到了各个领域,并对我们的生活产生了深远的影响。OpenAI作为全球领先的人工智能研究机构,致力于推动AI技术的创新与发展。如果你对AI技术感兴趣,想要注册OpenAI账号,那么一个有效的邮箱是必不可少的。选择合适
12种文本数据采集方法
grabage_0.1_nk提供最基础的采集功能,有经验的开发人员可以将其嵌入到系统模块中用于采集数据。nk版本的内容检查不算完整,只能匹配部分发布时间,对于部分网页将作者,来源,发布时间混合在一起的情况,未能很好的解决。该问题会在将来的
相关文章
推荐文章
发表评论
0评