分享好友 最新资讯首页 最新资讯分类 切换频道
语料库 入门课件
2024-11-07 21:22

热烈欢迎来自全国各地的老师们!语料库入门OUTLINE1.基本概念2.著名网络语料库3.常用软件Corpus(语料库,尸体):

语料库 入门课件

(pl.corporaorcorpuses):acollectionoftext,nowusuallyinmachine-readableformandcompiledtoberepresentativeofaparticularkindoflanguageandoftenprovidedwithsomekindofannotation(标注).按照一定的采样标准采集而来的、能代表一种语言或者某语言的一种变体或文类的电子文本集。Corpus视频Example:Startorbegin?在口语中哪个更常用?我们的老师经常说Let’sbegin!之类的话,对吗?我们通过对语料库的检索结果进行分析,可以找到很多问题的答案,例如:“学知识”在英语中是“studyknowledge”吗?“快速导航”翻译成“fastguide”对不对?“只为点滴幸福”这句广告语,对应的英文翻译是“Littlehappinessmatters.”吗?为何“ThebadweathersetinonMonday.”是正确的,但“ThegoodweathersetinonMonday.”却是错误的?在口头表达、写作或翻译中如何确定某些用法是地道的?学习者一般要有多大词汇量才能读懂英文报纸?哪些是商务英语中最常用的单词和短语?某种考试中,哪些单词、词组或其他语言现象出现的频率特别高?如何通过量化统计来分析文学作品的写作风格?以上问题也许在词典或语法书这样的工具书中是无法找到答案的,但语料库能为我们提供方便快捷的解决方案。语料库可以辅助EFL学习的各个方面,如词汇、语法、阅读、语体分析、翻译、口语、写作、测试和西方文化学习等。具体来说,本书中语料库辅助EFL自主学习的方法(简称为“语料库方法”)主要指以下三种:(1)直接在权威的语料库中查询语言和文化现象,如英国国家语料库(BNC)和美国当代英语语料库(COCA);(2)利用语料库软件进行文本分析,如AntConc和Range;(3)利用其他基于语料库的网站进行学习,如JustTheWord和SketchEngine。TypesofcorporaGeneralcorpus通用语料库Annotated标注corpus:acorpusenhancedwithvarioustypesoflinguisticinformation(ortaggedcorpus).Anannotatedcorpusmaybeconsideredtobearepositoryoflinguisticinformation,becausetheinformationwhichwasimplicitintheplaintexthasbeenmadeexplicitthroughconcreteannotation(“addedvalue附加值”).语料库语言学常用术语Token形符:anindividualwordType类符:wordform.指不重复计算的形符数。"Iseeacatandadog"containsseventokensbutonlysixtypes(thetype'a'occurstwice).Thesentence"Roseisaroseisaroseisarose."waswrittenbyGertrudeSteinaspartofthe1913poemSacredEmily.语料库语言学常用术语type/tokenratio(TTR)类符/形符比,形次比Rose句的TTR:4/10*100=40TTR是衡量文本中词汇密度的常用方法。可辅助说明文本的词汇难度。但是,文本中有大量功能词(functionwords,如the、a、of等)反复出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度就不合理。语料库语言学常用术语Frequencies/occurences(频数,出现次数)Frequency(频率)

例如每一百万词、十万词中,某单词的出现次数常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个语料库中的该单词的使用上是否有差异语料库语言学常用术语Lemma词目在英语语料库文本中,一些实词有大量的屈折形式(inflections),如go这一动词就有go,goes,went,going,gone共5种不同的屈折变化形式。go就是词目。在分析语言时,如果把那5种形式作为5个词来看待,就有可能显得不妥。因此需要将它们全部归并到go名下。这个过程叫词目归并或词形还原(lemmatization).有专门的软件根据词形还原表,自动对文本进行词形还原。Keywords关键词Keywordsarewordswhosenormalizedfrequencyinonecorpus(observedcorpus)issignificantlyhigherorlowerthanthatinanothercomparablecorpus(referencecorpus).Positivekeywordsandnegativekeywords语料库语言学常用术语Concordance索引(又称“语境中的关键词,KeyWordInContext,KWIC”)指的是运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出AntConc、WordSmithTools等检索软件语料库语言学常用术语

何谓语料库检索Concordancersaredevelopedtoproduceconcordancelinesofaspecificstringoftext.WordsmithToolsAntConcManyothers语义韵SEMANTICPROSODY

褒义、贬义例如,通过查询语料库,我们发现cause后面的名词,多为贬义词汇的语义韵(semanticprosody)类似我们经常说的褒义、中性和贬义等色彩,大体可分为积极语义韵(positiveprosody)、中性语义韵(neutralprosody)和消极语义韵(negativeprosody)等类型(Stubbs,1996)。例如汉语中的“广大”不能与含贬义的词搭配,我们不能说“广大犯罪分子”,只能说“广大人民群众”等。英语中像happen、incur、utterly和commit这样的词会搭配一些具有显著消极意义的词,而career和provide这样的词则会搭配一些有显著积极意义的词。这些特殊的节点词总是习惯性和某一类拥有相同或者相似语义特点的词语共现,使它们的语义相互影响、相互作用、相互渗透,在一定的语境内形成一种语义氛围,同时该节点显示出明显的语义韵特点(张瑜,2009)。我们可以利用语料库去探索发现单词的语义韵特点。当今世界上最大的英语语料库之一——COBUILD语料库的领导者JohnSinclair教授是第一个注意到语义韵现象的学者,他通过定位检索发现happen和setin(发生)常常与“不愉快的事件”(unpleasantevents)联系在一起(Sinclair,1991)。“SETin”(SET大写表示包括该词的各种变化形式,下同)的主语绝大多数是不愉快的事情,如rot、decay(腐败、腐烂)、ill-will(歹义)、decadence(颓废)、impoverishment(陷入贫困)、infection(感染)、prejudice(偏见)、viciouscircle(恶性循环)、rigormortis(僵硬死尸)、numbness(麻木)、bitterness(痛苦)、mannerism(癖性)、anticlimax(兴奋之后突然平淡而令人失望的情景)、anarchy(无政府状态)、disillusion、disillusionment(幻灭)和slump(萧条)等。Sinclair诙谐地称setin长期与坏蛋(badcompany)为伍,其结果是只要SETin一出现,人们就知道被描写的事情一定是不愉快的。另一方面,由于SETin已经染上了“贬韵”(imbuedwithan“unfavourableprosody”),一般来说它便没有资格在褒扬场合中抛头露面了。假如有人说这样一句话:“Goodtimessetin(好日子临头了)”,那么讲话人很可能是为了营造某种诙谐或讥讽的效果,否则听话人一定会感到很别扭(转引自纪玉华等,2000)。Stubbs(1995)在COBUILD语料库的1亿2千万单词中定位检索出4万个与动词cause(导致、造成)搭配使用的词群,发现该词染有较强的“贬韵”,充当其宾语的往往是accident、concern、trouble、damage或death之类的词。但是他发现动词provide(提供)在COBUILD语料库中却带着较强的“褒韵”(favourableprosody),充当其宾语的词汇多属于诸如“关怀”、“食物”、“帮助”、“金钱”之类的语义场(转引自纪玉华等,2000)。还有,Louw(1993)发现具有消极语义韵的词组BENTon和SYMPTOMATICof总是和不好的事物联系在一起,例如sin和ruining等。正则表达式例如,我们需要在选定的语料中检索analyze这个词,在索引软件的检索词输入框内,输入analyze即可。但是,另外一些文本可能使用analyse,或者我们还需要检索它的曲折形式,如analyzed、analyzing、analyzes、analysed、analysing、analyses等,分别检索就很麻烦了。这时我们需要:正则表达式Regularexpression,regex计算机汇编语言的一种技术,用于匹配文本中的字符串几乎每个正则表达式都由常量和变量两部分组成。例如analyze的各种屈折形式中,analy是常量。序号符号含义举例或说明1b词的边界banb2w任何字母或数字banalyw3.任何字符或非字符2.44+重复1次或多次A+5*重复0次或更多BA*6?有或者无BA?7()组合,使得括号中的部分可以当作一个符号处理Act(ing)序号符号含义举例或说明1b词的边界banb匹配an,不匹配a、and或sand2w任何字母或数字w匹配字母a-z,A-Z,数字0-9及下划线3.任何字符或非字符2.4匹配204,214,2t4,24,2.4,2-44+重复1次或多次A+匹配A,AA,AAA等5*重复0次或更多BA*匹配B,BA,BAA,BAAA等6?有或者无BA?匹配B和BA7()组合,使得括号中的部分可以当作一个符号处理act(ing)可以匹配act和acting序号符号含义举例或说明9[]方括号中的任意字符[abc]匹配a、b或c[abc]+匹配10s空格w+s+w匹配任何二元序列11|或者(|号在回车键上面)(analyze|analyse)12W非字符、非数字13S非空格14w*0个或多个任意数目的字母、数字及两者的组合15.*?任何字符串正则表达式区分大小写、全角和半角,输入时要格外小心。如何不区分大小写,可以在表达式前面加(?i)关于正则表达式的更详细说明,参照EXERCISEUsethesamewordtocompleteallthefollowingsentences.We’re____surethatit’smostlywaterandpainThey’re____goodatstartingstuff,thoseguys.…onewhoisbasicallydrivenby____decentinstinctsandmotivations.Theywere____tough-betterthanIthought...Throwingonthesideeverydaykeepsme____sharpandtherestofitisSheisvery____.Hermostrecentdecisionregardingher…ofthedistrictintact.Theboardis____certainthepublicisnotaptButtheysummeduphisHousestint____well.HehasbeendoggedlyKEYWe’reprettysurethatit’smostlywaterandpainThey’reprettygoodatstartingstuff,thoseguys.onwhoisbasicallydrivenbyprettydecentinstinctsandmotivations.Theywereprettytough-betterthanIthought...ThrowingonthesideeverydaykeepsmeprettysharpandtherestofitisSheisverypretty.Hermostrecentdecisionregardingherofthedistrictintact.TheboardisprettycertainthepublicisnotaptButtheysummeduphisHousestintprettywell.HehasbeendoggedlyCOCA视频常用语料库检索软件

AntConc免费,日本AnthonyWordSmithTools商业Range词汇难度分级PaulNationAntConc是著名的语料库检索软件,由日本早稻田大学LaurenceAnthony设计开发,可以在Windows、MacintoshOSX和Linux系统下运行。它可以免费下载()。该软件无需安装,双击即可使用。其官方网站有视频教程,介绍其使用方法。Antconc视频ANTCONC的应用许媛(2009)用WordsmithTools等语料库工具,统计了著名作家OscarWilde童话中的颜色词和光度词,从颜色词的类别、颜色的层次感和颜色的隐喻等三个方面探讨了其在艺术上的“唯美”追求。我们尝试用AntConc分析王尔德的童话作品TheNightingaleandtheRose(语料来自《新世纪大学英语综合教程7》,得出了相似的结果。这里主要介绍该软件的WordList和KeywordList功能的应用。首先,我们利用WordList功能初步确定文章大意并分析其语言特点,操作步骤如下:1)双击打开AntConc软件后,在File下拉菜单里打开该文章的文件(txt格式);2)在ToolPreferences弹出的新窗口中选择WordList,选择Treatalldataaslowercase;3)加载Someya的词形还原表e_lemma_no_hypen,方法是在Uselemmalistfile框打钩,点击Open,选上词形还原表,后点击Load;4)加载一个含功能词的停用词表functionwordstoplist。方法是点击Useastoplistlistedbelow,在Addwordsfromfile旁点击Open按钮,选择停用词表文件,然后点击Apply按钮;5)回到AntConc的主界面,点击WordList和Start按钮,此时会自动显示词频表(图6-4所示)。从这个词频表我们可以初步断定,作品的中心是象征爱情的rose(相关的red、tree、thorn、love和heart等单词也是例证),主要角色是nightingale和student,其情节围绕cry、sing、give、grow和dance等中心事件展开,这个催人泪下的爱情故事主要发生在night。关于作品主题的更可靠的断定方法将在后文描述。在词频表中,我们发现like一词的频率较高,要弄清它在文章中的意义和用法,有两种方法:一是在词频表中直接点击该单词(鼠标变成手形),查看语境共现行;二是点击AntConc的Concordance菜单,输入like,点击Start按钮,同样出现如图6-5所示的KWIC。由此可见,like在文中全部是“像……”的意思,可见作者用了很多明喻(simile)的修辞手法,我们可以管窥到王尔德华丽的语言风格。于是我们继续探究文中的比喻用法,用同样的方法分别检索as和than的语境(如图6-6和图6-7所示),发现了不少例证。我们再从词频表中查看颜色词的使用情况,拷贝词表的方法就是点击AntConc左下角的SaveWindow按钮。将文中的基本颜色词和实物颜色词进行统计分类,可进一步印证王尔德浪漫的文风和唯美主义的追求。其次,我们利用KeywordList功能分析TheNightingaleandtheRose的主题词。确定作品主题的可靠方法是提取主题词(keyword)。主题词是指与某一标准(参照语料库)相比,在一定文本中出现频率显著偏高的词,偏高的程度为主题词的“关键性”(keyness)。显然,主题词与文本的主题密切相关。这里选MarkTwain的TheAdventuresofTomSawyer作为参照语料库,其操作方法是:先加载词性还原表和功能词停用词表,然后打开ToolPreferences窗口,选择

最新文章
2023最新ChatGPT商业运营系统源码+支持GPT4/支持ai绘画+支持Midjourney绘画
SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国
普通人如何搭上AIGC行业快车道?近屿智能带你来看AI就业新趋势
Look!👀我们的大模型商业化落地产品📖更多AI资讯请👉🏾关注Free三天集训营助教在线为您火热
大连黑帽seo 揭秘大连黑帽SEO:优化背后的秘密
标题:揭秘“大连黑帽SEO”:风险、危害与正道之光在数字化浪潮席卷全球的今天,搜索引擎优化(SEO)已成为企业网络营销不可或缺
全方位SEO站内优化策略,助力网站提升用户体验与排名
SEO站内推广旨在通过优化网站结构和内容,全面提升网站在搜索引擎中的排名和用户访问体验。这包括关键词策略、内链优化、页面速
案例 | 多渠道站外引流助力品牌旺季,仅2天突破500万美元GMV!
2023年,随着新的平台不断涌现,亚马逊站内竞争压力越来越大,品牌获取流量也越来越难。于是品牌卖家们纷纷开始往全渠道发展,寻
见证 OpenAI 12天开场序幕:第一天,首发升级版 o1 及专业模式
OpenAI 为全球科技界带来了一份令人振奋的节日礼物:一场持续12天的创新盛宴。从他们时间12月5日开始,这家人工智能领军企业承诺
网络安全原来是要这样学的,一文讲明白了
还记得小杰之前为大家分享的关于自学网安的文章吗?当时我们只是大致触及了一些网络安全自学的关键点,比如“网络安
路北区企业品牌腾飞,搜索引擎推广优化新引擎助力
路北区搜索引擎推广优化,为企业品牌发展注入新动力,助力企业实现腾飞,成为品牌腾飞的新引擎。路北区搜索引擎推广优化之重要性
解决方案:百度收录:提升网站排名与吸引潜在客户的关键
身为我们每日依赖的搜索引擎,百度实际上是一位才华出众的英雄。其独特的技艺便是免费收录各类网站百度免费收录网站百度免费收录
别克 GL8 的电瓶在哪里
1、点火线圈的作用是什么?点火线圈是一种电磁元件,它将汽车发动机分析点火火花塞的电能转化为磁场能,从而产生火花,点燃并爆