分享好友 最新资讯首页 最新资讯分类 切换频道
nltk(3)——语料库
2024-11-07 21:04

NLTK包含众多一系列的语料库,这些语料库可以通过nltk.package 导入使用。每一个语料库可以通过一个叫做“语料库读取器”的工具读取语料库,例如:nltk.corpus

nltk(3)——语料库

每一个语料库都包含许多的文件或者是很多的文档。若要获取这些文件的列表,可以通过语料库的fileids()方法。

import nltk.corpus.brown    #导入brown语料库

brown.fileids()

每一个语料库都提供了众多的多去数据的方法。例如:对于文档类型的语料库提供读取原始为加工过的文本信息,文本的单词列表,句子列表,段落列表

from nltk.corpus import brown

brown.raw(brown.fileids()[1])   #读取brown中第二个文本的信息

brown.words(brown.fileids()[1])   #读取brown中第二个文本的单词

brown.sents(brown.fileids()[1])   #读取brown中第二个文本的句子

brown.paras(brownfileids()[1])     #读取brown中第二个文本的段落

每一个方法的参数都可以提供多个文档名称或单个,当提供多个文档名称并用逗号隔开时,获取的文档将是单个文档的链接总和。

brown.words(["ca02",brown.fileids()[3]])         #获取文档ca02和文档四的单词,此处注意,当多个文档时,传入的参数是一个list

获取文本单词词频

from nltk.corpus import brown

news_text = brown.words(categories='nes')

fdist = FreqDist(news_text)

modals = ['can','must','could','willl,''might']

for m in modals:

print(m + ":", fdist[m])

FreqDist() 方法获取到每个单词的出现次数

FreqDist({'the': 5580, ',': 5188, '.': 4030, 'of': 2849, 'and': 2146, 'to': 2116, 'a': 1993, 'in': 1893, 'for': 943, 'The': 806, ...})

fdist.keys()    #获取所有的键

fdist['the']     #获取对应的键的值

最新文章
财税行业:精准获客策略与大数据智能应用
财税行业门槛低,市场竞争愈发激烈,就目前而言,客户粘性差,客户流失率高,精准获客已成为财税行业的一道难题。
python实现将Word文档中的文字转换成语音的操作步骤
在Python中实现文字转语音(Text-to-Speech, TTS)功能,能够广泛应用于多种场景,如语音助手、有声读物、无障碍阅读等。本文将
智能AI创作平台官网 - 创意内容生成新元
智能AI创作平台官网 - 创意内容生成新元在信息爆炸的时代创意内容的生产与传播变得愈发必不可少。智能创作平台的诞生不仅为创作
洛阳seo 洛阳SEO优化策略,提升网站排名的秘诀
在当今数字化时代,企业想要在激烈的市场竞争中脱颖而出,SEO(搜索引擎优化)已成为不可或缺的战略利器谈及“洛阳SEO”,我们不
在床上的72种扦插方法-如何在卧室打造绿色植物的生机与美感!
在现代生活中,越来越多的人开始重视家居环境的美化和空气质量的提升。床上的空间,作为我们日常生活中最重要的区域之一,通常只
百度软文吸粉推广(百度软文吸粉推广方案)
大家好,今天小编关注到一个比较有意思的话题,就是关于百度软文吸粉推广的问题,于是小编就整理了2个相关介绍百度软文吸粉推广
可以发外链的网站_做好网站seo:外链发布小技巧
当然发布外链也有坏处的时候,有的站长为了快速提升网站排名,可能在某个时间内发布了大量的纯文本外链和锚文本外链
删了微信好友怎么加回来
在使用微信的过程中,我们可能会因为各种原因不小心删除了某些好友。当意识到这一操作时,很多人会感到懊恼,尤其是对于那些重要