分享好友 最新资讯首页 最新资讯分类 切换频道
NLTK(语料库)
2024-11-07 21:38

本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.1 P41

NLTK(语料库)

古腾堡语料库主要包含一些文学书籍。 先看一个例子,查看古腾堡语料库包含的文本名称

utenberg是NLTK预先帮我们加载的语料库,我们可以把gutenberg看做是一个PlaintextCorpusReader对象。

PlaintextCorpusReader::fileids():该方法返回语料库中的文本标识列表。

PlaintextCorpusReader::words(fileids):该方法接受一个或多个文本标识作为参数,返回文本单词列表

PlaintextCorpusReader::raw(fileids):该方法接受一个或多个文本标识为参数,返回文本原始字符串。

PlaintextCorpusReader::sents(fileids):该方法接受一个或多个文本标识为参数,返回文本中的句子列表。

平均词长、平均句子的长度、文本中每个词出现的平均次数

网络文本语料库中包括火狐交流论坛、在纽约无意听到的话、加勒比海盗电影剧本、个人广告以及葡萄酒评论等等。 webtext同样可以看做是一个PlaintextCorpusReader对象。

语料库被分成15个文件,每个文件包含几百个按特定日期和特定年龄的聊天室收集的帖子,例如:10-19-20s_706posts.xml包含2006年10月19日从20多岁聊天室收集的706个帖子。

nps_chat可以看做是一个NPSChatCorpusReader对象。

NPSChatCorpusReader::fileids():该方法返回语料库中的文本标识列表。

NPSChatCorpusReader::posts(fileids):该方法接受一个或多个文本标识作为参数,返回一个包含对话的列表,每一个对话又同时是单词的列表。

布朗语料库是一个百万词级的英语电子语料库,这个语料库包含500个不同来源的文本,按照文体分类,如:新闻、社论等。我们可以先看看布朗语料库中包含哪些类别

brown可以看做是一个CategorizedTaggedCorpusReader对象。

CategorizedTaggedCorpusReader::categories():该方法返回语料库中的类别标识。

CategorizedTaggedCorpusReader::fileids(categories):该方法接受一个或多个类别标识作为参数,返回文本标识列表。

CategorizedTaggedCorpusReader::words(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本单词列表。

CategorizedTaggedCorpusReader::sents(fileids, categories):该方法接受文本标识或者类别标识作为参数,返回文本句子列表,句子本身是词列表。

路透社语料库包含10,788个新闻文档,共计130万字。文档被分成了90个主题,按照训练和测试分为两组。路特社语料库中的类别是项目重叠的,因为新闻报道往往涉及多个主题。

reuters也可以看做是一个CategorizedTaggedCorpusReader对象。

该语料库是55个文本的集合,每个文本都是一个总统的演说。这个集合的一个显著特性是时间维度。

inaugural同样可以看做是一个PlaintextCorpusReader对象。

。。。未完

gutenberg、webtext和inaugural是PlaintextCorpusReader的实例对象。

PlaintextCorpusReader成员方法

 

nps_chat是NPSChatCorpusReader的实例对象。

NPSChatCorpusReader成员方法

 

brown和reuters是CategorizedTaggedCorpusReader的实例对象。

CategorizedTaggedCorpusReader成员方法


最新文章
跨境电商平台的海外推广政策解读
跨境电商平台的海外推广政策解读。近年来,跨境电商作为国际贸易的重要组成部分,其发展速度之快、潜力之大,已成为推动全球经济
移动seo快排推广 移动SEO快排秘籍,高效推广助您登顶搜索前列
在当今这个数字化时代,互联网已成为企业营销不可或缺的重要战场,而搜索引擎优化(SEO)作为连接企业与潜在客户的桥梁,其重要
外贸网站推广:关键词这样布局,轻松提升网站排名和流量
建设一个营销型网站,然后通过搜索引擎优化提升排名,以便让客户看到并点击,感兴趣留下询盘,最后将其转化为订单,这是目前外贸
经验:chatGPT提示邮箱不支持!试试这5个方法!
当使用ChatGPT时,如果遇到提示邮箱不支持的问题,可以尝试以下几种方法解决:1. 检查邮箱地址是否正确确保您输入的邮箱地址是正
腾讯云 AI 代码助手:提升编码效率与优化开发体验的必备工具
在当今快速发展的技术时代,AI逐渐成为开发者的强大助手。本文将介绍一款智能代码助手,它不仅能显著提升编程效率&#
英国手机号 giffgaff SIM 卡申请激活教程 免费申请 可长期使用
本文将会教大家免费申请一个英国giffGaff电话卡,详细的注册激活以及充值使用教程分享。让你拥有一个可以长期在国内使用的国外手
白杨SEO:把AI结合SEO优化的工具有哪些?我常用的AIGC工具分享
前言:这是白杨SEO原创第523篇。为什么想到写这个?因为有好几个朋友问我做SEO主要用哪个AI工具来创作?所以
财税行业:精准获客策略与大数据智能应用
财税行业门槛低,市场竞争愈发激烈,就目前而言,客户粘性差,客户流失率高,精准获客已成为财税行业的一道难题。
python实现将Word文档中的文字转换成语音的操作步骤
在Python中实现文字转语音(Text-to-Speech, TTS)功能,能够广泛应用于多种场景,如语音助手、有声读物、无障碍阅读等。本文将