分享好友 最新动态首页 最新动态分类 切换频道
python爬虫学习笔记(1)
2024-11-03 05:46

本人使用了anaconda3中的python3环境,进行爬虫的环境为anaconda中的spyder,使用anaconda具体详细原因及安装教程可见
Anaconda3详细安装使用教程及问题总结

python爬虫学习笔记(1)

request就是请求的意思,主要用于url信息的请求

urlopen()

urllib.request.urlopen(“网址”)
实现向该网站发起访问请求,并获取响应结果。

urlopen()详细介绍可见python中urlopen()介绍
urlopen()方式所请求的网址访问不能设置用户代理,不支持重构User-Agent,初步认为代理是用于模仿浏览器访问网页所设置的,这个可以看作是爬虫与反爬虫作斗争的第一步。
关于网页的编码方式想了解更多可以参考网页编码方式

Request()

这个函数看着很奇怪,因为他就是之前urllib中request模块中首字母r进行大写后的名称。
通过Request()方式请求访问网址可用进行重构User-Agent,操作为

通过上面的直接使用urlopen()以及先用Request()构造新的User-Agent在使用urlopen()打开,可以看出来,url本身就可以作为urlopen的参数,也可以通过Request给url加了个headers后,再作为urlopen的参数。
更多的浏览器请求头可以参考浏览器User-Agent汇总

parse的意思是解析,这个模块主要就是用于encode转码操作。

urlencode()

按我的理解,urlencode()是的作用说白了就是将{key:value}构造成的key=encode(value)字符串格式,用于url的构造。举例

可见我们再爬取网页时首先就要对网页的url有充分的了解,关于百度网址的参数解析可以参考百度搜索网址参数解析

很奇怪的是,parse中虽然提供了{key:value}的urlencode方式,却没有对应的urldecode方式。下面介绍另一种编码方式。

quote

quote简单粗暴,它就是直接将value的值进行编码,转换为%e8…。
在拼接url的时候就可以直接

quote就有对应的反quote的函数,unquote,顾名思义,就是进行解码。

html打开出现乱码

在学习过程中,对代码还不是很理解,导致将他人代码敲入后,爬取了信息把并存入了一个html文件,结果打开出现乱码。
已解决
html文件打开出现乱码,但将其转换为txt格式打开确实有正常代码的,查明原因后知道了是由于编码解码方式等原因而导致的。
一开始我是直接将文件另存时,设置其编码方式,在新建文件打开时正常显示。后发现了原因,是在从网页爬取信息下来的时候解码方式是utf-8,然而在保存至html文件中时选择的是gb18030的方式,将其修改为utf-8后正常显示。但所参考的代码的作者意图就不得而知了。

进行百度搜索时,出现安全验证网页无法打开情况

<title>百度安全验证</title>
<div class=“timeout-title”>网络不给力,请稍后重试
(大部分省略)

查明原因可能时代理方面的问题,被服务器拒绝加入了,具体如何操作较为复杂,毕竟我是初学者,看也看不懂。

最新文章
百度蜘蛛池收录:定制小旋风蜘蛛池插件,优化SEO,提升网站排名的秘密武器
定制小旋风蜘蛛池插件助力百度蜘蛛池收录,通过优化SEO提升网站排名,成为网站优化不可或缺的秘密武器。本文目录导读:小旋风蜘蛛池插件概述定制小旋风蜘蛛池插件功能定制小旋风蜘蛛池插件优势如何使用定制小旋风蜘蛛池插件在当今互联网时
联想多款AI PC齐发:联想品牌&moto牵手热巴 开启AI终端新时代
本次发售体验会除了带来强大性能的AI终端硬件产品外,由端云混合大模型所驱动的联想个人智能体产品联想小天也正式亮相。在体验会现场的演示中,联想小天展现出强大的自然语言交互功能,以极其拟人化的语音和语气进行对话,为用户解决诸多问
运维新手入门——BIOS和UEFI的启动项
先插一句话,现在很多人用UEFI BIOS这个称呼。这里为了区分:BIOS一律指传统BIOS,UEFI BIOS一律称呼为UEFI。UEFI下的BIOS设置,一律称为UEFI设置。一直就想写这个,因为自己折腾Hackintosh。最初BootThink,后来Chameleon,现在Clover。每
马云的焦虑,俞永福如何治
  今年双十一体验,普遍反馈不好。还没等这个负面发酵,高管俞永福离职的消息就被丢出来了。业界也就顾不得什么双十一了,阿里的公关还是业界的标杆。  俞永福是现任阿里大文娱的董事长兼CEO,2014年俞永福带着自己创立的UC并入阿里后
牙克石网站排名优化软件,提升网站流量的秘密武器,牙克石信息平台
牙克石网站排名优化软件是一款专为提升网站流量的工具,通过精准优化网站内容和结构,提高搜索引擎排名,从而吸引更多潜在客户。该软件采用先进算法,分析用户搜索习惯,智能推荐关键词,提升网站曝光率。该软件还具备实时数据监控功能,让
搜索引擎技巧.pdfVIP
搜索引擎技巧搜索引擎可以帮助使用者在Internet上找到特定的信息,但它们同时也会返回大量无关的信息。如果您多使用一些下面介绍的技巧,将发现搜索引擎会花尽可能少的时间找到您需要的确切信息。类别搜索1许多搜索引擎(如Yahoo!)都显示类
高清美女写真生成新潮流:用AI轻松打造你的虚拟女友!
步骤2:输入描述 在文本框中输入你想要的美女写真特点,比如“长发,蓝眼睛,穿着白色衬衣的模特”。保持描述的简洁且具体,系统会更容易理解你的需求哦。步骤3:选择风格(可选) 如果你对风格有特别要求,比如想要梦幻效果或者写实风格,
最新说说发布中心,最新说说发布中心SEO攻略:如何提升内容被百度收录的机会?
  最新说说发布中心揭秘:如何被百度收录及其建议提醒  摘要:本文将围绕“最新说说发布中心”这一主题,探讨内容如何被百度有效收录,并给出相应的建议以提醒大众。文章将从关键词选择、内容创作、网站优化等方面进行详细阐述,旨在帮
谷歌SEO中,如何轻松获得高排名?
在当下这个信息爆炸的时代,每一个企业或个人都渴望自己的网站能在谷歌搜索引擎中脱颖而出,获得更高的排名,从而吸引更多的流量和潜在客户。基于我多年的实战经验和对SEO行业的深刻理解,我发现,要想在谷歌SEO中轻松获得高排名,并非一朝
谷歌SEO里,你既爱又恨的SEO工具是什么?
在SEO行业的摸爬滚打中,我逐渐发现,那些让人又爱又恨的工具,往往是最具争议也是最有效的。今天,我们就来聊聊我在谷歌SEO实战中,对某个既爱又恨的SEO工具的深刻体会。一、谷歌SEO里,我难以割舍的双刃剑作为一名SEO老鸟,我深知每个工
相关文章
推荐文章
发表评论
0评