经测试,搜狗搜索提供的微信公众号的接口是理所当然爬取多了会被封ip等方式重点照顾。这只是做一个公众号及其链接的爬取,公众号的内容爬取及制定内容的爬取都是一个路子。搞懂了一个其他的就都差不多了。
1)获取可用的ip,然后随机选取一个ip
2)代理的使用
代理使用模板 ↑ ↑ ↑ ↑ ↑
3)主函数
4)获取公众号名称:
这个地方的变种操作:可以获取公众号的描述,账号,信息等等各种东西。
这是一个闲着无聊的操作,上次也和班主任有交流过我想做一个整套东西的这个想法。
思考1:做这个东西的研究价值和经济意义在哪里?
如果以后做毕业设计的话一套用砖头堆砌起来的墙是没什么太大的意义的,必须是有其中可研究的亮点,经济价值或者为大家服务的一套系统。
思考2:写爬虫的基本路子。
1.合理分析定义所需要的变量
2.做汤
3.具体网页内容刨析,re或者美丽的汤中的find方法
4.爬取出来的内容如何保存
思考3:如何使用代理。
思考4:关于人生的一点思考。