分享好友 最新动态首页 最新动态分类 切换频道
爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)
2024-11-07 23:08

爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)

前天接一个爬取淘宝商家(自行车)信息的请求,要求数据按照其销售量排行。

完成该请求后,爬取数据(李宁卫衣)如下在这里插入图片描述

接下来看如何实现的

首先打开淘宝网:https://www.taobao.com/,在搜索栏输入自行车,结果发现页面转跳到https://login.taobao.com/member/login.jhtml 淘宝登录页面,要求登录才能进行关键字搜索获取数据。(需要登录的时候应当想到cookies

cookies 及其用处: 当我们登录某网站时,服务器会生成一个cookies,包含有用户登录等信息,与当前账号绑定,浏览器将此cookies存储到。下一次,浏览器带着cookies访问网站,就不需要在输入账号密码。注意cookies是有时效性的。

所以,目标明确,第一步,获取用户登录的cookies

需要登录淘宝页面获取cookies,才能执行后续操作。而模拟登录有两种方法

  • 搞清淘宝登录机制,修改参数登录。(借鉴裸睡的猪 猪哥的文章
  • 使用selenium调用webdriver模块,模拟人真实的操作浏览器。

方法一:直接看源码+备注,具体原因看猪哥的解释(当然代码是自己写的啊,思想借用

 

在自行登录以后,把参数都复制到Data里替换掉代码中的data就可以。 在这里插入图片描述

方法二:使用selenium调用webdriver模块(自己写的,所以解释详细点

前提是安装了Chorm driver插件,Chorm插件下载地址。 下载完成后,解压到python根目录下即可。

driver可以模拟人在目标栏目输入,也可以模拟人对按钮进行点击。

对登录页面以及源码进行分析:发现在这里插入图片描述

 

所以,代码如下:在账号密码框里输入内容,点击登录进行登录.

 

注意,有时候登录时需要滑动滑块,手动滑动登录即可。

到此用户操作所用cookies的已经获取,这时候就可以搜索关键字了

进入搜索页:https://s.taobao.com/search? 输入关键字,观察url变化 在这里插入图片描述

我们发现q参数对应着搜索内容。然后翻动页面,来到第二页,观察url变化,发现变化的有s参数 在这里插入图片描述

研究多个页面发现,url需要修改的参数只有q与s。

在翻页的过程中,发现我们所需要的内容在Response的第0个回应中,即存在于Element中,所以只要获取到该网页的源码,就可以获取到数据。 在这里插入图片描述

所以使用https://s.taobao.com/search?q=自行车&s=88 这个格式(q表示搜索的关键字,s*44代表页数)的链接就可以访问带有数据的源码。

所以代码如下

 

这是我爬取的一个李宁卫衣的网页源码,发现重要信息保存在一个大字典:g_page_config中 在这里插入图片描述 在这里插入图片描述

所以我们可以通过正则表达式获取这个大字典,然后逐一提取各数据。或者直接正则各数据提取,我们采用第二种方法。

 

到这里已经把所有有效数据存储到title,location等变量中。它们均为字符串列表

使用csv保存数据

 

因为要求数据要根据销量降序排列,而销量数据格式为字符串。分析源码,发现源码中销量的表示一般有’8000+’、‘1.6万+’、‘784’这几种表示。即如果销量小于10000,则按照 ‘具体数字’ 或 ‘具体数字+’ 这样表示,如’845’、‘3500+’,如果数据大于一万,则会在后续加个万字, 如’1.6万+’,‘5.8万’,强转为float时需要做判断

所以,通过条件判断语句和if else判断

 

还有一个发现就是,商品的链接与nid是有关系的,具体关系如下

 

到此代码已经分析完毕,源码如下,登录时修改自己的账号密码,以及文件的保存路径即可

最新文章
影视建站遇到的坑与修复过程 苹果cms+海螺模板
主题设置后台 安装PHP扩展 后台快捷菜单配置添加 海螺主题设置,/admin.php/admin/conch/theme免费解析网:http://api.momimi.cn/?url=站长交流群:707031200海螺模板完美修复版2020.01.04带模板独立后台管理系统的多功能模板。使用此模板务
空间、算力、数据、场景“模力福地”重磅礼包发布!深圳福田打造人工智能产业高地!
12月11日,“模力福地”行动方案发布会暨人工智能先锋城市核心区高质量推进大会在深业上城城市云客厅举行。深圳市人工智能产业办、重点人工智能企业精英和深港两地专家,共同见证福田区在人工智能领域的重要举措与创新布局。“模力福地,智
扒一扒大模型应用隐形冠军:服务1600 企业、200 业务场景,分分钟就可构建专属应用
白小交 发自 凹非寺量子位 | 公众号 QbitAI服务1600+企业、200+业务场景直接落地。这位大模型应用的隐形冠军不藏了。他们打造大模型应用开发平台,客户能够开箱即用。服务企业覆盖央国企、金融、政务、民生、制造、零售等领域。就在今天,
网站站长角色深度解析:他们是如何驾驭互联网的?
网站站长角色深度解析:如何驾驭互联网? 随着互联网技术的迅猛发展和普及,站长这一职业角色也逐渐成为了互联网生态中不可或缺的一环。他们如何驾驭互联网?今天我们就来深度解析网站站长的角色及其工作内涵。网站站长,顾名思义,即负责
深圳SEO秘籍,关键词优化攻略,助力企业网站排名飞升!
深圳快速SEO,专注关键词优化,助力企业网站快速提升排名。本文揭秘高效策略,助您优化关键词,实现网站流量激增。随着互联网的飞速发展,企业对的需求日益增长,在这个竞争激烈的市场环境中,如何让企业网站在搜索引擎中脱颖而出,成为众
警惕,裸聊诈骗竟为AI换脸“照骗”!
  近年来,AI换脸技术被应用在各个领域,不法分子也动起了歪心思,利用AI换脸实施犯罪,例如伪造不雅视频、换脸诈骗等。AI换脸不仅可以快速将一张人脸无缝融入另一个图片或视频中,甚至连人物表情、口型都可以用AI技术合成,具有更强的以
移动站seo优化-怎么做好移动网站的SEO优化-移动seo优化方法软件免费
移动站seo优化,移动网站怎么做SEO优化,移动网站SEO优化有什么规范。首先搜索引擎对移动网站的打开响应速度有一定的要求,打开速度越快越适合优化,打开速度越慢,越不适合优化。随着互联网的发展,
卖家精灵Mac 4.5.2
卖家精灵Mac官方版是款很多网店店主使用的关键词优化工具。卖家精灵Mac正式版为用户提供选品、关键词调研、竞品分析、关键词工具等丰富功能,用户可以通过它来查看各种商品最新热门搜索词。卖家精灵Mac还可以帮助购物网站上面的商家进行购
Broken Link Detector
Broken Link Detector为用户提供了一套死链接检测方案。其能够自动分析网站中的链接,并查看是否出现死链接。通过该程序可以帮助您查询网站上的无效的链接,辅助进行清除。检测结果分为全部与错误两部分,您可以查看所有的链接结果是否正常
群晖IPv6动态域名解析保姆级教程
创作立场声明:文章所述内容均经个人实践成功,但不保证所有设备均可使用,如有问题还请见谅,欢迎值友理性讨论,不喜勿喷。上篇文章我介绍了移动宽带如何通过IPv6获取公网IP,达到外网访问的目的。但是IPv6地址不仅巨长,不便输入,而且是
相关文章
推荐文章
发表评论
0评