分享好友 最新动态首页 最新动态分类 切换频道
爬虫实战三:关键词搜索小红书帖子
2024-11-01 23:31

没想到上一篇阅读量还不错,正好有朋友也提了抓小红书帖子的需求,我们一起来看下:

爬虫实战三:关键词搜索小红书帖子

上次提到,抓数难度上 App>网页版>=微信小程序,所以当时选择小红书的微信小程序来下手的。但经过测试后发现小程序有个限制:选择不同的品类可以返回上限1000条,但搜索关键词时却只能返回100条帖子,数量太少。

小红书的网页版没有搜索关键词的入口,小红书App中搜索关键词是没有100条数目限制的(但经过测试有1000条的限制,我们后续再讲)。

正常的爬虫流程都是研究搜索关键词的请求,然后去破解相关参数来仿造请求;但今天我来展示一种不破解、纯刷帖的爬虫方法,同样可以安全快速抓取到想要的结果。

先说下大致思路:首先配置好手机和电脑 Charles,使得手机端浏览小红书帖子时在电脑端可以抓包(手机端刷到的帖子可以在电脑端 Charles 加载出来);完成配置后在手机端运行脚本自动下划刷帖子;最终将 Charles 中的数据包进行解析拿到结果。

1. root手机配置

此方法最难的点就是 Charles 抓包,正常情况下我们手机打开小红书 App 是抓不到包的,这时就只能拿 root 过的手机来碰运气。

手机ROOT通常是指针对Android系统的手机而言,它使得用户可以获取Android操作系统的超级用户权限。 百度百科-手机ROOT

比较幸运,拿root过的手机可以直接截到小红书搜索关键词的包(废话,不然也不会有这篇文章了):

root 手机是个比较复杂的工程,我也是工作需要才接触到这玩意,所以这也算是层门槛,没有资源的朋友权当看个思路吧。

2. 脚本刷帖

想必大家也听说过手机自动刷抖音、刷帖子,这里推荐下 AutoJS (只适用于安卓机)。我们只需先在小红书中搜索特定关键词,之后设置好刷帖动作和间隔时间,运行脚本便可以自动刷帖了:

经过脚本的测试,发现搜索关键词出的帖子是有1000条数目限制的,手机端刷到最后是这样的:

电脑端抓到最后:

3.抓包并解析

将 Charles 中所有帖子对应数据包保存到本地,针对其数据格式通过代码解析成 Excel 格式的数据结果。

比如 Charles 端加载的数据格式如下:

最终按所需的字段整理出 Excel 结果:

最终,便能顺利抓取到每个关键词对应的 1000 条帖子内容了。

如果觉得1000条帖子太少,注意看下小红书搜索关键词时可以还有很多可选项,比如“最热”、“最新”,以及相关的分类。同时虽然是关键词搜索,但其返回的结果也是推荐流形式,所以不同的时间、不同的账号、不同的限定条件下刷出的内容大概率也不相同。

毕竟海量帖子里随随便便捞1000条都是轻而易举的,比如搜“行驶证”:

再比如搜个“滑雪”:

4.爬虫的价值

单纯从数据层面上看,这些爬虫抓取到的帖子可以分析广告、商品投放情况等,还可以针对不同品类下的帖子内容进行研究等。

我们普通用户刷小红书是满足个人需求基本用不到爬虫,通常爬虫数据都是拿来做数据分析和调研。这里也可以比较直观地看到爬虫在某些情景下也是高效获取数据的途径。

那么回归现实,如果自己做不到爬虫想去买数据,我随便搜了下淘宝爬虫小红书的商家,问了下价格:

数据很值钱。

最新文章
SEO培训助力企业外推,提升品牌影响力与市场份额
随着互联网的飞速发展,网络营销已经成为企业推广的重要手段。而SEO(搜索引擎)作为网络营销的核心技术之一,其重要性不言而喻。近年来,越来越多的企业开始重视SEO,希望通过专业的外推策略,提升品牌影响力与市场份额。本文将从SEO培训
'剧本一键成片':AI赋能影视创作的革新之路
随着人工智能(AI)技术的飞速发展,其在影视产业的应用正以前所未有的深度和广度改变着创作模式与行业生态。近日,猫眼娱乐推出的首个面向长剧本解析的动态故事板AI生成工具“神笔马良”,以其“剧本一键成片”的强大功能,引发了业界的高
网站优化怎么做,才能快速提升关键词排名?
在互联网这片浩瀚的海洋中,每个网站都像是一艘扬帆起航的船,而关键词排名就是指引我们航向的灯塔。作为一名在网站优化领域摸爬滚打多年的老手,我深知如何在激烈的竞争中,通过精准的策略和不懈的努力,让网站的关键词排名迅速攀升。今天
外贸独立站的内容营销策略?
在开展内容营销之前,首先要明确营销目标。清晰的目标将有助于指导内容创作和推广策略的制定。以下是一些常见的内容营销目标:通过提供有价值的内容,增加潜在客户对品牌的认知。提升品牌知名度有助于企业在目标市场中脱颖而出,吸引更多流
高效SEO优化:掌握IJ工具,提升网站排名秘诀
高效SEO优化:掌握IJ工具,提升网站排名秘诀在当今的信息化时代,数据分析和处理成为了各行各业不可或缺的技能。IJ工具(ImageJ)作为一款开源的图像处理软件,凭借其强大的功能和易用性,在生物医学、物理学、化学等领域得到了广泛应用。
韩国浦项科技大学Hyoung Seop Kim院士应邀到我校讲学
(通讯员 熊仁龙马飞燕)10月25日下午,韩国浦项科技大学的Hyoung Seop Kim院士应研究生院、机电工程学院和国际交流合作中心的邀请,在流芳校区文科楼413报告厅开展题为“Hetero structured Material Design of High Entropy Alloys and Ad
学Python最赚钱的两种赚钱方式,还不快来了解一下
一、赚钱第一种方式:接私活 刚学会Python那会,就有认识的朋友介绍做一个网站的私活,当时接单赚了4K(仅代表个人收入),后又自己接过开发网站后台接口、做数据处理等事情,都赚了一些。 接私活指的是利用自
全市场首只创业板人工智能ETF(159363)今日上市
12月16日,全市场首只创业板人工智能ETF——创业板人工智能ETF华宝(159363)正式在深圳证券交易所上市。近期,该ETF在短短5个交易日内,首发募得资金7.89亿元,备受市场关注。最新公开数据显示,创业板人工智能ETF华宝(159363)上市前的最新
9 个最佳 WordPress 内部链接插件(自动 + 手动)
您是否正在寻找最好的内部链接插件来改善您的 SEO 策略?内部链接在搜索引擎优化(SEO)中发挥着重要作用。它们帮助搜索引擎发现您的内容并在搜索结果中排名更高。内部链接插件可以帮助自动化该过程并提供构建更好链接的建议。例如,上面的
武汉地铁下一轮建设计划网络版里,黄陂和江夏,算不算最大赢家?
武汉地铁下一轮建设计划网络版里,黄陂和江夏,算不算最大赢家?网络版武汉市第5轮轨道建设计划按照一般规律,武汉每隔5年会编制一份轨道交通建设计划,提交给国家审查通过后,接下来就按照规划分批建设。2019年1月,武汉第4轮轨道建设计划
相关文章
推荐文章
发表评论
0评