商务服务
【爬虫学习】用PHP爬取百度热搜榜数据
2024-10-31 18:53

文章参考知乎大佬 马哥python说 的文章:【爬虫案例】用Python爬取百度热搜榜数据

【爬虫学习】用PHP爬取百度热搜榜数据

爬取目标
百度热搜榜 → https://top.baidu.com/board?tab=realtime

分别爬取每条热搜的

热搜标题、热搜简介、热度变化、热度值、热度标签、标签图片、热搜图片和链接地址

并输出为Json格式

由于参考文章已经分析出热搜榜地址,所以就不再另外抓取,直接使用即可。

不懂怎么抓取,想要学习的请看文章顶部参考文章

由于使用是PHP,且输出内容格式为Json,因此我们需要先定义一个函数,让页面标准化输出Json。

这里我借鉴目前正在使用的 API接口平台 的系统框架的输出标准。

由于上面这段代码标准化输出中包含执行时间和客户端ip,因此我们还需要下面一段代码

最后再加一个Curl函数用于爬取内容即可

以上就是前期的准备工作。

接着向百度提交Request请求

返回的数据是json格式的,需要解析数据

通过查看返回数据,可以看到内容是在cards数组下的,因此我们需要先提取该数组的内容

因为百度热搜目前有两种,最上面一条是置顶热搜,下面30条是普通热搜,接口返回的数据也是区分开的,因此我们也需要分开处理

1.首先按照百度热搜请求返回的数据顺序,先取出30条普通热搜并输出

2.提取出置顶热搜并输出

3.提取出更新时间和热搜类型并输出

4.整合数据,并通过函数使其输出标准化Json数据即可

最后,我们查看一下爬取到并正常输出的数据

一共31条数据1条置顶热搜 + 30条普通热搜)。

由于内容太长,没有在文章中显示,其中

content中的内容为30条普通热搜,topContent中的内容为置顶热搜

    以上就是本篇文章【【爬虫学习】用PHP爬取百度热搜榜数据】的全部内容了,欢迎阅览 ! 文章地址:http://lianchengexpo.xrbh.cn/news/12721.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多   
最新新闻
二胎概念火了!任泽平:未来四胎五胎可能给奖励
  人口政策问题再次广受关注。  昨日晚间,央行微信公众号发布题为《关于我国人口转型的认识和应对之策》的工作论文,聚焦了
全球下载量突破20亿时TikTok遭遇“围剿”,张一鸣对公司员工说了啥
抖音短视频国际版TikTok近日在美国的遭遇不断反转、不断刷新。虽然特朗普对其封禁令尚未最终拍板,但TikTok在海外年轻人中的火爆
如何查询手机流量?查询手机流量方法教学
  手机是一个我们现在广泛使用的电子产品,我们除了利用手机进行通话之外,最多的就是利用手机上网了。如果想要利用手机上网的
孙楠:希望自己的音乐带给观众快乐
  中新网杭州6月25日电 (胡小丽 刘文彬)1990年,孙楠发行了首张个人专辑《弯弯的月亮》,从此走上职业歌手的道路。到今天,已
【夜读】7条成长建议,送给正在努力的你
01改变自己会痛苦,不改变自己会吃苦不抗拒改变、不用陈旧的方式去处理新问题,是一个人走向成熟的标志。很多时候,只是一个细节
tiktok前身是什么发展历史,一文带你了解tiktok发展历程
在互联网发展如此迅速的今天,各种的媒体社交改变了我们的生活,带来了更多的便利条件,让我们了解这个周围以及世界的最新咨询。
中考倒计时,科学备考秘籍请收好
  本报记者潘洁婷通讯员王晓敏  今年是“双减”政策实施以来的首次中考,距离2022年中考还有不足一个月时间。备考冲刺阶段,
千万粉丝!他突然全网被封
近日,在抖音拥有1800多万粉丝的倪海杉账号被平台封禁。关于倪海杉账号被封原因,网络上有多种猜测。另外,倪海杉在快手上拥有50
全新 Model 3 发布!内外饰全面焕新,屏幕换挡进入全民时代
6年前,特斯拉为 Model 3的亮相开了一场盛大的发布会,特斯拉首席执行官、首席设计官悉数到场。Model 3是公司当前的头等要事。马
一部具有重大警世意义和很高文学价值的力作——评屈全绳的长篇小说《鹅头岭》
作者:汪守德一按一般人的想象,有着数十年从军经历的老将军,离休之后不再为公务缠身,不再因百事纠结,或写一点回忆录之类的轻
本企业新闻
推荐企业新闻

点击拨打: