业界动态
3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜
2024-11-17 04:13

大家好,我是老表,一名Python终身学习者,数据分析爱好者,今天给大家分享微博热搜数据可视化分析系列文章,本文为该系列第一篇:获取数据。

3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜

3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜

今天的分享来满足这位读者的需求,想读“关于数据库sql或者MySQL的,就那种Python来处理数据库,比如Python爬虫爬到数据,然后封存到数据库里面,然后再从sql里面读取,进行分析可视化”。

后面写文章一方面是自己学习笔记,另外也会针对读者需求写一些专题文章,如果你有自己的想法,欢迎浏览器访问下方链接,或者点击阅读原文,给博主提意见:

  • 直接来:一行代码爬取微博热搜数据
  • 做准备:将爬取到的数据存入csv和mysql、其他数据库
  • 搞事情:读取mysql数据并进行数据分析与可视化
  • 进阶活:将可视化数据结果呈现到web页面(大屏可视化)
  • 悄悄话:项目总结与思考,期待你的来稿

首先需要你的电脑安装好了Python环境,并且安装好了Python开发工具。

如果你还没有安装,可以参考以下文章:

如果仅用Python来处理数据、爬虫、数据分析或者自动化脚本、机器学习等,建议使用Python基础环境+jupyter即可,安装使用参考

如果想利用Python进行web项目开发等,建议使用Python基础环境+Pycharm,安装使用参考 :

3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜

首先我们直接浏览器搜索,就可以很快的找到微博热搜的在线页面,地址如下:

3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜

当然,我们会发现爬取的数据还是有点问题,虽然已经是数据格式了,但是热搜标题和热搜热度由于在一个td里,所以爬取的时候也是给放到了一列中,着实有点尴尬。

不过没关系,我们处理下,可以利用正则将标题和热度分成两列即可。

首先对数据进行简单处理,设置下列名和删除推荐热搜(热搜排名为'•')和置顶热搜(热搜排名为nan)。

3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜

直接无脑套入爬虫模板:

觉得这种方法比较麻烦的,可以跳过本部分,后面会介绍一种特别简单的数据获取方式(后面才想到的,之所以先记录这种麻烦方法,也是想让大家学习下这种方法,后面数据爬取中会比较常见)。

接下来,我们就开始从爬去到的数据中提取我们需要的数据啦!

首先在热搜页面,按住F12,调出开发者工具,点击开发者工具左上角的,然后选中自己想提取的数据,如下图中的。

3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜

获取到数据对应的xpath路径后,我们就可以调用lxml中的xpath函数进行数据提取啦,如下代码,输出结果为一个列表,列表里的元素就是我们的热搜标题。

这里需要注意的是,我们是获取a标签内的文本内容,所以需要在获取的xpath路径后在加上,同样的,如果有需要我们还可以获取标签内的元素对应的值,如热搜对应的链接。

获取到一条数据后,我们就要开始想获取页面所有标题数据啦,方法也很简单,我们按照上面的方法,在随便获取一个热搜标题的xpath路径,然后对比一下,取相同就可以了。

如下代码所示,我们发现两个xpath路径只有这一级不同,所以将tr后的[2]去掉即可。

3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜

当然不是,出现这种情况是因为微博有一个置顶热搜(暂且这么称呼),另外还会有1-3个微博推荐热搜(暂且这么称呼),这两种数据只有标题属性,没有其他如:排行、热度、标签等属性,分析的时候需要剔除。

当然,办法肯定是有的,前面分析、复制xpath的时候,我们已经发现每个xpath只有tr[n]中的n不同,所以写个循环变动n即可,这样每次获取每条热搜对应的相关数据即可。

新问题来了,n是多少呢?显然n不会是个定值(微博推荐热搜条数不定),我们再仔细观查页面,可以发现不管是微博热搜、置顶热搜还是推荐热搜,标题都是有的,所以我们看标题数即可。如下代码。

3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜

以上,相对完整且简洁的给大家说明白了一个简单爬虫的基本思路与行进路径,希望对初学爬虫的读者朋友有帮助,觉得还不错,记得点个赞哦。

下一讲中,我们将一起学习如何将爬去下来的数据存储到本地csv文件,或者数据库中(如:mysql,mongodb,sqlite等),关于数据存储这一节,你还想学习什么其他的内容也可以在评论区、留言区进行留言。

    以上就是本篇文章【3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜】的全部内容了,欢迎阅览 ! 文章地址:http://lianchengexpo.xrbh.cn/news/14548.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多   
最新新闻
7个可靠的网络兼职平台推荐,轻松实现电脑兼职副业
  现在大家都知道有很多兼职副业,但其中许多都对专业技能要求较高,上手比较困难。对于很多普通人来说,缺乏技能的情况下,有
ai写作写诗的软件叫什么:名字与别称一览
ai写作写诗的软件叫什么:名字与别称一览随着科技的飞速发展人工智能()逐渐渗透到了咱们生活的各个领域。在文学创作领域,写作
AI绘画创作灵感:精选AI绘画文案金句摘录集锦
在科技的浪潮下绘画逐渐崭露头角成为艺术领域的一股新势力。它不仅宽了艺术创作的边界更为艺术家们提供了源源不断的灵感。本文将
ai写作论文-ai写作论文免费一键生成-ai写作 知乎
摘要:随着人工智能技术的飞速发展写作软件逐渐成为广大创作者和学术研究者的必不可少工具。本文旨在探讨写作论文的免费一键生成
ai取名字自动生成器有哪些?这几款软件帮你轻松给宝宝起名字
新生命即将到来,为宝宝起一个悦耳且蕴含美好期盼的名字成为不少家庭的首要任务~可想法再好,没有灵感加持,
2024眉山公务员考试省考监狱系统考试排名查询时间
2024眉山公务员考试省考监狱系统考试排名查询时间由四川华图整理分享,更多关于四川公务员招聘公告,四川省考岗位表,四川公务员报
90后00后成网络带货主力,时间灵活门槛低收入可观是主因
扫码阅读完整报告近年来,直播电商行业发展迅速,给年轻人创造了新的就业机会,各大平台的带货主播如“雨后春笋”般涌现。而带货
3、【联通联不通卡】联通联不通卡29元103GB通用流量+200分钟通话(全通用,无定向,介意定向流量的小伙伴抓紧机会)
此次的流量卡推荐是小编历经一个月,在市面上所有五花八门的流量卡中选择出的最优解,绝对是现阶段的王炸,不服,欢迎来辩(首先
100句关于懂得积累的励志诗句
1、100 句关于懂得积累的励志诗句学习需要日积月累,成就事业也需要积累,不懈地努力奋斗。积累是一种毅力,是由微小到伟大的必
3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博热搜
大家好,我是老表,一名Python终身学习者,数据分析爱好者,今天给大家分享微博热搜数据可视化分析系列文章,本文为该系列第一篇
本企业新闻
推荐企业新闻

点击拨打: