业界动态
Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据
2024-11-19 03:12

现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导,让我们一起学习成长

 

在实际的使用过程中,到底使用 BeautifulSoup 还是 XPath,完全取决于个人喜好,哪个用起来更加熟练方便,就使用哪个。

爬虫实战:爬取豆瓣海报

我们可以从豆瓣影人页,进入都影人对应的影人图片页面,比如以刘涛为例子,她的影人图片页面地址为

  • [https://movie.douban.com/celebrity/1011562/photos/] Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据 下面我们就来分析下这个网页
目标网站页面分析

注意:网络上的网站页面构成总是会变化的,所以这里你需要学会分析的方法,以此类推到其他网站。正所谓授人以鱼不如授人以渔,就是这个原因。

Chrome 开发者工具

Chrome 开发者工具(按 F12 打开),是分析网页的绝佳利器,一定要好好使用。

我们在任意一张图片上右击鼠标,选择“检查”,可以看到同样打开了“开发者工具”,而且自动定位到了该图片所在的位置 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据 可以清晰的看到,每张图片都是保存在 li 标签中的,图片的地址保存在 li 标签中的 img 中。

知道了这些规律后,我们就可以通过 BeautifulSoup 或者 XPath 来解析 HTML 页面,从而获取其中的图片地址。

代码编写

我们只需要短短的几行代码,就能完成图片 url 的提取

 

可以看到,是非常干净的列表,里面存储了海报地址。

但是这里也只是一页海报的数据,我们观察页面发现它有好多分页,如何处理分页呢。 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

分页处理

我们点击第二页,看看浏览器 url 的变化

  • https://movie.douban.com/celebrity/1011562/photos/?type=C&start=30&sortby=like&size=a&subtype=a

发现浏览器 url 增加了几个参数

再点击第三页,继续观察 url

  • https://movie.douban.com/celebrity/1011562/photos/?type=C&start=60&sortby=like&size=a&subtype=a

通过观察可知,这里的参数,只有 start 是变化的,即为变量,其余参数都可以按照常理来处理

同时还可以知道,这个 start 参数应该是起到了类似于 page 的作用,start = 30 是第二页,start = 60 是第三页,依次类推,最后一页是 start = 420。

于是我们处理分页的代码也呼之欲出了

首先将上面处理 HTML 页面的代码封装成函数

 

然后我们在另一个函数中处理分页和调用上面的函数

 

此时,我们所有的海报数据都保存在了 data 变量中,现在就需要一个下载器来保存海报了

 

再增加下载器到 fire 函数,此时为了不是请求过于频繁而影响豆瓣网的正常访问,设置 sleep time 为1秒

 

下面就执行 fire 函数,等待程序运行完成后,当前目录下会生成一个 picture 的文件夹,里面保存了我们下载的所有海报 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

核心代码讲解

下面再来看下完整的代码

 
fire 函数

这是一个主执行函数,使用 range 函数来处理分页。

  • range 函数可以快速的创建整数列表,在 for 循环时及其好用。函数中的0代表从0开始计数,450代表一直迭代到450,不包含450,30代表步长,即每次递增的数字间隔。range(0, 450, 30),依次会输出:0,30,60,90 …
  • format 函数,是一种字符串格式化方式
  • time.sleep(1) 即为暂停1秒钟
get_poster_url 函数

这个就是解析 HTML 的函数,使用的是 BeautifulSoup

  • 通过 find_all 方法查找所有 class 为 “cover” 的 div 元素,返回的是一个列表
  • 使用 for 循环,循环上一步拿到的列表,取出 src 的内容,append 到列表中
  • append 是列表的一个方法,可以在列表后面追加元素
download_picture 函数

简易图片下载器

  • 首先判断当前目录下是否存在 picture 文件夹,os.path.exists
  • os 库是非常常用用来操作系统相关的命令库,os.mkdir 就是创建文件夹
  • split 用于切割字符串,取出角标为7的元素,作为存储图片的名称
  • with 方法用来快速打开文件,打开的进程可以自行关闭文件句柄,而不再需要手动执行 f.close() 关闭文件
总结

本节讲解了爬虫的基本流程以及需要用到的 Python 库和方法,并通过一个实际的例子完成了从分析网页,到数据存储的全过程。其实爬虫,无外乎模拟请求,解析数据,保存数据。

当然有的时候,网站还会设置各种反爬机制,比如 cookie 校验,请求频度检查,非浏览器访问限制,JS 混淆等等,这个时候就需要用到反反爬技术了,比如抓取 cookie 放到 headers 中,使用代理 IP 访问,使用 Selenium 模拟浏览器等待方式。

最后

在学习python中有任何困难不懂的可以微信扫描下方CSDN官方认证二维码加入python交流学习 多多交流问题,互帮互助,这里有不错的学习教程和开发工具。

👉[[CSDN大礼包:《python安装包&全套学习资料》免费分享]]安全链接,放心点击

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

二、Python必备开发工具

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

四、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。 Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

    以上就是本篇文章【Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据】的全部内容了,欢迎阅览 ! 文章地址:http://lianchengexpo.xrbh.cn/news/14704.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多   
最新新闻
《无问西东》:人为什么要坚持,这是我听过最好的答案
他们的爱与风华, 只问自由,只问深情, 只问盛放,只问初心,只问勇敢。 无问西东。 《无问西东》在拍完之后的5年里,一度沉寂
五菱的私域、索菲亚的群,还有叮咚小哥的笔记
所有巨大的效果都是由一个很小的变化引起的,微小的转变可以对个体、组织和社区产生重大的影响。一个遵循流行规则的世界与我们眼
RHCE第四次作业
配置DNS正向解析 [root@localhost ~]# yum install bind -y 下载软件包 [root@localhost ~]# vim /etc/named.conf optio
Headspace Privacy Policy
Depending on your jurisdiction, you have additional rights that apply to you under your jurisdiction's privacy laws
Python爬虫入门教程!手把手教会你爬取网页数据_python爬取网页数据
现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去
京搜客如何设置?有哪些选词方式?
京搜客是以搜索关键词作为竞价目标的,这点和京东快车还是比较相似的。其实很多商家在京东推广店铺的时候都喜欢用这种推广方式,
ai对话生成器有哪些?
2. chatbotchatbot是一种基于人工智能技术的聊天机器人,可以与人进行自然语言交互,并回答用户的问题和提供信息。Chatbot可以用
人生正确的价值观
人生正确的价值观  人生正确的价值观,人生价值观决定了一个人的人生走向,人生的价值对于很多人来说是个很模糊的名词,才能在
b2b平台推广-中国十大行业新锐B2B网站
b2b平台推广-中国十大行业新锐B2B网站  国内钢铁行业B2B平台找钢网对外宣布,公司最新获得11亿元的融资,投资方包括IDG、华晟
SEO排名优化软件与教程,提升网站排名的关键
本文目录导读:SEO排名优化软件SEO教程如何选择适合的SEO教程?SEO排名优化软件介绍SEO排名优化软件教程SEO排名优化技巧随着互联
本企业新闻
推荐企业新闻

点击拨打: