业界动态
爬虫笔记1:pycharm通过requests模块实现1简单爬虫2输入关键词获取搜索到的网页数据
2024-10-31 17:22

感谢哔哩哔哩老师的课程Day2 - 3.requests模块巩固深入案例之简易网页采集器_哔哩哔哩_bilibili

爬虫笔记1:pycharm通过requests模块实现1简单爬虫2输入关键词获取搜索到的网页数据

一 、简单爬虫

分为四步:指定url、发送请求、获取响应数据、持久化存储数据

代码如下

问题一:输出的中文会乱码

解决方案:找到网站的编码方式,将获取的数据也更改为对应编码方式

 1打开网站-->右击'查看页面源代码'

 2在里面找到charset 可以看到是utf-8

 3代码的修改:在response=requests.get(url=url)后面添加

问题二:输出为一行,没有缩进(暂未解决

二、输入关键词获取搜索到的网页数据

1先找指定url (有点抽象 我的理解:用函数来比喻的话就是在网站中找到形参)   如下例子

s?wd=深圳:形参是wd,实参是深圳

指定的网站https://www.baidu.com/s  (注:把?wd以及后面的都去掉,?也可以去掉没有影响的

2代码 (注意:因为输入关键词 所以我们get函数要用到第二个参数

之前封装到词典的关键词写错了应该是需要赋值给'wd',否则显示的是百度首页

3发现虽然能运行但是打不开 这里要用到反爬机制(伪装成某一个浏览器 不然可能会被拒绝访问

具体的可以了解UA检测

在百度页面右击鼠标-->选择'检查'-->点击'网络'-->(可能需要刷新)在下面点击一个-->下滑到最后,看到User-Agent-->复制到代码中

完整的代码

运行结果

问题一:运行成功后 打开的是百度页面不是查询到的深圳页面

解决方法:指定的url中https改为http 并且关键词封装也要根据网站来写百度是wd,搜狗是query

问题二:运行成功并且打开深圳页面但是提示 百度安全验证(暂未解决) 

看看是什么原因或者之后能不能解决吧

    以上就是本篇文章【爬虫笔记1:pycharm通过requests模块实现1简单爬虫2输入关键词获取搜索到的网页数据】的全部内容了,欢迎阅览 ! 文章地址:http://lianchengexpo.xrbh.cn/news/10003.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多   
最新新闻
刘畊宏直播2小时收入120万,打赏的榜一大哥都是什么人?
说起最近这段时间直播界最火的网红明星,非“健身达人”刘畊宏莫属,从今年4月初开始,全国各地都有人因疫情被封控,而刘畊宏的
国家要普涨工资,地方正狂卷就业,让大家挣钱最重要
最近,有一个重要的文件和每个人的“钱袋子”息息相关。那就是《中共中央、国务院关于实施就业优先战略促进高质量充分就业的意见
实探债务危机中的柔宇科技:生产基地半小时只看到3个人,手机业务已停摆
2023年是折叠屏手机爆发年,诸多柔性屏供应商、手机厂商吃到红利。然而面对这样的好光景,柔宇科技却只剩一片残局。曾经凭借柔性
今日头条iphone最新版特色
今日头条ios2021最新版是专为苹果手机用户打造的头条新闻资讯应用,打开今日头条,即可知道今天发生了哪些大事,还有最新的娱乐
一张床垫用N年,弹簧早就疲软了,撑不住儿童发育的脊梁,赶紧换!
你家孩子睡的弹簧床垫陪伴TA多少年了?尤其是弹簧床垫,通常睡上3~5年的儿童床垫,金属弹簧就会呈现不同程度的疲软,这将严重影
增长黑客,创业公司用户增长的秘籍
增长黑客读了范冰的《增长黑客》,启发太多。正如作者在前言中所说,确实是处处均是干货,书里脉络清晰,是本难得的好书。增长黑
实用的高考化学考试答题思路与技巧
高考的化学考试答题要联系所学习的知识,找到知识与问题之间的结合点,确定解题的方案,这才是解题的关键。下面是小编为大家整理
小红书情人节营销指南
│前言│小红书作为女生的口袋百科指南,提供了各种各样的节日攻略内容,同时引导着用户去享受更好的生活,而在即将到来的214情
云南SEO优化如何让描述中出现地址呢?
在搜索引擎优化(SEO)的世界中,整合关键信息,如地址,到网页描述中是提升网站在搜索引擎结果页面上的可见性和点击率的关键策
实用贴!海关统计数据查询攻略
海关统计数据查询攻略为便于社会公众查询和使用海关进出口货物贸易统计数据(以下简称海关统计数据),特编制本查询攻略。一定期
本企业新闻
推荐企业新闻

点击拨打: