最新动态
selenium+云打码+百度ocr爬取360的电话号码标记
2024-10-31 16:06

  抱歉,云打码公司已经倒闭,目前还未找到能替代的云服务

selenium+云打码+百度ocr爬取360的电话号码标记

  写了个脚本,用于从www.so.com 上查询电话号码的标记情况,记录下号码所属公司、标记类型、标记人数(如果存在)。如下图红框中的信息。主要使用python的beautifulsoup和selenium,还用到了云打码平台(固定ip频繁查询后会被360要求输入验证码,需要收费,1分钱1个码)和百度OCR(360的查询结果中,所属公司是图片形式,因此需要文字识别,每天50000张以下免费)。约4-8秒处理一个号码,只能单进程(多进程啥的无意义,毕竟固定ip只有一个)。我们用来处理9000个号码,0点开始,大约10点结束。(python3.7.2)
360爬虫_1.png
360爬虫_2.png
  云打码平台:http://www.yundama.com/apidoc/YDM_SDK.html#demo
  百度OCR:https://ai.baidu.com/sdk#ocr

  1、需要用到的模块

  2、准备工作

  3、查询号码,这里只用1个号码举例,批量查询可以用循环

  4、有验证码的情况,尝试云打码

  5、百度OCR准备工作(如果号码有所属公司标记,公司名称是图片格式,需要识别)

  6、网页内容解析,找出标记类型和标记数量

  7、网页内容解析,识别所属公司

    以上就是本篇文章【selenium+云打码+百度ocr爬取360的电话号码标记】的全部内容了,欢迎阅览 ! 文章地址:http://lianchengexpo.xrbh.cn/quote/6933.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多