
python-爬虫
文章平均质量分 75
飞向天空的鹰
热爱编程,热爱代码。
好记性比不过烂笔头,希望也能帮到大家,学无止境,一起进步吧...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
总结 UIautomator2 atx-app过段时间会清后台的问题
手上一台设备不知道为啥莫名其妙清atx后台,手机没有重启,或者usb插拔。长时间(5~6小时以上)脱机运行就会出现实际是atx的uiautomator没打开,手动点击如下即可:有人也有这种情况,用Ubuntu系统,使用专用wifi,出现的几率就很小了。以前也用过但是基本没出现这种情况。我感觉大概率是版本的问题。原创 2025-04-17 16:37:23 · 344 阅读 · 0 评论 -
解决 weditor 报错AttributeError: ‘Device‘ object has no attribute ‘address’
修改文件的路径:在你安装的python库里面:\Lib\site-packages\weditor\web\handlers\page.py。原创 2025-04-11 12:03:21 · 569 阅读 · 0 评论 -
总结-解决无限debugger
解决无限debugger原创 2024-06-21 18:11:45 · 2016 阅读 · 0 评论 -
滑块验证码之模拟人工滑速
代码直接运行即可此处是用的selenium模拟,主要记录的难点是如何具体原理和利用到的东西都有做注释,逻辑完整,小白还是可以尝试理解的。原创 2023-11-24 18:33:10 · 2082 阅读 · 0 评论 -
Hook+jsdom 解决cookie逆向
前言记录下如何破cookie逆向目标目标网址:https://q.10jqka.com.cn/目标接口:http://q.10jqka.com.cn/index/index/board/all/field/zdf/order/desc/page/2/ajax/1/对抗:cookie反爬虫处理,关键字v,如图解决步骤1、JS中关键字查找如上,我们找到了关键字 v,那么接下来就用hook搜查点击F12,打开 开发者工具,选择Console直接输入hook代码(function () {原创 2023-11-23 14:01:16 · 1890 阅读 · 0 评论 -
总结TLS指纹反爬
TLS指纹,也有人叫JA3指纹。在创建TLS连接时,根据TLS协议在Client Hello阶段发送的数据包就是就是TLS指纹。不同浏览器、不同版本(不同框架)因为对协议的理解和应用不一样,所以发送的数据包内容也就不一样,所以就形成了TLS指纹。原创 2023-07-10 18:09:32 · 5602 阅读 · 0 评论 -
高效简单解决滑动验证码
剩下的问题就好办了,我们只需要对轮廓的面积或者周长范围做限制,就能过滤出目标轮廓的位置, 前提是我们对目标位置的轮廓大小是预先确定的。轮廓的面积大概是 6000 到 8000 之间,周长在 300 到 500 之间, 最后用外接矩形获取该轮廓图的坐标位置和宽高大小。首先先来分析下,核心问题其实是要怎么样找到目标缺口的位置,一旦知道了位置,我们就可以借用selenium等工具完成拖动的操作。首先将图片进行高斯模糊处理,高斯模糊的主要作用是减少图像的噪声,用于预处理阶段。opencv 是什么?原创 2023-06-29 16:22:08 · 2062 阅读 · 0 评论 -
个人总结 - IP代理池的思考
今天话有点多,连续发了几篇博客,主要平常忙的话就没时间关注博客这块,今天兴致在,就勤快点哈哈一般公司除非有钱,他可以购买ip服务器,或者大量高质量ip,但是有的时候,公司经济有限,需求量不大,个人本身做些业务的需求上,那么就可以自己搭建个本地的个人ip池。因此我们可以理清下搭建池的思路与逻辑如何。原创 2023-06-28 17:39:35 · 2535 阅读 · 0 评论 -
ATX Server2-多设备集群环境搭建
ATX Server2是⼀个移动设备管理平台,主要是Python3+NodeJS+RethinkDB开发。用于集中管理我们的设备,以及远程运行测试用例。官方文档:https://github.com/openatx/atxserver2搭建这样⼀套系统,需要:1、atxserver2: 安装网址: https://github.com/openatx/atxserver2。原创 2023-06-26 16:12:39 · 1620 阅读 · 0 评论 -
【解决】常见反爬总结之SVG映射
记得好早之前,我做过关于外卖平台字体加密反爬总结笔记,今天给大家记录另外一种常见的反爬 —— SVG 映射原创 2022-08-12 17:00:22 · 951 阅读 · 1 评论 -
逆向分析:还原 App protobuf 协议加密
日常记录,加深印象,希望对大家有帮助~原创 2022-08-12 16:20:16 · 1569 阅读 · 1 评论 -
【程序告警】Python发送通知到企业微信
前言目前疫情严重,我因为公司项目上的程序每天都要运行,下班的时候人不在,不知道程序运行状态怎么样,有没有报错,能不能及时修复,所以在项目上加了个程序告警,以方便我及时了解程序状态。目前常见的告警方式有:邮件,电话,短信,微信。因为我工作是用的企业微信,应用使用时间也多,有历史记录,查看也方便,所以我选择的是企业微信。步骤1.新建应用首先登陆网页版企业微信: https://work.weixin.qq.com/点击 应用管理 ==> 应用 ==> 创建应用上传应用的 logo,输原创 2022-04-14 18:07:51 · 1684 阅读 · 0 评论 -
总结:用Python实现定时任务的八种方案
前言目前为止,在我工作中,常常会用到需要周期性执行的任务,其中,第一种方式是采用 Linux 系统自带的 crond 结合命令行实现。另外一种方式是直接使用Python。因此,我总结整理了下的是常见的Python定时任务的实现方式,方便给需要的人采用。定时目录方案利用while True: + sleep()实现定时任务使用Timeloop库运行定时任务利用threading.Timer实现定时任务利用内置模块sched实现定时任务利用调度模块schedule实现定时任务利用任务框架APSchedule原创 2021-10-13 17:24:37 · 914 阅读 · 0 评论 -
记录:weditor/uiautomator 报错出现 cannot identify image file 解决方案
前言由于现在做的移动端多设备群控框架已经搭建的差不多,手中的手机设备也有10多台在群控运行,有小米,红米,荣耀,vivo,oppo ,华为不同的手机设备都有在用。每天完成不同的任务需求抓取。在此期间每次配置设备时有的手机安装atx在weditor上运行时总会报错关于 cannot identify image file <_io.BytesIO object at 0x0000015F5F6E2FC0> 等类似错误,如图:对此,也困扰了我一段时间,网上也没有类似案例查询,只能一步步的自己原创 2021-07-05 16:52:05 · 3385 阅读 · 2 评论 -
HTTP/2.0 - 最新超强反爬虫方案!(禁用所有 HTTP 1.x 的请求)
现在很多爬虫库其实对 HTTP/2.0 支持得不好,比如大名鼎鼎的 Python 库 —— requests,到现在为止还只支持 HTTP/1.1,啥时候支持 HTTP/2.0 还不知道。原创 2021-06-01 12:18:58 · 2635 阅读 · 2 评论 -
celery 爬虫使用
简介celery是一个基于分布式消息传输的异步任务队列,它专注于实时处理,同时也支持任务调度。它由三部分组成,消息中间件,任务执行单元和任务执行结果存储组成。官网 :http://www.celeryproject.org/ 下载:pip install celery消息中间件:Celery本身不提供消息服务,但是可以方便的和第三方提供的消息中间件集成。包括,RabbitMQ, Redis等等。任务执行单元:Worker是Celery提供的任务执行的单...原创 2021-04-02 18:13:17 · 886 阅读 · 1 评论 -
个人总结 - apk反编译爬虫 - 补充
前言对之前apk反编译的补充,很久没更新,怕忘记啦。正所谓好记性比不过烂笔头,哈哈上一篇的地址:https://blog.csdn.net/weixin_42277380/article/details/97235098?spm=1001.2014.3001.5501问题一:app抓到数据包,可返回的数据是加密的原因:被AES加密了,要想还原出明文,必须要反编译拿到KEY解决过程1、下载APK文件2、通过搜一些特征字符串,确定需要的.dex文件 ,例如找到url中加密的参数来搜原创 2021-04-02 11:35:00 · 563 阅读 · 2 评论 -
Python 自动化脚本部署服务器流程
前言目前在理财通做定时自动化爬虫,之前完成的代码实现的部分,现在本地运行稳定后,就考虑将它部署到服务器,根据自己的定时任务在固定的时间自动启动抓取任务。但是,由于自动化程序与平台兼容性有关联,有一些依赖库在服务器运行需要做特殊处理本篇文章以一段 Selenium 编写的 Python 自动化程序,聊聊脚本部署服务器的详细过程操作步骤以 CentOS 服务器为例2-1安装桌面环境PS:如果已经安装,可以跳到下一步我们需要先安装一个桌面环境「以GNOME 为例」,设置以...原创 2021-03-17 09:46:11 · 1404 阅读 · 0 评论 -
BloomFilter在Python爬虫中的使用
BloomFilterBloomFilter(布隆过滤器)是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。BloomFilter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。BloomFilter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,BloomFilter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bl原创 2021-01-08 11:23:46 · 1493 阅读 · 0 评论 -
总结 - Python 对增量式爬虫的思考
前言所谓增量式爬虫并不是新型的爬虫架构,而是根据项目需求而产生的一种爬虫类型。例如我们想爬取某某的职位信息,可是我们只想爬取每天更新的职位信息,不想全部都爬取, 这就需要增量式爬虫。增量式爬虫的核心在于快速去重,我们必须判断 哪些是已经爬取过的,哪些是新产生的。去重方案 去重一般的情况是对URL进行去重,也就说我们访问过的页面下次不再访问。但是也有一些情况,例如贴吧和论坛等社交网站,同一个 URL,由于用户评论的存在,页面内容是一直变化的,如果想抓取评论内容,那就...原创 2021-01-08 10:25:53 · 590 阅读 · 3 评论 -
基于Python的OCR图像识别
1、使用python的pytesseract库主要是安装库,比较简单,直接使用pip install安装即可;另外,如果进行中文识别,需要下载语言包,并配置好相应环境,具体操作可以进行百度,教程有不少。因为这个识别方法比较简单(但效果并不是很理想),(1)Tesseract的安装及配置Tesseract的安装我们可以移步到该网址https://digi.bib.uni-mannheim.de/tesseract/,里面有很多版本供大家选择,其中w32表示32位系统,w64表示64位系统,大...原创 2020-05-18 20:02:01 · 3724 阅读 · 0 评论 -
自动化测试工具 - uiautomator2
前言之前有一篇appium 自动化的介绍 (https://blog.csdn.net/weixin_42277380/article/details/102911460)这里还有另外一个自动化测试工具,是一个大佬改写,本人用过很是牛逼简介python-uiautomator2是一个自动化测试开源工具,仅支持Android平台的原生应用测试,它封装了谷歌自带的uiautomator...原创 2019-11-05 15:00:01 · 975 阅读 · 0 评论 -
自动化测试工具 - Appium
一、简单介绍一、测试对象appium 是一个自动化测试开源工具,支持iOS和 Android平台上的原生应用,web应用和混合应用。● 移动原生应用:单纯用ios或者android开发语言编写的、针对具体某类移动设备、可直接被安装到设备里的应用,一般可通过应用商店获取,比如某个游戏app;● 移动web应用:使用移动浏览器访问的应用(appium支持iOS上的Safari和Andr...原创 2019-11-05 14:29:50 · 980 阅读 · 0 评论 -
Android SDK 环境搭建
一、JDK 安装说明:JDK是包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具,所以必须最先安装。链接:https://pan.baidu.com/s/1NfNK_K7vukFMfi8y7fNtzQ密码: 6aqu安装:直接双击下一步,默认安装即可环境变量:1. 新建变量JAVA_HOME 添加值C:\Program Files\Java\jd...原创 2019-11-04 12:20:05 · 2288 阅读 · 0 评论 -
Scrapyd + Gerapy部署搭建爬虫管理系统(下)
对接上篇scrapyd安装配置 :https://blog.csdn.net/weixin_42277380/article/details/99546924本片对Gerapy进行详细讲解Gerapy安装GitHub:https://github.com/Gerapy/Gerapy。Gerapy是一个基于Django框架的一个爬虫部署web端,在gerapy上,我们能更简便的把我们...原创 2019-08-14 10:50:49 · 683 阅读 · 0 评论 -
Scrapyd + Gerapy部署搭建爬虫管理系统(上)
在公司里面,除了会要写爬虫,还要会知道如何搭建爬虫管理系统~GitHub:https://github.com/scrapy/scrapydAPI 文档:http://scrapyd.readthedocs.io/en/stable/api.html安装配置scrapyd1、新建虚拟环境(方便管理),并在虚拟环境中安装scrapy项目需要使用到的包。mkvirtuale...原创 2019-08-14 10:44:29 · 1087 阅读 · 0 评论 -
记一次重大突破 - 破解js参数加密
前言前几天应公司要求,需要爬取平安好医生APP,发现数据存在sign签名算法加密,如下图 本来想通过js逆向解析分析出 ‘_sig=’ 出来,通过 F12 开发者工具发现其生成方法如下只知道用md5加密,但具体加密参数缺用 c、g、m这样的参数给掩盖掉了,通过关键词搜索等于大海捞针,js看着也头大,随即就放弃用seleium自动化抓取。但后几...原创 2019-09-15 23:11:46 · 558 阅读 · 0 评论 -
个人总结 - JS逆向解析
目前加密的方式总结有下面几点: 对称加密(加密解密密钥相同):DES、DES3、AES 非对称加密(分公钥私钥):RSA 信息摘要算法/签名算法:MD5、HMAC、SHA 前端实际使用中MD5、AES、RSA,自定义加密函数使用频率是最高的 几种加密方式配合次序:采用非对称加密算法管理对称算法的密钥,然后用对称加密算法加密数据,用签名算法生成非对称加密...原创 2019-08-13 15:10:39 · 24247 阅读 · 1 评论 -
手把手教学 - 编写多线程爬虫
知识简介多线程是提高爬取速度和提高爬虫效率的主要方法之一。多进程和多线程在大部分情况下都可以加快处理效率,缩短处理时间,但是会出现通信、数据共享和加锁问题等。为了降低使用的门槛,使操作更简单,这里直接使用Python的标准库multiprocessing模块,这个模块使别人很容易利用多线程和多进程处理任务。一般计算(CPU)密集型任务适合多进程,IO密集型任务适合多线程。IO密集型...原创 2019-08-26 15:26:36 · 617 阅读 · 0 评论