PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_2(附源码持续更新)

前言

文章涉及内容 闲鱼爬虫 python闲鱼爬虫 闲鱼数据采集 闲鱼自动化数据
涉及技术 python爬虫实战 python爬虫最佳实践 Android爬虫 Android自动化

本系列文章只做自用,具体功能实现未考虑所有情况,只做抛砖引玉之用。如有无法正常使用,请依据源码配合文章讲解自行修改。

代码开源地址

https://github.com/HuRuWo/PickUpTrash

整个系列文章链接

PYTHON爬虫实战:垃圾佬闲鱼爬虫、转转爬虫数据整合自用二手急速响应捡垃圾平台(附源码持续更新)-1

PYTHON爬虫实战:垃圾佬闲鱼爬虫、转转爬虫数据整合自用二手急速响应捡垃圾平台(附源码持续更新)-2

PYTHON爬虫实战:垃圾佬闲鱼爬虫、转转爬虫数据整合自用二手急速响应捡垃圾平台(附源码持续更新)-3

各位久等了

最近有好几位同学私信我询问关于这个源码的事情,主要是放假耽误了事情。现在恢复更新。源码我会放到最后的一篇里供大家参考。

第一个核心部分-闲鱼数据的抓取

对于Android数据的抓取和拦截 我已经在之前的老文章里分析过了

没看过的同学可以跳过去看看
ANDROID平台数据抓取方案分享

文中提到的几种方式 对着闲鱼操作了一番:

方案1.逆向工程

方案2:JustTrustMe + xposed

方案3:使用沙盒环境(VirtualApp)

方案4:安装证书到系统证书目录

这个过程大概花费了我好几个小时,可惜。虽然众多方案都尝试了一遍,都没有办法抓到闲鱼的数据包。

无论怎么做都没法让我的fiddler获取到闲鱼的数据包,我感觉要放弃了。

这时候就要展开搜索引擎 针对闲鱼抓包这个事情的分析了。我意识到这是一个不同寻常的apk,或许闲鱼团队用了什么新的不为人知的技术屏蔽了抓取拦截器。

这下可难倒我了,当然这时候求助万能的搜索引擎。

百度/Google一下就行了,就那么简单

百度排名第一的方案 drony转发

https://www.cnblogs.com/lulianqi/p/11380794.html 这是原文地址

具体过程就是

1.drony转发数据包转发闲鱼数据
2.证书校验通过

同时文章还解答了一个为什么没法抓包的问题 就是闲鱼用了一门新技术 -flutter

这里插一个名称解释

flutter又是什么呢
Flutter 由 Google 的工程师团队打造,用于创建高性能、跨平台的移动应用。Flutter 针对当下以及未来的移动设备进行优化,专注于 Android and iOS 低延迟的输入和高帧率。Flutter 可以给开发者提供简单、高效的方式来构建和部署跨平台、高性能移动应用;给用户提供漂亮、快速、jitter-free 的 app 体验。

总结一下 就是一个新的app开发框架,和以往的不同就是了。而且他 默认Flutter不会主动使用系统代理,需要单独设置 这就是核心问题了

做一次端口转发算是帮软件完成了链接代理的过程。

这里我们算是解决了闲鱼数据包的抓取问题

因为fidder拦截到了数据,只要这一步成功了。我们就可以通过fidder拦截到的数据做数据收集。

fiddler里面自带了一个Script功能 这是个非常好用的东西 学起来也非常方便。

下一章节就是关于这个数据的提交了

最后说明一下

我个人的文风可能属于那种啰里啰唆的,因为我想的就是要让大家知道这个东西怎么来的。我是怎么想的,为什么是A而不是B。这样在后面的例子里无论是改进还是复用这个逻辑都行。

从一个点到一个面的去思考,当然有同学就想一步到位直接看源码就行。我觉得这个想法不太对路子。有了思路反而源码并不重要,毕竟我觉得我的代码还是有点烂的,我只能保证功能是能做到的,但是是否完备或者后面的错误处理都是要大家自己去跟进的。

共勉一下,希望大家点个关注,分享开源不易。

PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_2(附源码持续更新)》有5个想法

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注