博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
阅读量:6092 次
发布时间:2019-06-20

本文共 1200 字,大约阅读时间需要 4 分钟。

1. Python爬虫入门教程 爬取背景

2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面。这个APP还是比较有名和有意思的。

下面是百思不得姐的简介

年度超好玩的搞笑内容平台,整个互联网能嗨翻宇宙的神级脑洞大神段子手们都在这..新鲜的视频,爆笑的段子,有趣的GIF囧图,承包所有你无聊的时间。更有“姐夫”们毁天灭地“神评论”,花式吐槽,脑洞大开,人人都是段子手……复制代码

1500W的下载量,用户群体比较庞大。

2. 爬虫的抓包分析阶段

安装到模拟器内部,打开Fiddler,运行程序,看下图,左侧最后出现的链接,就是我们想要的了

得到待爬取连接如下,所有的request请求,注意到,并没有什么加密参数

GET HTTP/1.1 ver: 8.0.1 client: android market: 360zhushou udid: 866174010820641 mac: 9C:30:5B:38:35:2F os: 4.4.2 appname: budejie visiting: Referer: t: 1547132330768 Host: Connection: Keep-Alive Accept-Encoding: gzip

去掉无用参数, 得到如下链接

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.json 复制代码

剩下的就是分析了

3. 分析页面规律,得到链接拼接方式

爬虫就是要找到链接的规律,下面是第一页和第二页的数据

http://d.api.budejie.com/v2/topic/list/29/0-0/budejie-android-8.0.1/0-25.jsonhttp://d.api.budejie.com/v2/topic/list/29/29082060-28984879/budejie-android-8.0.1/1544334121-25.json复制代码

提取公用部分 {参数1}-{参数2}/budejie-android-8.0.1/{参数3}-25.json 三个参数位置发生了改变 还有两个数字,一个是29,这个目测应该是类别,一个是25,这个应该是每页显示的数据条数

那么我们看一下,第二个链接中参数1,2,3分别是怎么得到的就可以了,看一下第一页的返回数据

上图得到参数3的值

展开list看到第一项的id为29082060 OK,得到参数1的值了,最后一项肯定是参数2的值,那么我们找到对应参数之后剩下的就是编码了。

4. 爬虫具体编码部分

依旧是你自己来写吧~任何一个模块或者爬虫框架都是很容易就可以实现的,重要的是我们抓到了对应链接就可以了。

百思不得姐手机APP收工

转载地址:http://niqwa.baihongyu.com/

你可能感兴趣的文章
jQuery插件编写规则
查看>>
MessagePack Java的使用
查看>>
Spring Boot搭建rest环境--规范化的REST接口
查看>>
Android库和项目收集-仿特效
查看>>
java.util.Set转换为Object[]
查看>>
给webmagic加上了注解支持
查看>>
工作用常用的vim script
查看>>
linux/unix系统编程手册源码编译
查看>>
Android -- 网络管理分析
查看>>
Java EE 5 vs Java EE 6
查看>>
ulimit 为何不生效
查看>>
Visual Studio 2010
查看>>
Sharepoint 2013企业内容管理学习笔记(二) 全自动化内容管理
查看>>
复习 文件类型
查看>>
阿里云主机部署安装SSL证书
查看>>
DateDiff()倒计时
查看>>
c++11新特性--decltype auto
查看>>
RawCap
查看>>
screen命令的最常见的使用方法
查看>>
我的友情链接
查看>>