基于Appium和MitmProxy的抖音爬取实战总结,附一个简单的爬虫

之前出于兴趣和学习的目的尝试了一下抖音APP的数据抓包,实现了我要的效果之后把总结发到了博客。嘎嘎没想到有这么多同学感兴趣,也难怪谁让抖音现在这么火呢。上次发了段小代码,说什么给吴亦凡的粉丝颜值打分?现在看看当时的代码真是失了智。虽然之前的……

Python Faker库的实战,用Faker库生成伪造的安卓通讯录

老板的需求总是各种各样的,作为程序员就只能想办法实现。这不突然让帮他生成几个虚假的通讯录。具体需求是这样的:老板给我个电话簿,让我给这个电话簿添加上姓名,公司,邮箱之类的数据然后导入到安卓手机的通讯录中。听起来不难,主要有两个难点需要解决……

Flask验证码的使用,运用PIL库生成简单的图形验证码

在我们网上冲浪的时候验证码的存在就像是空气一般的存在,是根本无法避免的。对于完全不了解开发的同学,他们总会嫌弃验证码拖慢他们的工作效率。但是对于我们网站的建设者来说,验证码的存在就像是一道坚固的城墙,将一些恶意行为拒之门外。验证码的存在作……

以Flask为起点入门Web后端开发,关于Flask框架的理解和笔记

最近在学习Web框架,不管是学长还是老师都是推荐从Java的框架入手,Java找工作比较抢手。或许是对Java的不感兴趣,总是打不起学习的精神。浑浑噩噩到了大三意识到什么都不会总是不行,起码学个简单的框架先入入门。写点小项目也不至于毕业找工作简历过于苍……

APP爬虫入门,Appium+Mitmproxy强势组合实现抖音的数据爬取

最近一直在研究APP的爬虫实现。前面文章讲了虚拟机和Appium环境的搭建 和 SSL PINNING的解决方法 ,主要难点在于解决APP开启SSL Pinning导致抓包异常。现在环境搭建好了需要一个基础入门实例,我们就以最火的抖音为例子做一个演示例程。当然我们选择抖音并……

突破抖音反爬虫机制,字体图标替换实现通过抖音UID获取真实抖音号

最近在研究抖音app的数据爬取,遇到了一个小小的问题。通过分析mitmproxy抓包返回的json数据发现,有的账号会显示UID,但是抖音号是“0”。按道理来说每个人都有唯一的抖音号。这是为什么呢?我首先想到的是查文档,看看API文档是如何定义的。你爬取别人的数……

[Python脚本]Pydub + FFmpeg 实现视频提取音频保存,以及Pydub API的简单使用介绍

动机 生活总是不尽人意,今天也是一样。总是从网上下载了许多好听的Live视频,真是太有感觉了好吧。但是我想听歌我不想看视频呐,一锁屏就暂停这怎么能忍?想想办法把视频中的音轨提取出来呗。搜索引擎启动:在线MP4提取MP3。一个小小的功能竟然许要下载安……

Selenium + BeautifulSoup爬虫入门,对于JS加载的网页数据无法读取的解决办法

问题来源 爬虫写完并不是一劳永逸的,因为原站的代码迭代,我们上次文章写的代码就变成了a pile of shit💩。生活不如意,十有八九,这并不是阻碍我们学习的绊脚石。我们出发点是学习,为了使这次对的代码具有一定的Robust(健壮性),同样为了学习新……

[简易爬虫]Requests+BeautifulSoup爬取音乐网站所有曲目,多线程实现歌曲本地保存

著名民谣(摇滚😖)歌手李志被官方以行为不端的理由封杀,作品遭到全网下架。虽然事情没有最终的结论,但是最近确实是没办法听到他的歌了。在网易云无聊的刷live视频,被逼哥震撼的现场所打动,从此被他真实的歌声吸引。作为程序员,典型的pushover,……

应用抓包时Https数据包无法获取的原因,应用开启SSL Pinning的解决方法

众所周知,Fiddler是一款十分强大的抓包工具,也是我最常用的一款抓包软件.虽然网页抓包的话浏览器自带的网络调试工具就足以胜任,但是对于软件抓包的话就必须用到Fiddler等第三方工具了.Fiddler的强大不在于它可以抓取各个平台的数据包,还在于他的强大的调……

Top