《爬虫和逆向教程》 - 专栏介绍和目录

本文链接：https://blog.csdn.net/cui_yonghua/article/details/145936963

本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。为你提供全面而深入的爬虫和逆向技术指导，从入门到精通，从基础理论到高级实战，助你在数据的海洋中畅游，挖掘出有价值的信息。通过本专栏的学习，你将具备独立开发和优化爬虫程序的能力，及逆向分析能力和项目开发能力，成为爬虫领域的佼佼者。

前言：为什么要学习爬虫和逆向，该如何学习？

一、爬虫基础和进阶

1.1 前置知识

1、爬虫需要掌握的python基础：工作用到的95%的python基础代码都在这了
2、一文掌握网页基础和爬虫原理
3、HTTP 基本原理详解
4、爬虫基础：HTTP 状态码大全

1.2 爬虫基础

1、一文掌握urllib的详细使用，包括基础用法和高级功能
2、一文掌握requests的详细使用，包括基础用法和高级功能
3、爬虫：一文掌握WebSocket爬虫案例实战
4、python爬虫：pyspider的详细使用
5、爬虫去重：数据采集时如何进行去重

1.3 抓包工具的使用

1、从Chrome浏览器进行抓包详解
2、一文掌握Fiddler 的详细使用
3、一文掌握Charles抓包工具的详细使用
4、一文掌握mitmproxy抓包工具的使用和实时抓包处理案例
5、Mitmproxy 指令备忘清单
6、Wireshark经典实践和面试13点总结
7、开源免费抓包工具：ProxyPin 的详细使用

1.4 数据解析提取

1、爬虫解析库：一个小时掌握 XPath 的详细使用方法（超级详细！）
2、爬虫解析库：parsel的详细使用
3、爬虫解析库：pyquery的详细使用
4、爬虫解析库：BeautifulSoup的详细使用
5、一文掌握python中正则表达式的各种使用
6、Python爬虫：一文掌握PyQuery模块
7、数据解析：一文掌握Python库 lxml 的详细使用（处理XML和HTML的高性能库）
8、Python 中 dpkt 库的详细使用指南（强大的 Python 数据包解析库）
9、python爬虫：解析url链接的几种方式
10、爬虫解析：python如何判断requests库请求返回的是json还是html还是其他？

1.5 数据存储

1、数据存储：将数据存到本地磁盘，有哪些好用的方式？
2、数据存储：一文掌握存储数据到mysql的详细使用
3、数据存储：一文掌握存储数据到MongoDB详解
4、数据存储：使用Python存储数据到redis详解
5、数据存储：一文掌握存储数据到ElasticSearch详解
6、消息队列：一文掌握RabbitMQ的详细使用
7、数据存储：MySQL如何能存储一亿条链接信息?
8、数据去重：结合redis设计布隆过滤器的3种方式（附完整python封装代码）

1.6 代理搭建和使用

1、爬虫代理：一文掌握代理的设置和代理池的维护（超级详细）
2、爬虫代理：一文掌握ADSL拨号代理的搭建方法，及详细使用

1.7 模拟操作和动态页面处理

1、Ajax动态加载和网页动态渲染之间的区别及应用场景
2、Ajax数据采集与分析详解
3、一文掌握Selenium的详细使用
4、一文掌握Pyppeteer的详细使用
5、一文掌握 Playwright 的详细使用
6、一文掌握Splash的详细使用
7、一文掌握PhantomJS的详细使用和实战案例
8、一文掌握DrissionPage的详细使用
9、爬虫反爬：CSS位置偏移反爬案例分析与实战案例
10、爬虫反爬：字体反爬案例分析与爬取实战
11、python爬虫：自动化工具CEF Python的详细使用
12、Python 爬虫：一文掌握 SVG 映射反爬虫
13、爬虫：Requests-HTML的详细使用
14、一文掌握模拟登录的基本原理和实战
15、一文5分钟掌握基于JWT的模拟登录爬取实战
16、爬虫：一文掌握 Pydoll 的详细使用
17、爬虫：一文掌握 curl-cffi 的详细使用（支持 TLS/JA3 指纹仿真的 cURL 库）
18、爬虫：一文掌握 crawlergo 的详细使用（用于网络漏洞扫描程序的强大浏览器爬虫）
19、爬虫反爬：一文掌握 BotBrowser 的原理和使用（能绕过很多验证码的指纹浏览器）
20、python爬虫：Requestium 的详细使用
21、python爬虫：RoboBrowser 的详细使用
22、一文掌握 undetected-chromedriver 的详细使用（可通过机器人验证）
23、爬虫自动化：一文掌握 PyAutoGUI 的详细使用
24、反爬虫：基于 Chromium 的“魔改”指纹浏览器 YSbrowser 详解（适用于绕过网站检测的场景）

1.8 验证码破解

1、验证码识别：使用OCR技术识别图形验证码详解
2、一文掌握使用OpenCV识别滑动验证码的缺口（超级详细）
3、一文掌握使用深度学习识别验证码详解（包括图形验证码和滑块验证码）
4、验证码识别：一文掌握手机验证码的自动化处理
5、使用 Tesseract 进行 OCR 识别的详细指南
6、Python库CloudScraper详细使用（绕过 Cloudflare 的反机器人页面的 Python 模块）
7、爬虫验证码处理：ddddocr 的详细使用（通用验证码识别OCR pypi版）

1.9 高效率爬虫

1、一文掌握python中httpx库的详细使用及案例
2、python高效爬虫：asyncio + aiohttp 的详细使用和异步爬虫实战
3、账号池：一文掌握爬虫中大规模账号池的搭建
4、一文掌握 Scrapy 框架的详细使用，包括实战案例
5、爬虫：Scrapy-Redis 分布式爬虫实战案例
6、爬虫：一文掌握 Celery 分布式爬虫，及对应实战案例
7、python爬虫：python中使用多进程、多线程和协程对比和采集实践
8、Python爬虫：基于Bloom Filter进行大规模去重详解
9、用python如何高并发写入数据到mysql？
10、Python爬虫：Asyncpy 的详细使用和案例
11、Python爬虫：Feapder 的详细使用和案例
12、高效爬虫：一文掌握 FunBoost 的各种使用（万能分布式函数调度框架）
13、python爬虫：grequests的详细使用
14、python爬虫：Ruia的详细使用（一个基于asyncio和aiohttp的异步爬虫框架）
15、Python爬虫：AutoScraper 库详细使用大全（智能、自动且轻量级）
16、python高效爬虫：使用Tornado构建异步网络爬虫详解
17、Python高效爬虫：使用gevent构建异步网络爬虫详解
18、Python高效爬虫：使用twisted构建异步网络爬虫详解

1.10 爬虫部署

1、爬虫部署：使用docker部署爬虫详解案例
2、用Docker从零到一部署Python爬虫案例

1.11 AI 爬虫

1、AI爬虫：一文讲通AI爬虫技术和原理，及34个AI爬虫工具推荐
2、AI爬虫：Crawl4AI的安装和详细使用案例（开源 LLM 友好型网络爬虫）
3、AI爬虫：Firecrawl的安装和详细使用案例
4、AI爬虫：下一代智能爬虫框架 ScrapeGraphAI 详解
5、高效爬虫：一文掌握 Crawlee 的详细使用（web高效抓取和浏览器自动化库）

1.12 反爬虫

1、一文掌握分析网站反爬虫保护机制的Python工具 caniscrape 的使用
2、一文掌握WAF检测和指纹识别工具 WhatWAF

二、JS逆向

1、JS逆向：一文掌握网站加密和混淆以及浏览器调试的技巧
2、JS逆向：一文掌握JavaScript hook的详细使用
3、JS逆向：一文掌握无限 Debugger 的原理与绕过
4、数据采集：使用 Node.js 模拟执行 JavaScript 过程详解
5、爬虫反爬：一文掌握使用 AST 技术还原混淆的代码实战
6、爬虫反爬：WebAssembly案例分析与爬取实战
7、用python执行js代码：PyExecJS库详解
8、爬虫：一文掌握 js2py 的详细使用（Python 环境中执行 JavaScript 代码）
9、反爬：一文掌握浏览器指纹原理及实践
10、爬虫逆向：一文掌握逆向中的加密与解密（代码可直接拿来用）

三、手机端数据采集

3.1 App数据采集

1、APP爬取：基于Appium的App数据爬取实战详解
2、APP爬虫：Airtest的使用和爬取实战详解
3、APP爬虫：一文掌握手机群控的爬取实战
4、Android自动化工具Auto.js的详细使用
5、Android模拟采集：一文掌握 uiautomator2 的详细使用

3.2 逆向基本知识

1、Android手机中各类安全相关知识总结
2、爬虫逆向：详细讲述Android底层原理及机制
3、爬虫逆向：逆向中用到汇编语言详细总结
4、爬虫逆向：Hook 技术原理与实战
5、Hook 用法详解（备忘清单）
6、爬虫逆向：Unicorn 详细使用指南
7、爬虫逆向：一文掌握混淆工具Ollvm（超级详细！）
8、爬虫逆向：一文掌握GDB工具的各种使用（爬虫开发中的调试利器）
9、GDB 命令速查

3.3 Android逆向

1、ADB各种操作指令详解大汇总
2、一文掌握 adb 的各种指令（adb备忘清单）
3、Android逆向：一文掌握jadx的详细使用
4、Android逆向：一文掌握JEB 的详细使用
5、Android逆向：Xposed框架的详细使用
6、Android逆向：一文掌握 Frida 详细使用
7、Android逆向：Android脱壳技术简介与实战详解
8、爬虫逆向：脱壳工具BlackDex的详细使用
9、爬虫逆向：脱壳工具反射大师的使用详解
10、爬虫逆向：脱壳工具Youpk的使用详解
11、爬虫逆向：脱壳工具ZjDroid的使用详解
12、爬虫逆向：脱壳工具 frida-dexdump 的使用详解
13、爬虫逆向：脱壳工具 dumpDex 的详细使用
14、安卓应用层抓包通杀脚本 r0capture 详解

3.4 iOS逆向

1、iOS移动端安全相关知识汇总
2、爬虫逆向：详细讲述iOS底层原理及机制

四、爬虫实战案例和项目

4.1 爬虫案例

1、爬虫项目：使用Python爬虫从电商平台采集评论数据并进行情感分析
2、爬虫项目：使用Python爬虫获取书籍详细信息
3、基于Python的新闻采集与分析：新闻平台的全面数据采集实践
4、python爬虫案例实战：分别使用多进程、多线程和协程采集Yahoo Finance的加密货币数据
5、用python爬取链家二手房信息，并把数据存入mongodb
6、用selenium爬取csdn博客文章，并用4种方法提取数据
7、分别用selenium,requests,模拟scrapy,asyncio4种方式采集用户的文章
8、用3种方式爬取动态网站数据：华南粮网
9、基于pyppeteer的14个实战案例
10、python3分别用多进程，多线程，协程采集某瓣排名top250数据
11、python爬虫：采集求职者简历信息并进行人才分析
12、【爬虫案例】采集 Instagram 平台数据几种方式
13、python爬虫和逆向：百度翻译数据采集的几种方式
14、Python爬虫和逆向：某狗翻译详解（代码可直接运行）
15、从零到一构建一个AI回答监控爬虫系统

4.2 网页智能解析

1、python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）
2、Python爬虫：trafilatura 的详细使用（快速提取正文和评论以及结构）
3、网页解析：如何判断网页是列表页还是详情页？
4、网页解析：如何从新闻网站首页的 HTML 中解析出列表页链接
5、网页自动解析：从0到1搭建一个文章自动解析系统
6、python中智能提取文章的库：Readability库详解

五、爬虫面试

1、爬虫面试：关于爬虫破解验证码的13个经典面试题
2、爬虫：scrapy面试题大全（60个scrapy经典面试题和详解）

六、其它

1、逆向中如何判断JSVMP，及如何解决？
2、一文掌握 google浏览器插件爬虫的制作
3、爬虫：一文掌握 pycurl 的详细使用（更接近底层，性能更高）
4、Python中scapy库详细使用（强大的交互式数据包操作程序和库）
5、爬虫逆向：一篇文章掌握 Hopper 的详细使用（macOS 和 Linux 反汇编程序：对可执行文件进行静态分析）
6、GEO的工作原理，以及GEO会催生出更多的爬虫岗位吗？