文章目录
本专栏为爬虫初学者和进阶开发者量身定制的爬虫和逆向学习园地。为你提供全面而深入的爬虫和逆向技术指导,从入门到精通,从基础理论到高级实战,助你在数据的海洋中畅游,挖掘出有价值的信息。通过本专栏的学习,你将具备独立开发和优化爬虫程序的能力,及逆向分析能力和项目开发能力,成为爬虫领域的佼佼者。
一、爬虫基础和进阶
1.1 前置知识
1、爬虫需要掌握的python基础:工作用到的95%的python基础代码都在这了
2、一文掌握网页基础和爬虫原理
3、HTTP 基本原理详解
4、爬虫基础:HTTP 状态码大全
1.2 爬虫基础
1、一文掌握urllib的详细使用,包括基础用法和高级功能
2、一文掌握requests的详细使用,包括基础用法和高级功能
3、爬虫:一文掌握WebSocket爬虫案例实战
4、python爬虫:pyspider的详细使用
5、爬虫去重:数据采集时如何进行去重
1.3 抓包工具的使用
1、从Chrome浏览器进行抓包详解
2、一文掌握Fiddler 的详细使用
3、一文掌握Charles抓包工具的详细使用
4、一文掌握mitmproxy抓包工具的使用和实时抓包处理案例
5、Mitmproxy 指令备忘清单
6、Wireshark经典实践和面试13点总结
7、开源免费抓包工具:ProxyPin 的详细使用
1.4 数据解析提取
1、爬虫解析库:一个小时掌握 XPath 的详细使用方法(超级详细!)
2、爬虫解析库:parsel的详细使用
3、爬虫解析库:pyquery的详细使用
4、爬虫解析库:BeautifulSoup的详细使用
5、一文掌握python中正则表达式的各种使用
6、Python爬虫:一文掌握PyQuery模块
7、数据解析:一文掌握Python库 lxml 的详细使用(处理XML和HTML的高性能库)
8、Python 中 dpkt 库的详细使用指南(强大的 Python 数据包解析库)
9、python爬虫:解析url链接的几种方式
10、爬虫解析:python如何判断requests库请求返回的是json还是html还是其他?
1.5 数据存储
1、数据存储:将数据存到本地磁盘,有哪些好用的方式?
2、数据存储:一文掌握存储数据到mysql的详细使用
3、数据存储:一文掌握存储数据到MongoDB详解
4、数据存储:使用Python存储数据到redis详解
5、数据存储:一文掌握存储数据到ElasticSearch详解
6、消息队列:一文掌握RabbitMQ的详细使用
7、数据存储:MySQL如何能存储一亿条链接信息?
8、数据去重:结合redis设计布隆过滤器的3种方式(附完整python封装代码)
1.6 代理搭建和使用
1、爬虫代理:一文掌握代理的设置和代理池的维护(超级详细)
2、爬虫代理:一文掌握ADSL拨号代理的搭建方法,及详细使用
1.7 模拟操作和动态页面处理
1、Ajax动态加载 和 网页动态渲染 之间的区别及应用场景
2、Ajax数据采集与分析详解
3、一文掌握Selenium的详细使用
4、一文掌握Pyppeteer的详细使用
5、一文掌握 Playwright 的详细使用
6、一文掌握Splash的详细使用
7、一文掌握PhantomJS的详细使用和实战案例
8、一文掌握DrissionPage的详细使用
9、爬虫反爬:CSS位置偏移反爬案例分析与实战案例
10、爬虫反爬:字体反爬案例分析与爬取实战
11、python爬虫:自动化工具CEF Python的详细使用
12、Python 爬虫:一文掌握 SVG 映射反爬虫
13、爬虫:Requests-HTML的详细使用
14、一文掌握模拟登录的基本原理和实战
15、一文5分钟掌握基于JWT的模拟登录爬取实战
16、爬虫:一文掌握 Pydoll 的详细使用
17、爬虫:一文掌握 curl-cffi 的详细使用(支持 TLS/JA3 指纹仿真的 cURL 库)
18、爬虫:一文掌握 crawlergo 的详细使用(用于网络漏洞扫描程序的强大浏览器爬虫)
19、爬虫反爬:一文掌握 BotBrowser 的原理和使用(能绕过很多验证码的指纹浏览器)
20、python爬虫:Requestium 的详细使用
21、python爬虫:RoboBrowser 的详细使用
22、一文掌握 undetected-chromedriver 的详细使用(可通过机器人验证)
23、爬虫自动化:一文掌握 PyAutoGUI 的详细使用
24、反爬虫:基于 Chromium 的“魔改”指纹浏览器 YSbrowser 详解(适用于绕过网站检测的场景)
1.8 验证码破解
1、验证码识别:使用OCR技术识别图形验证码详解
2、一文掌握使用OpenCV识别滑动验证码的缺口(超级详细)
3、一文掌握使用深度学习识别验证码详解(包括图形验证码和滑块验证码)
4、验证码识别:一文掌握手机验证码的自动化处理
5、使用 Tesseract 进行 OCR 识别的详细指南
6、Python库CloudScraper详细使用(绕过 Cloudflare 的反机器人页面的 Python 模块)
7、爬虫验证码处理:ddddocr 的详细使用(通用验证码识别OCR pypi版)
1.9 高效率爬虫
1、一文掌握python中httpx库的详细使用及案例
2、python高效爬虫:asyncio + aiohttp 的详细使用和异步爬虫实战
3、账号池:一文掌握爬虫中大规模账号池的搭建
4、一文掌握 Scrapy 框架的详细使用,包括实战案例
5、爬虫:Scrapy-Redis 分布式爬虫实战案例
6、爬虫:一文掌握 Celery 分布式爬虫,及对应实战案例
7、python爬虫:python中使用多进程、多线程和协程对比和采集实践
8、Python爬虫:基于Bloom Filter进行大规模去重详解
9、用python如何高并发写入数据到mysql?
10、Python爬虫:Asyncpy 的详细使用和案例
11、Python爬虫:Feapder 的详细使用和案例
12、高效爬虫:一文掌握 FunBoost 的各种使用(万能分布式函数调度框架)
13、python爬虫:grequests的详细使用
14、python爬虫:Ruia的详细使用(一个基于asyncio和aiohttp的异步爬虫框架)
15、Python爬虫:AutoScraper 库详细使用大全(智能、自动且轻量级)
16、python高效爬虫:使用Tornado构建异步网络爬虫详解
17、Python高效爬虫:使用gevent构建异步网络爬虫详解
18、Python高效爬虫:使用twisted构建异步网络爬虫详解
1.10 爬虫部署
1.11 AI 爬虫
1、AI爬虫:一文讲通AI爬虫技术和原理,及34个AI爬虫工具推荐
2、AI爬虫 :Crawl4AI的安装和详细使用案例(开源 LLM 友好型网络爬虫)
3、AI爬虫 :Firecrawl的安装和详细使用案例
4、AI爬虫 :下一代智能爬虫框架 ScrapeGraphAI 详解
5、高效爬虫:一文掌握 Crawlee 的详细使用(web高效抓取和浏览器自动化库)
1.12 反爬虫
1、一文掌握分析网站反爬虫保护机制的Python工具 caniscrape 的使用
2、一文掌握WAF检测和指纹识别工具 WhatWAF
二、JS逆向
1、JS逆向:一文掌握网站加密和混淆以及浏览器调试的技巧
2、JS逆向:一文掌握JavaScript hook的详细使用
3、JS逆向:一文掌握无限 Debugger 的原理与绕过
4、数据采集:使用 Node.js 模拟执行 JavaScript 过程详解
5、爬虫反爬:一文掌握使用 AST 技术还原混淆的代码实战
6、爬虫反爬:WebAssembly案例分析与爬取实战
7、用python执行js代码:PyExecJS库详解
8、爬虫:一文掌握 js2py 的详细使用(Python 环境中执行 JavaScript 代码)
9、反爬:一文掌握浏览器指纹原理及实践
10、爬虫逆向:一文掌握逆向中的加密与解密(代码可直接拿来用)
三、手机端数据采集
3.1 App数据采集
1、APP爬取:基于Appium的App数据爬取实战详解
2、APP爬虫:Airtest的使用和爬取实战详解
3、APP爬虫:一文掌握手机群控的爬取实战
4、Android自动化工具Auto.js的详细使用
5、Android模拟采集:一文掌握 uiautomator2 的详细使用
3.2 逆向基本知识
1、Android手机中各类安全相关知识总结
2、爬虫逆向:详细讲述Android底层原理及机制
3、爬虫逆向:逆向中用到汇编语言详细总结
4、爬虫逆向:Hook 技术原理与实战
5、Hook 用法详解(备忘清单)
6、爬虫逆向:Unicorn 详细使用指南
7、爬虫逆向:一文掌握混淆工具Ollvm(超级详细!)
8、爬虫逆向:一文掌握GDB工具的各种使用(爬虫开发中的调试利器)
9、GDB 命令速查
3.3 Android逆向
1、ADB各种操作指令详解大汇总
2、一文掌握 adb 的各种指令(adb备忘清单)
3、Android逆向:一文掌握jadx的详细使用
4、Android逆向:一文掌握JEB 的详细使用
5、Android逆向:Xposed框架的详细使用
6、Android逆向:一文掌握 Frida 详细使用
7、Android逆向:Android脱壳技术简介与实战详解
8、爬虫逆向:脱壳工具BlackDex的详细使用
9、爬虫逆向:脱壳工具反射大师的使用详解
10、爬虫逆向:脱壳工具Youpk的使用详解
11、爬虫逆向:脱壳工具ZjDroid的使用详解
12、爬虫逆向:脱壳工具 frida-dexdump 的使用详解
13、爬虫逆向:脱壳工具 dumpDex 的详细使用
14、安卓应用层抓包通杀脚本 r0capture 详解
3.4 iOS逆向
四、爬虫实战案例和项目
4.1 爬虫案例
1、爬虫项目:使用Python爬虫从电商平台采集评论数据并进行情感分析
2、爬虫项目:使用Python爬虫获取书籍详细信息
3、基于Python的新闻采集与分析:新闻平台的全面数据采集实践
4、python爬虫案例实战:分别使用多进程、多线程和协程采集Yahoo Finance的加密货币数据
5、用python爬取链家二手房信息,并把数据存入mongodb
6、用selenium爬取csdn博客文章,并用4种方法提取数据
7、分别用selenium,requests,模拟scrapy,asyncio4种方式采集用户的文章
8、用3种方式爬取动态网站数据:华南粮网
9、基于pyppeteer的14个实战案例
10、python3分别用多进程,多线程,协程采集 某瓣排名top250数据
11、python爬虫:采集求职者简历信息并进行人才分析
12、【爬虫案例】采集 Instagram 平台数据几种方式
13、python爬虫和逆向:百度翻译数据采集的几种方式
14、Python爬虫和逆向:某狗翻译详解(代码可直接运行)
15、从零到一构建一个AI回答监控爬虫系统
4.2 网页智能解析
1、python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)
2、Python爬虫:trafilatura 的详细使用(快速提取正文和评论以及结构)
3、网页解析:如何判断网页是列表页还是详情页?
4、网页解析:如何从新闻网站首页的 HTML 中解析出列表页链接
5、网页自动解析:从0到1搭建一个文章自动解析系统
6、python中智能提取文章的库:Readability库详解
五、爬虫面试
1、爬虫面试:关于爬虫破解验证码的13个经典面试题
2、爬虫:scrapy面试题大全(60个scrapy经典面试题和详解)
六、其它
1、逆向中如何判断JSVMP,及如何解决?
2、一文掌握 google浏览器插件爬虫 的制作
3、爬虫: 一文掌握 pycurl 的详细使用(更接近底层,性能更高)
4、Python中scapy库详细使用(强大的交互式数据包操作程序和库)
5、爬虫逆向:一篇文章掌握 Hopper 的详细使用(macOS 和 Linux 反汇编程序:对可执行文件进行静态分析)
6、GEO的工作原理,以及GEO会催生出更多的爬虫岗位吗?
最后:❤️ ❤️ ❤️ 感谢大家支持❤️ ❤️ ❤️ 。本专栏不止一次进入热销专栏榜,截图如下。有任何问题欢迎随时和博主沟通交流。
截图1:

截图2:

截图3:

截图4:

截图5:

截图6:

截图7:

截图8:

截图9:

截图10:

截图11:

1万+

被折叠的 条评论
为什么被折叠?



