爬虫的快速入门基础（五）requests库入门第三章

原创

已于 2022-04-17 20:13:49 修改 · 3.7k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

于 2022-04-17 20:10:44 首次发布

本文介绍了Python爬虫实战中如何解析网页的UTF-8编码，通过F12开发者工具找到网站的charset信息。同时，讲解了不同网站可能采用的编码方式，如电影天堂使用的是gb2312。此外，还讨论了HTTP请求方法，通常使用requests.get()获取网页内容，但某些页面可能需要使用POST方法。

今天讲一个小实战让大家试试有一些新的知识如果不理解可以多看几遍自己尝试一下

实战案例(豆瓣网)：

首先我们需要打开豆瓣网

随便点击一部电影进入爬取整个网页的数据

import requests

# 复制你要爬取的电影的url
url = 'https://movie.douban.com/subject/35372415/?tag=%E7%83%AD%E9%97%A8&from=gaia'

header={
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55'
}

req = requests.get(url=url,headers=header)

# 这一步需要 将爬取的内容 进行解码
content = req.content.decode('utf-8')

# 然后打印
print(content)
# 通过这个方法 可以获取得到大部分你想要爬取的网站的 网页源码

下面附上源码

import requests

url = 'https://movie.douban.com/subject/35372415/?tag=%E7%83%AD%E9%97%A8&from=gaia'
header={
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55'
}
req = requests.get(url=url,headers=header)
content = req.content.decode('utf-8')
print(content)

（二）接下来讲一下