11. Python 网络爬虫与信息提取

Requests 的安装

1
2
3
4
# 1. 找到 python 安装路径:
C:\Users\hp\AppData\Local\Programs\Python\Python35\Scripts`
# 2. cmd命令执行
pip install requests

Requests库的七个主要方法

get方法

requests.get(url, params=None, **kwargs)

  • url : 拟获取页面的 url 链接
  • params : url 中的额外参数,字典或字节流格式,可选
  • **kwargs: 12 个控制访问的参数

Response 对象的属性

理解 Requests 库的异常

response.raise_for_status()在方法内部判断r.status_code是否等于200,不需要
增加额外的if语句,该语句便于利用try‐except进行异常处理

Requests 库的 7 个主要方法

HTTP 协议对资源的操作

爬取网页的通用代码框架

1
2
3
4
5
6
7
8
9
10
11
12
import requests

def getHTMLText(url):
try:
# 模拟正常浏览器请求头
kv = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132'}
response = requests.get(url, timeout = 10, headers = kv)
response.raise_for_status()
response.encoding = response.apparent_encoding
return response.text
except:
return "产生HTTPError"