11. Python 网络爬虫与信息提取

发表于 2018-03-18 更新于 2022-11-05 分类于语言， Python

Requests 的安装

# 1. 找到 python 安装路径:
C:\Users\hp\AppData\Local\Programs\Python\Python35\Scripts`
# 2. cmd命令执行
pip install requests

Requests库的七个主要方法

get方法

requests.get(url, params=None, **kwargs)

url : 拟获取页面的 url 链接
params : url 中的额外参数，字典或字节流格式，可选
**kwargs: 12 个控制访问的参数

Response 对象的属性

理解 Requests 库的异常

response.raise_for_status()在方法内部判断r.status_code是否等于200，不需要
增加额外的if语句，该语句便于利用try‐except进行异常处理

Requests 库的 7 个主要方法

HTTP 协议对资源的操作

爬取网页的通用代码框架

import requests

def getHTMLText(url):
    try:
        # 模拟正常浏览器请求头
        kv = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132'}
        response = requests.get(url, timeout = 10, headers = kv)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        return response.text
    except:
        return "产生HTTPError"