Python爬虫之Urllib库

by LauCyun Aug 03,2016 15:56:49 6,490 views

在Python2版本中,有urlliburlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib

Python3 urllib库官方链接:

https://docs.python.org/3/library/urllib.html

urllib中包括了四个模块,包括urllib.requesturllib.errorurllib.parseurllib.robotparser

  • urllib.request可以用来发送request和获取request的结果
  • urllib.error包含了urllib.request产生的异常
  • urllib.parse用来解析和处理URL
  • urllib.robotparse用来解析页面的robots.txt文件

可见其中模拟请求使用的最主要的库便是urllib.request,异常处理用urllib.error库。

下面会对它们一一进行详细的介绍。

 

1 使用urllib.request发送请求

urllib.request模块提供了最基本的构造HTTP请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理authenticaton(授权验证)redirections(重定向)cookies(浏览器Cookies)以及其它内容。

好,那么先举个栗子来感受一下它的强大之处:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

response = urllib.request.urlopen('https://www.liuker.org')
print(response.read().decode('utf-8'))

运行结果:

<!DOCTYPE html>
<html lang="en" class="app">
<head>
    <meta charset="UTF-8">
    <link href="/favicon.ico" mce_href="/favicon.ico" rel="icon" type="image/x-icon"/>
    <title>LauCyun&#39;s Blog</title>
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <!-- SEO -->
    <meta name="description" content="LauCyun的博客,分享学习的心得,享受编程和技术所带来的快乐。LauCyun&#39;s blog, sharing learning experiences, and enjoying the joy of programming and technology, coding your ambition."/>
    <meta name="keywords" content="LauCyun,laucyun,Liuker,liuker,程序员,工程师,攻城狮,Coding,算法,Algorithm,Database,MySQL,Language,C,C++,Python,SQL,OS,Linux,Unix,Ubuntu,CentOS,Windows,网络,NetWork,Network security,工业控制系统信息安全,工控安全,Industrial control system security,ICS,Modbus,OPC,S7,人工智能,Artificial Intelligence,AI,机器学习,Machine learning,深度学习,Deep Learning,神经网络,neural network"/>
    <link rel='next' href='https://liuker.org?page=2'/>

    <link rel="canonical" href="https://liuker.org"/>
    <meta property="og:title" content="LauCyun&#39;s Blog"/>
    <meta property="og:url" content="https://liuker.org"/>
    <meta property="og:image" content="https://liuker.org/static/upload/avatar/default.svg"/>
    <meta property="og:site_name" content="LauCyun&#39;s Blog"/>
    <meta property="og:description" content="LauCyun的博客,分享学习的心得,享受编程和技术所带来的快乐。LauCyun&#39;s blog, sharing learning experiences, and enjoying the joy of programming and technology, coding your ambition."/>
    <meta name="twitter:card" content="LauCyun&#39;s Blog"/>
    <meta name="twitter:title" content="LauCyun&#39;s Blog"/>
    <meta name="twitter:description" content="LauCyun的博客,分享学习的心得,享受编程和技术所带来的快乐。LauCyun&#39;s blog, sharing learning experiences, and enjoying the joy of programming and technology, coding your ambition."/>
    <meta name="twitter:image" content="https://liuker.org/static/upload/avatar/default.svg"/>
    <!-- / SEO -->

    ...

</head>
<body>
<!-- header -->

    ....

</body>
</html>

是的你没看错,真正的代码就只有两行,就把https://liuker.org页面爬取下来了,得到了源代码之后呢?你想要的链接、图片地址、文本信息不就都可以提取出来了吗?

接下来我们看下它返回的到底是什么,利用type()函数输出response的类型。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

response = urllib.request.urlopen('https://www.liuker.org')
print(type(response))

输出结果如下:

<class 'http.client.HTTPResponse'>

对的,它是一个HTTPResposne类型的对象,它主要包含的方法有read()readinto()getheader(name)getheaders()fileno()等函数和msgversionstatusreasondebuglevelclosed等属性。 得到这个对象之后,我们把它赋值为response变量,然后就可以用response调用这些方法和属性,得到返回结果的一系列信息了。

response.read()就可以得到返回的网页内容,response.status就可以得到返回结果的状态码,如200代表请求成功,404代表网页未找到等。

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

response = urllib.request.urlopen('https://www.liuker.org')
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

运行结果如下:

200
[('Server', 'nginx/1.10.3'), ('Date', 'Mon, 07 Aug 2017 07:07:28 GMT'), ('Content-Type', 'text/html; charset=utf-8'), ('Content-Length', '102475'), ('Connection', 'close'), ('Vary', 'Accept-Encoding'), ('Set-Cookie', 'liuker=eyJjc3JmX3Rva2VuIjp7IiBiIjoiT1dGaE1XRXpaV1psWldJNE1tWTJNamt5TVRRMk56RTFOR1EwTjJKbE5EQXpOV0V4TW1aaE5nPT0ifX0.DGmjMA.yREcJVmaCVe_YeutaR9aFuCUuz8; HttpOnly; Path=/')]
nginx/1.10.3

可见,三个输出分别输出了响应的状态码,响应的头信息,以及通过传递一个参数Server获取了headers中的Server值,结果是nginx/1.10.3,意思就是服务器是nginx搭建的。

1.1 urllib.request.urlopen()

利用以上最基本的urlopen()方法,我们可以完成最基本的简单网页的GET请求抓取。

如果我们想给链接传递一些参数该怎么实现呢?我们首先看一下urlopen()函数的API。

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

可以发现除了第一个参数可以传递URL之外,我们还可以传递其它的内容,比如data(附加数据)、timeout(超时时间)等等。

下面我们详细说明下这几个参数的用法。

1.1.1 data参数

data参数是可选的,如果要添加data,它要是字节流编码格式的内容,即bytes类型,通过bytes()函数可以进行转化,另外如果你传递了这个data参数,它的请求方式就不再是GET方式请求,而是POST

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

values = {
    'csrf_token': 'ImJkY2QzMjU4OTJmN2NmNjg5MzZhYTg5NmIwZGM3MGI0ZjA1ZTk2OTMi.DGqo3A.OXxfgl6MtUoE-6wJ63Cn8y71thw',
    'username': 'admin',
    'password': '123456',
    'code': ''
}
data = bytes(urllib.parse.urlencode(values), encoding="utf8")
url = "https://liuker.org/login"
response = urllib.request.urlopen(url, data=data)
print(response.read())

在这里我们模拟登陆https://liuker.org/login,当然上述代码可能登陆不进去,因为https://liuker.org/login还有个流水号的字段,没有设置全,比较复杂在这里就不写上去了,在此只是说明登录的原理。一般的登录网站一般是这种写法。

我们需要定义一个字典,名字为values,参数我设置了username和password。它需要被转码成bytes(字节流)类型。其中转字节流采用了bytes()方法,第一个参数需要是str(字符串)类型,需要用urllib.parse.urlencode()方法来将参数字典转化为字符串。第二个参数指定编码格式,在这里指定为utf8

1.1.2 timeout参数

timeout参数可以设置超时时间,单位为秒,意思就是如果请求超出了设置的这个时间还没有得到响应,就会抛出异常,如果不指定,就会使用全局默认时间。它支持HTTP、HTTPS、FTP请求。

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

response = urllib.request.urlopen('https://liuker.org', timeout=0.01)
print(response.read())

运行结果如下:

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "F:/Repository/Python/spider/simple/urllib/demo.py", line 38, in <module>
    response = urllib.request.urlopen('https://liuker.org', timeout=0.01)
  File "D:\Python\Python35\lib\urllib\request.py", line 163, in urlopen
    return opener.open(url, data, timeout)
  File "D:\Python\Python35\lib\urllib\request.py", line 466, in open
    response = self._open(req, data)
  File "D:\Python\Python35\lib\urllib\request.py", line 484, in _open
    '_open', req)
  File "D:\Python\Python35\lib\urllib\request.py", line 444, in _call_chain
    result = func(*args)
  File "D:\Python\Python35\lib\urllib\request.py", line 1297, in https_open
    context=self._context, check_hostname=self._check_hostname)
  File "D:\Python\Python35\lib\urllib\request.py", line 1256, in do_open
    raise URLError(err)
urllib.error.URLError: <urlopen error timed out>

在这里我们设置了超时时间是0.01秒,程序0.01秒过后服务器依然没有响应,于是抛出了urllib.error.URLError异常,错误原因是超时。

因此我们可以通过设置这个超时时间来控制一个网页如果长时间未响应就跳过它的抓取,利用try,except语句就可以实现这样的操作。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import socket
import urllib.request
import urllib.error

try:
    response = urllib.request.urlopen('https://liuker.org', timeout=0.05)
    print(response.read())
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT')

在这里我们请求了https://liuker.org这个测试链接,设置了超时时间是0.05秒,然后捕获了urllib.error.URLError这个异常,然后判断异常原因是socket.timeout类型,意思就是超时异常,就得出它确实是因为超时而报错,打印输出了TIME OUT

这样,我们可以通过设置timeout这个参数来实现超时处理,有时还是很有用的。

1.1.3 其他参数

还有context参数,它必须是ssl.SSLContext类型,用来指定SSL设置。

cafilecapath两个参数是指定CA证书和它的路径,这个在请求HTTPS链接时会有用。

cadefault参数现在已经弃用了,默认为False

以上讲解了urlopen()方法的用法,通过这个最基本的函数可以完成简单的请求和网页抓取,如需更加详细了解,可以参见官方文档。

https://docs.python.org/3/library/urllib.request.html

1.2 urllib.request.Request的使用

由上我们知道利用urlopen()方法可以实现最基本请求的发起,但这几个简单的参数并不足以构建一个完整的请求,如果请求中需要加入headers(请求头)等信息,我们就可以利用更强大的Request类来构建一个请求。

首先举个栗子了解Request的用法:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

request = urllib.request.Request('https://liuker.org')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

可以发现,我们依然是用urlopen()方法来发送这个请求,只不过这次urlopen()方法的参数不再是一个URL,而是一个Request类型的对象,通过构造这个这个数据结构,一方面我们可以将请求独立成一个对象,另一方面可配置参数更加丰富和灵活。

下面我们看一下Request都可以通过怎样的参数来构造,它的构造方法如下。

class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
  • url:是请求链接,这个是必传参数,其他的都是可选参数。
  • data:必须传bytes(字节流)类型的,如果是一个字典,可以先用urllib.parse.urlencode()转码。
  • headers:是一个字典,这个就是浏览器请求头了,你可以在构造Request时通过headers参数直接构造,也可以通过调用Request实例的add_header()方法来添加请求头。
    请求头最常用的用法就是通过修改User-Agent来伪装浏览器,默认的User-AgentPython-urllib,你可以通过修改它来伪装浏览器,比如要伪装火狐浏览器,你可以把它设置为Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36
  • origin_req_host:指的是请求方的host名称或者IP地址。
  • unverifiable:指的是这个请求是否是无法验证的,默认是False。意思就是说用户没有足够权限来选择接收这个请求的结果。
    例:如果请求一个HTML文档中的图片,但是没有自动抓取图像的权限,这时unverifiable的值就是True
  • method:是一个字符串,它用来指示请求使用的方法,比如GET,POST,PUT等等。

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from urllib import request, parse

url = 'https://liuker.org/login'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36',
    'Cookie': 'liuker=.eJw9UE2LwjAU_CtLzi7UqBfBg1KVFt4rStrwcilurLZJsy610jbif9_iwcNchmG-niy_NMW9ZMu2eRQTlldntnyyrx-2ZGofG3ARV2E6Q441ml2dyIiD35Ugth3yw4zcsVL71IM71sAPA5isAr8xEMYOvZ3CPnPkN5YMeBKZS2S6QF_XSmCZhOtOhTZQQi9GDImIDfJoALf1yJUhs-Yj36OwAcmRF-kcRFyCgQ5lOidPPbgxW25X7DVh-t5c8vZmi9_PBPKHPgmhRx8bkuiUpI581BPfjTX1AD6zOE4hcTYYXgPlKMDr6m1XVw9bNN_69Nfq8vSx1G7aand7Sx73onk_xqbs9Q9r_G5A.DGn4yA.Xjf08hSZBqa36i3z6BFB5-_HlJg',
    'Host': 'liuker.org'
}
values = {
    'csrf_token': 'ImM0MTgzMTcyY2FjZmVmMGMyMWNhYjM3MjM1ZDUxMGE3YzQ4NGZmNDYi.DGn5VA.vZGVEM3paHN8WoSHm6e2zArpKDg',
    'username': 'admin',
    'password': '123456',
    'code': ''
}
data = bytes(parse.urlencode(values), encoding='utf8')
req = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

在这里我们通过四个参数构造了一个Request,在headers中指定了User-AgentCookieHost,传递的参数data用了urlencode()bytes()方法来转成字节流,另外指定了请求方式为POST

运行结果如下:

<!DOCTYPE html>
<html lang="en" class="app">
    ...
    <script type="text/javascript">
        $(document).ready(function () {
            var statue = parseInt("0");
            if (!statue) {
                $("input[name='username']").val("admin");
                $("input[name='password']").val("123456");
                setInputStatus($("input[name='username']"), false, "The username or phone number that you've entered is incorrect.");
                ...
            }
            ...
        });
    </script>
</body>
</html>

结果出现错误信息为“The username or phone number that you've entered is incorrect.”,说明请求成功。

另外headers也可以用add_header()方法来添加。

req = request.Request(url=url, data=data, method='POST')
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36')

如此一来,我们就可以更加方便地构造一个Request,实现请求的发送啦。

1.3 urllib.request高级特性

大家有没有发现,在上面的过程中,我们虽然可以构造Request,但是一些更高级的操作,比如Cookies处理,代理设置等操作我们该怎么办?

接下来就需要更强大的工具Handler登场了。

简而言之你可以把它理解为各种处理器,有专门处理登录验证的,有处理Cookies的,有处理代理设置的,利用它们我们几乎可以做到任何HTTP请求中所有的事情。

首先介绍下urllib.request.BaseHandler,它是所有其他Handler的父类,它提供了最基本的Handler的方法,例如default_open()protocol_request()等。

接下来就有各种Handler子类继承这个BaseHandler,举例几个如下:

  • HTTPDefaultErrorHandler用于处理HTTP响应错误,错误都会抛出HTTPError类型的异常。
  • HTTPRedirectHandler用于处理重定向。
  • HTTPCookieProcessor用于处理Cookie
  • ProxyHandler用于设置代理,默认代理为空。
  • HTTPPasswordMgr用于管理密码,它维护了用户名密码的表。
  • HTTPBasicAuthHandler用于管理认证,如果一个链接打开时需要认证,那么可以用它来解决认证问题。
  • 另外还有其他的Handler,在这不一一列举了,详情可以参考官方文档。

https://docs.python.org/3/library/urllib.request.html#urllib.request.BaseHandler

它们怎么来使用,不用着急,下面会有栗子讲解。

另外一个比较重要的类就是OpenerDirector,我们可以称之为Opener,我们之前用过urlopen()这个方法,实际上它就是urllib为我们提供的一个Opener

那么为什么要引入Opener呢?因为我们需要实现更高级的功能,之前我们使用的Requesturlopen()相当于类库为你封装好了极其常用的请求方法,利用它们两个我们就可以完成基本的请求,但是现在不一样了,我们需要实现更高级的功能,所以我们需要深入一层进行配置,使用更底层的实例来完成我们的操作。

所以,在这里我们就用到了比调用urlopen()的对象的更普遍的对象,也就是Opener

Opener可以使用open()方法,返回的类型和urlopen()如出一辙。那么它和Handler有什么关系?简而言之,就是利用Handler来构建Opener

1.3.1 认证

有些网站在打开时它就弹出了一个框,直接提示你输入用户名和密码,认证成功之后才能查看页面能利用。那么我们如果要请求这样的页面怎么办呢?

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
from urllib.error import URLError
import ssl

# 全局取消证书验证
ssl._create_default_https_context = ssl._create_unverified_context

username = 'xxxxxx'
password = '******'
url = 'https://svn.liuker.org/repository/'

p = HTTPPasswordMgrWithDefaultRealm() # 实例化HTTPPasswordMgrWithDefaultRealm对象
p.add_password(None, url, username, password) # 用add_password()添加用户名和密码
auth_handler = HTTPBasicAuthHandler(p)  # 实例化HTTPBasicAuthHandler对象
opener = build_opener(auth_handler)     # 用build_opener()构建一个Opener

try:
    result = opener.open(url)
    html = result.read().decode('utf-8')
    print(html)
except URLError as e:
    print(e.reason)

在这里,首先实例化了一个HTTPBasicAuthHandler对象,参数是HTTPPasswordMgrWithDefaultRealm对象,它利用add_password()添加进去用户名和密码,这样我们就建立了一个处理认证的Handler

接下来利用build_opener()方法来利用这个Handler构建一个Opener,那么这个Opener在发送请求的时候就相当于已经认证成功了。

接下来利用Openeropen()方法打开链接,就可以完成认证了。在这里获取到的结果就是认证后的页面源码内容。

1.3.2 代理

在做爬虫的时候免不了要使用代理,如果要添加代理,可以这样做:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener

# 本地代理服务器,端口为1080
proxy_handler = ProxyHandler({
    'http': 'http://127.0.0.1:1080',
    'https': 'https://127.0.0.1:1080'
})
opener = build_opener(proxy_handler)
try:
    response = opener.open('https://www.google.com')
    print(response.read().decode(encoding='UTF-8'))
except URLError as e:
    print(e.reason)

在这里使用了ProxyHandlerProxyHandler的参数是一个字典,key是协议类型,value是代理链接。

然后利用build_opener()方法利用这个Handler构造一个Opener,然后发送请求即可。

1.3.3 Cookies设置

Cookies的处理就需要Cookies相关的Handler了。

我们先用一个栗子来了解怎样将网站的Cookies获取下来。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import http.cookiejar, urllib.request

cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('https://www.liuker.org')
for item in cookie:
    print(item.name + "=" + item.value)

首先我们必须声明一个CookieJar对象,接下来我们就需要利用HTTPCookieProcessor来构建一个handler,最后利用build_opener()方法构建出opener,执行open()函数即可。

运行结果如下:

liuker=eyJjc3JmX3Rva2VuIjp7IiBiIjoiWXpsaVptVmxZell6TVdFMFpEazNOV1JqTTJJellUTmhOR1E1TTJNNU56UmhPV0UyWm1SbVpnPT0ifX0.DGrWAw.FHSrQJ5Y66wvzeuqnTWAI_7kSOE

可以看到输出了每一条Cookie的名称还有值。

不过既然能输出,那可不可以输出成文件格式呢?我们知道Cookies实际也是以文本形式保存的。

答案当然是肯定的,举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import http.cookiejar, urllib.request

filename = 'cookie.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('https://www.liuker.org')
cookie.save(ignore_discard=True, ignore_expires=True)

这时的CookieJar就需要换成MozillaCookieJar,生成文件时需要用到它,它是CookieJar的子类,可以用来处理Cookies和文件相关的事件,读取和保存Cookies,它可以将Cookies保存成Mozilla型浏览器的Cookies的格式。

运行之后可以发现生成了一个cookie.txt文件。

内容如下:

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

www.liuker.org	FALSE	/	FALSE		liuker	eyJjc3JmX3Rva2VuIjp7IiBiIjoiTVdSa00yVXlNamd3TURSa1lUVXlNMlEyWkRJeE1qbGxZVGt6WXpjeE9EVTNaamRpWTJJelpnPT0ifX0.DGrWjg.uj_7t7qlmPIunhuS9LVB1FEVHrM

另外还有一个LWPCookieJar,同样可以读取和保存Cookies,但是保存的格式和MozillaCookieJar的不一样,它会保存成与libwww-perl(LWP)Cookies文件格式。

要保存成LWP格式的Cookies文件,可以在声明时就改为

cookie = http.cookiejar.LWPCookieJar(filename)

生成的内容如下:

#LWP-Cookies-2.0
Set-Cookie3: liuker="eyJjc3JmX3Rva2VuIjp7IiBiIjoiT0RNd01EQm1NVEEwWldVM05HVXhPVEJqTW1Zek1EYzROekkxWldFd056ZzNaVE0yWmpReU1BPT0ifX0.DGrXDQ.KlGe_RCQ2bozobA9_vnWeFhSYb4"; path="/"; domain="www.liuker.org"; path_spec; discard; HttpOnly=None; version=0

由此看来生成的格式还是有比较大的差异的。

那么生成了Cookies文件,怎样从文件读取并利用呢?

下面我们以LWPCookieJar格式为栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import http.cookiejar, urllib.request

cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('https://www.liuker.org')
print(response.read().decode('utf-8'))

可以看到我们这里调用了load()方法来读取本地的Coookis文件,获取到了Cookies的内容。不过前提是我们首先利用生成了LWPCookieJar格式的Cookie,获取到Cookies之后,后面同样的方法构建HandlerOpener即可。

好,通过如上用法,我们可以实现绝大多数请求功能的设置了。如果有更多想实现的功能,可以参考官方文档的说明:

https://docs.python.org/3/library/urllib.request.html#basehandler-objects

Tags