about 3 results (0.02 seconds)

怎样借助Python爬虫给宝宝起个好名字

by LauCyun Jun 19,2017 19:39:24 30,919 views

每个人一生中都会遇到一件事情,在事情出现之前不会关心,但是事情一旦来临就发现它极其重要,并且需要在很短的时间内做出重大决定,那就是给自己的新生宝宝起个名字。

因为必须在孩子出生一个月内起个名字办理《出生医学证明》,估计很多人都像我一样,刚开始是很慌乱。虽然感觉汉字非常的多随便找个字做名字都行,后来才发现真不是随便的事情,怎么想都发现不合适,于是到处翻词典、网上搜、翻唐诗宋词、诗经、甚至武侠小说,然而想了很久得到的名字,往往却受到家属的意见和反对,比如不顺口、和亲戚重名重音等问题。

于是我们再次回到网上各种搜索,找到很多“男宝宝好听的名字大全”之类的文章,然而这些文章一下子给出几百上千个名字,看的眼花缭乱没法使用。

也有不少的测名字的网站或者APP,输入名字能给出八字或者五格的评分,这样的功能感觉还挺好的能给个参考,然而要么我们需要一个个名字的输入进行测试、要么这些网站或者APP自身的名字很少、要么不能满足我们的需求比如限定字、要么就开始收费,到最后也找不到一个好用的。

于是我想写这么一个程序:

  • 主要的功能是给出批量名字提供参考,这些名字是结合宝宝的生辰八字算出来的;
  • 自己可以扩充名字库,比如网上发现了一批诗经里的好名字,想看看怎么样,添加进去就能用;
  • 可以限定名字的使用字,比如有的家族谱有限定,当前是“嘉”字辈,名字中必须有“嘉”字;
  • 名字列表给出评分,这样倒排后就可以从高分往低分来看名字。

通过这种方式可以得到一份符合自己孩子生辰八字、自己的家谱限制、以及自己喜好的名字列表,并且该列表已经给出了分数用于参考,以此为基准我们可以挨个琢磨找出心仪的名字。当然如果有新的想法,随时可以把新的名字添加到词库里面,进行重新计算。

 

1 程序概述

程序代码结构如下:

F:.
└─baby-name  # 代码根目录
    │  README.md  # README
    │
    └─main   # 代码目录
        │  generate.py  # 主程序及程序入口
        │  __init__.py
        │
        ├─config  # 配置文件目录
        │      sys_config.py   # 程序的系统配置,包含爬取得目标URL、词典文件路径
        │      user_config.py  # 程序的用户配置,包括宝宝的年月日时分性别等设定
        │      __init__.py
        │
        ├─dicts   # 词典文件目录
        │      boys_double.txt   # 词典文件,男孩的多字名字
        │      boys_single.txt   # 词典文件,男孩的单字名字
        │      girls_double.txt  # 词典文件,女孩的多字名字
        │      girls_single.txt  # 词典文件,女孩的单字名字
        │
        ├─outputs # 输出数据目录
        │      example.txt         # 输出的示例文件,内容没有排序
        │      example.txt.sorted  # 输出的示例文件,内容排好了序
        │
        └─scripts # 词典文件预处理脚本
                filter.py
                test.py
                unique_file_lines.py  # 设定词典文件,对词典中的名字去重和去空白行
                __init__.py

使用方法:

  • 如果没有限定字,程序就会使用*_double.txt的词典文件;如果有限定字,程序就会使用*_single.txt的词典文件。您也可以在相应的字典文件里添加词,按行分割添加在最后即可。
  • 打开user_config.py配置文件,配置宝宝的信息。
  • 运行脚本generate.py
  • 运行完成后,在outputs目录中查看结果。

 

2 如何配置

程序的配置如下:

#!/usr/bin/env python
# -*- coding: GB18030 -*-

import os

ROOT_PATH = os.path.join(os.path.dirname(__file__), os.pardir)

setting = {}

# 限定字,如果配置了该值,则会取用单字字典,否则取用多字字典
setting["limit_world"] = "嘉"
# 姓
setting["name_prefix"] = "刘"
# 性别,取值为 男 或者 女
setting["sex"] = "男"
# 省份
setting["area_province"] = "北京"
# 城市
setting["area_region"] = "海淀"
# 出生的公历年份
setting['year'] = "2017"
# 出生的公历月份
setting['month'] = "6"
# 出生的公历日子
setting['day'] = "18"
# 出生的公历小时
setting['hour'] = "18"
# 出生的公历分钟
setting['minute'] = "18"
# 结果产出文件名称
setting['output_fname'] = "example.txt"
setting['output_fpath'] = os.path.abspath(os.path.join(ROOT_PATH, "outputs", setting['output_fname']))

程序根据配置项setting["limit_world"]自动来决定选用单字词典还是多字词典:

  • 如果设置了该项,则程序会组合所有的单字为名字用于计算。比如:设置为“嘉”字,那么嘉滨、嘉濠两个名字都会计算;
  • 如果不设置该项(空字符串),则程序只会读取*_double.txt的双字词典

 

3 程序原理

这是一个简单的爬虫。大家可以打开 http://life.httpcn.com/xingming.asp 网站查看,这是一个POST表单,填写需要的参数,然后点击提交,就会打开一个结果页面,结果页面的最下方包含了八字评分和五格评分等信息。

如果想得到分数,就需要做两件事情:

  • 利用爬虫自动提交表单,获取结果页面;
  • 从结果页面提取分数;

对于第一件事情,很easy,用urllib2即可实现:

# baby-name/main/generate.py, line 94-96

post_data = urllib.urlencode(params)
req = urllib2.urlopen(sys_config.REQUEST_URL, post_data)
content = req.read()

这里的params是个dictionary类型的参数。

params的参数设定如下:

# baby-name/main/generate.py, line 71-92

params = {}

# 日期类型,0表示公历,1表示农历
params['data_type'] = "0"
params['year'] = "%s" % str(user_config.setting["year"])
params['month'] = "%s" % str(user_config.setting["month"])
params['day'] = "%s" % str(user_config.setting["day"])
params['hour'] = "%s" % str(user_config.setting["hour"])
params['minute'] = "%s" % str(user_config.setting["minute"])
params['pid'] = "%s" % str(user_config.setting["area_province"])
params['cid'] = "%s" % str(user_config.setting["area_region"])
# 喜用五行,0表示自动分析,1表示自定喜用神
params['wxxy'] = "0"
params['xing'] = "%s" % (user_config.setting["name_prefix"])
params['ming'] = name_postfix
# 表示女,1表示男
if user_config.setting["sex"] == "男":
    params['sex'] = "1"
else:
    params['sex'] = "0"
params['act'] = "submit"
params['isbz'] = "1"

使用这种方法,就可以提交POST表单,然后从content得到了结果数据。

第二件事情,就是从网页中提取需要的分数,我们可以使用BeautifulSoup4来实现,其语法也很简单:

# baby-name/main/generate.py, line 98-109

soup = BeautifulSoup(content, 'html.parser', from_encoding="GB18030")
full_name = get_full_name(name_postfix)

# print soup.find(string=re.compile(u"姓名五格评分"))
for node in soup.find_all("div", class_="chaxun_b"):
    node_cont = node.get_text()
    if u'姓名五格评分' in node_cont:
        name_wuge = node.find(string=re.compile(u"姓名五格评分"))
        result_data['wuge_score'] = name_wuge.next_sibling.b.get_text()
    if u'姓名八字评分' in node_cont:
        name_wuge = node.find(string=re.compile(u"姓名八字评分"))
        result_data['bazi_score'] = name_wuge.next_sibling.b.get_text()

通过该方法,就能对HTML解析,提取八字和五格的分数。

 

4 程序运行

运行程序后,输出如下:

$ python baby-name/main/generate.py
开始起名................................
1/1287 刘棋嘉	八字评分=90	五格评分=84.8	总分=174.8
2/1287 刘万嘉	八字评分=63	五格评分=73.5	总分=136.5
3/1287 刘嘉荐	八字评分=89	五格评分=86.7	总分=175.7
4/1287 刘嘉飞	八字评分=61	五格评分=81.8	总分=142.8
5/1287 刘崖嘉	八字评分=70	五格评分=75.7	总分=145.7
6/1287 刘嘉纪	八字评分=89	五格评分=81.8	总分=170.8
7/1287 刘嘉菲	八字评分=91	五格评分=74.8	总分=165.8
8/1287 刘嘉纺	八字评分=61	五格评分=86.8	总分=147.8
9/1287 刘早嘉	八字评分=61	五格评分=83.4	总分=144.4
10/1287 刘嘉潘	八字评分=60	五格评分=83.2	总分=143.2
...
1285/1287 刘荧嘉	八字评分=98	五格评分=74.8	总分=172.8
1286/1287 刘炎嘉	八字评分=97.5	五格评分=89.2	总分=186.7
1287/1287 刘嘉宜	八字评分=88.5	五格评分=83.0	总分=171.5
起名完成................................

mian/outputs目录中有两个文件,分别是example.txt.sorted(已排序)、example.txt(没有排序)。

这些分数对于取名还是一个很实用的参考。

 

5 总结

  • 分数跟很多因素有关,比如出生时刻、已经限定的字、限定字的笔画等因素,这些条件决定了有些名字不会分数高,不要受此影响,找出相对分数高的就好;
  • 结果仅供参考,其实历史上很多名人、伟人的姓名八字评分都非常低,但是都建功立业。所以名字确实会有些影响,但有时候朗朗上口就是最好的;
  • 从结果中选取名字之后,可以在百度、微博等地方查查,以防有些负面的人重名、或者起这个名字的人太多了烂大街;
  • 八字分数是中国传承,五格分数是日本人近代发明的,有时候也可以试试西方的星座起名法,并且奇怪的是八字和五个分数不同网站打分相差很大,更说明了这东西只供参考;

本文代码已上传到Github:https://github.com/laucyun/baby-name

(全文完)

...

Tags Read More..


Python爬虫框架之Scrapy的安装和使用

by LauCyun Nov 13,2016 14:22:12 14,783 views

Scrapy是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,只需要定制开发几个模块就可以轻松的实现一个爬虫。Scrapy官网官方安装文档

安装

直接使用pip安装:

pip install Scrapy

注意:

Scrapy依赖这些python包:

  • lxml
  • parsel
  • w3lib
  • twisted
  • cryptography and pyOpenSSL

对于Scrapy最小的包版本:

  • Twisted 14.0
  • lxml 3.4
  • pyOpenSSL 0.14

创建一个Scrapy新项目

使用命令创建一个Scrapy新项目:

$ scrapy startproject 项目名称

例如:创建一个名叫helloscrapy的项目

$ scrapy startproject helloscrapy
New Scrapy project 'helloscrapy', using template directory '/usr/local/lib/python2.7/dist-packages/scrapy/templates/project', created in:
    /home/helloscrapy

You can start your first spider with:
    cd helloscrapy
    scrapy genspider example example.com

项目结构

.
`-- helloscrapy
    |-- helloscrapy           # Python项目module
    |   |-- __init__.py
    |   |-- items.py          # 项目的Item定义位置
    |   |-- middlewares.py
    |   |-- pipelines.py      # 项目的Pipeline文件
    |   |-- settings.py       # 项目的设置文件
    |   `-- spiders           # 蜘蛛目录
    |       `-- __init__.py
    `-- scrapy.cfg            # Scrapy项目配置文件

编写一个蜘蛛

我们以爬取LauCyun's Blog为例,先创建一个爬虫:

$ scrapy genspider laucyun liuker.org
Created spider 'laucyun' using template 'basic' in module:
  helloscrapy.spiders.laucyun

在spider目录中将看到laucyun.py文件,内容如下:

# -*- coding: utf-8 -*-
import scrapy


class LaucyunSpider(scrapy.Spider):
    name = 'laucyun'
    allowed_domains = ['liuker.org']
    start_urls = ['http://liuker.org/']

    def parse(self, response):
        pass
~                                    

这里需要解释一下,每一个蜘蛛都要继承Spider,这是Scrapy提供的基础蜘蛛,Spider中有3个变量必须定义:

  • name - 蜘蛛的名字,等会儿通过命令行启动蜘蛛的时候用到
  • allowed_domains - 限定蜘蛛爬取的域,以免去爬一些我们不关心的网站内容,上面只爬liuker.org。如果多个的话则为['liuker.org', 'laucyun.com']
  • start_urls - 从哪儿开始爬。
  • def parse(self, response): - 这里就是蜘蛛通过下载器下载好的内容回调,通过这个方法可以取到网页内容。

这样一个简单的蜘蛛就完成了,可以通过命令:

$ scrapy crawl laucyun
2016-11-13 07:36:31 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: helloscrapy)
2016-11-13 07:36:31 [scrapy.utils.log] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'helloscrapy.spiders', 'SPIDER_MODULES': ['helloscrapy.spiders'], 'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'helloscrapy'}
2016-11-13 07:36:31 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.corestats.CoreStats']
2016-11-13 07:36:31 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2016-11-13 07:36:31 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2016-11-13 07:36:31 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2016-11-13 07:36:31 [scrapy.core.engine] INFO: Spider opened
2016-11-13 07:36:31 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-11-13 07:36:31 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-11-13 07:36:32 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://liuker.org/robots.txt> (referer: None)
2016-11-13 07:36:32 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://liuker.org/> (referer: None)
2016-11-13 07:36:32 [scrapy.core.engine] INFO: Closing spider (finished)
2016-11-13 07:36:32 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 426,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 18916,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 2,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2016, 11, 13, 7, 36, 32, 399465),
 'log_count/DEBUG': 3,
 'log_count/INFO': 7,
 'memusage/max': 46956544,
 'memusage/startup': 46956544,
 'response_received_count': 2,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2016, 11, 13, 7, 36, 31, 700915)}
2016-11-13 07:36:32 [scrapy.core.engine] INFO: Spider closed (finished)

当然上面的代码还什么都抓不到,因为parse还没有实现。

总结

简单的实现了一个蜘蛛,这个蜘蛛现在只能抓取静态网页,如果网站包含了动态内容,或者很多ajax请求,那么这样是抓不到完整数据的,下面会通过selenium来抓取动态网页。

(全文完)

...

Tags Read More..


Python爬虫之Urllib库

by LauCyun Aug 3,2016 15:56:49 7,418 views

在Python2版本中,有urlliburlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib

Python3 urllib库官方链接:

https://docs.python.org/3/library/urllib.html

urllib中包括了四个模块,包括urllib.requesturllib.errorurllib.parseurllib.robotparser

  • urllib.request可以用来发送request和获取request的结果
  • urllib.error包含了urllib.request产生的异常
  • urllib.parse用来解析和处理URL
  • urllib.robotparse用来解析页面的robots.txt文件

可见其中模拟请求使用的最主要的库便是urllib.request,异常处理用urllib.error库。

下面会对它们一一进行详细的介绍。

 

1 使用urllib.request发送请求

urllib.request模块提供了最基本的构造HTTP请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理authenticaton(授权验证)redirections(重定向)cookies(浏览器Cookies)以及其它内容。

好,那么先举个栗子来感受一下它的强大之处:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

response = urllib.request.urlopen('https://www.liuker.org')
print(response.read().decode('utf-8'))

运行结果:

<!DOCTYPE html>
<html lang="en" class="app">
<head>
    <meta charset="UTF-8">
    <link href="/favicon.ico" mce_href="/favicon.ico" rel="icon" type="image/x-icon"/>
    <title>LauCyun&#39;s Blog</title>
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <!-- SEO -->
    <meta name="description" content="LauCyun的博客,分享学习的心得,享受编程和技术所带来的快乐。LauCyun&#39;s blog, sharing learning experiences, and enjoying the joy of programming and technology, coding your ambition."/>
    <meta name="keywords" content="LauCyun,laucyun,Liuker,liuker,程序员,工程师,攻城狮,Coding,算法,Algorithm,Database,MySQL,Language,C,C++,Python,SQL,OS,Linux,Unix,Ubuntu,CentOS,Windows,网络,NetWork,Network security,工业控制系统信息安全,工控安全,Industrial control system security,ICS,Modbus,OPC,S7,人工智能,Artificial Intelligence,AI,机器学习,Machine learning,深度学习,Deep Learning,神经网络,neural network"/>
    <link rel='next' href='https://liuker.org?page=2'/>

    <link rel="canonical" href="https://liuker.org"/>
    <meta property="og:title" content="LauCyun&#39;s Blog"/>
    <meta property="og:url" content="https://liuker.org"/>
    <meta property="og:image" content="https://liuker.org/static/upload/avatar/default.svg"/>
    <meta property="og:site_name" content="LauCyun&#39;s Blog"/>
    <meta property="og:description" content="LauCyun的博客,分享学习的心得,享受编程和技术所带来的快乐。LauCyun&#39;s blog, sharing learning experiences, and enjoying the joy of programming and technology, coding your ambition."/>
    <meta name="twitter:card" content="LauCyun&#39;s Blog"/>
    <meta name="twitter:title" content="LauCyun&#39;s Blog"/>
    <meta name="twitter:description" content="LauCyun的博客,分享学习的心得,享受编程和技术所带来的快乐。LauCyun&#39;s blog, sharing learning experiences, and enjoying the joy of programming and technology, coding your ambition."/>
    <meta name="twitter:image" content="https://liuker.org/static/upload/avatar/default.svg"/>
    <!-- / SEO -->

    ...

</head>
<body>
<!-- header -->

    ....

</body>
</html>

是的你没看错,真正的代码就只有两行,就把https://liuker.org页面爬取下来了,得到了源代码之后呢?你想要的链接、图片地址、文本信息不就都可以提取出来了吗?

接下来我们看下它返回的到底是什么,利用type()函数输出response的类型。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

response = urllib.request.urlopen('https://www.liuker.org')
print(type(response))

输出结果如下:

<class 'http.client.HTTPResponse'>

对的,它是一个HTTPResposne类型的对象,它主要包含的方法有read()readinto()getheader(name)getheaders()fileno()等函数和msgversionstatusreasondebuglevelclosed等属性。 得到这个对象之后,我们把它赋值为response变量,然后就可以用response调用这些方法和属性,得到返回结果的一系列信息了。

response.read()就可以得到返回的网页内容,response.status就可以得到返回结果的状态码,如200代表请求成功,404代表网页未找到等。

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

response = urllib.request.urlopen('https://www.liuker.org')
print(response.status)
print(response.getheaders())
print(response.getheader('Server'))

运行结果如下:

200
[('Server', 'nginx/1.10.3'), ('Date', 'Mon, 07 Aug 2017 07:07:28 GMT'), ('Content-Type', 'text/html; charset=utf-8'), ('Content-Length', '102475'), ('Connection', 'close'), ('Vary', 'Accept-Encoding'), ('Set-Cookie', 'liuker=eyJjc3JmX3Rva2VuIjp7IiBiIjoiT1dGaE1XRXpaV1psWldJNE1tWTJNamt5TVRRMk56RTFOR1EwTjJKbE5EQXpOV0V4TW1aaE5nPT0ifX0.DGmjMA.yREcJVmaCVe_YeutaR9aFuCUuz8; HttpOnly; Path=/')]
nginx/1.10.3

可见,三个输出分别输出了响应的状态码,响应的头信息,以及通过传递一个参数Server获取了headers中的Server值,结果是nginx/1.10.3,意思就是服务器是nginx搭建的。

1.1 urllib.request.urlopen()

利用以上最基本的urlopen()方法,我们可以完成最基本的简单网页的GET请求抓取。

如果我们想给链接传递一些参数该怎么实现呢?我们首先看一下urlopen()函数的API。

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

可以发现除了第一个参数可以传递URL之外,我们还可以传递其它的内容,比如data(附加数据)、timeout(超时时间)等等。

下面我们详细说明下这几个参数的用法。

1.1.1 data参数

data参数是可选的,如果要添加data,它要是字节流编码格式的内容,即bytes类型,通过bytes()函数可以进行转化,另外如果你传递了这个data参数,它的请求方式就不再是GET方式请求,而是POST

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

values = {
    'csrf_token': 'ImJkY2QzMjU4OTJmN2NmNjg5MzZhYTg5NmIwZGM3MGI0ZjA1ZTk2OTMi.DGqo3A.OXxfgl6MtUoE-6wJ63Cn8y71thw',
    'username': 'admin',
    'password': '123456',
    'code': ''
}
data = bytes(urllib.parse.urlencode(values), encoding="utf8")
url = "https://liuker.org/login"
response = urllib.request.urlopen(url, data=data)
print(response.read())

在这里我们模拟登陆https://liuker.org/login,当然上述代码可能登陆不进去,因为https://liuker.org/login还有个流水号的字段,没有设置全,比较复杂在这里就不写上去了,在此只是说明登录的原理。一般的登录网站一般是这种写法。

我们需要定义一个字典,名字为values,参数我设置了username和password。它需要被转码成bytes(字节流)类型。其中转字节流采用了bytes()方法,第一个参数需要是str(字符串)类型,需要用urllib.parse.urlencode()方法来将参数字典转化为字符串。第二个参数指定编码格式,在这里指定为utf8

1.1.2 timeout参数

timeout参数可以设置超时时间,单位为秒,意思就是如果请求超出了设置的这个时间还没有得到响应,就会抛出异常,如果不指定,就会使用全局默认时间。它支持HTTP、HTTPS、FTP请求。

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

response = urllib.request.urlopen('https://liuker.org', timeout=0.01)
print(response.read())

运行结果如下:

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "F:/Repository/Python/spider/simple/urllib/demo.py", line 38, in <module>
    response = urllib.request.urlopen('https://liuker.org', timeout=0.01)
  File "D:\Python\Python35\lib\urllib\request.py", line 163, in urlopen
    return opener.open(url, data, timeout)
  File "D:\Python\Python35\lib\urllib\request.py", line 466, in open
    response = self._open(req, data)
  File "D:\Python\Python35\lib\urllib\request.py", line 484, in _open
    '_open', req)
  File "D:\Python\Python35\lib\urllib\request.py", line 444, in _call_chain
    result = func(*args)
  File "D:\Python\Python35\lib\urllib\request.py", line 1297, in https_open
    context=self._context, check_hostname=self._check_hostname)
  File "D:\Python\Python35\lib\urllib\request.py", line 1256, in do_open
    raise URLError(err)
urllib.error.URLError: <urlopen error timed out>

在这里我们设置了超时时间是0.01秒,程序0.01秒过后服务器依然没有响应,于是抛出了urllib.error.URLError异常,错误原因是超时。

因此我们可以通过设置这个超时时间来控制一个网页如果长时间未响应就跳过它的抓取,利用try,except语句就可以实现这样的操作。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import socket
import urllib.request
import urllib.error

try:
    response = urllib.request.urlopen('https://liuker.org', timeout=0.05)
    print(response.read())
except urllib.error.URLError as e:
    if isinstance(e.reason, socket.timeout):
        print('TIME OUT')

在这里我们请求了https://liuker.org这个测试链接,设置了超时时间是0.05秒,然后捕获了urllib.error.URLError这个异常,然后判断异常原因是socket.timeout类型,意思就是超时异常,就得出它确实是因为超时而报错,打印输出了TIME OUT

这样,我们可以通过设置timeout这个参数来实现超时处理,有时还是很有用的。

1.1.3 其他参数

还有context参数,它必须是ssl.SSLContext类型,用来指定SSL设置。

cafilecapath两个参数是指定CA证书和它的路径,这个在请求HTTPS链接时会有用。

cadefault参数现在已经弃用了,默认为False

以上讲解了urlopen()方法的用法,通过这个最基本的函数可以完成简单的请求和网页抓取,如需更加详细了解,可以参见官方文档。

https://docs.python.org/3/library/urllib.request.html

1.2 urllib.request.Request的使用

由上我们知道利用urlopen()方法可以实现最基本请求的发起,但这几个简单的参数并不足以构建一个完整的请求,如果请求中需要加入headers(请求头)等信息,我们就可以利用更强大的Request类来构建一个请求。

首先举个栗子了解Request的用法:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request

request = urllib.request.Request('https://liuker.org')
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

可以发现,我们依然是用urlopen()方法来发送这个请求,只不过这次urlopen()方法的参数不再是一个URL,而是一个Request类型的对象,通过构造这个这个数据结构,一方面我们可以将请求独立成一个对象,另一方面可配置参数更加丰富和灵活。

下面我们看一下Request都可以通过怎样的参数来构造,它的构造方法如下。

class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
  • url:是请求链接,这个是必传参数,其他的都是可选参数。
  • data:必须传bytes(字节流)类型的,如果是一个字典,可以先用urllib.parse.urlencode()转码。
  • headers:是一个字典,这个就是浏览器请求头了,你可以在构造Request时通过headers参数直接构造,也可以通过调用Request实例的add_header()方法来添加请求头。
    请求头最常用的用法就是通过修改User-Agent来伪装浏览器,默认的User-AgentPython-urllib,你可以通过修改它来伪装浏览器,比如要伪装火狐浏览器,你可以把它设置为Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36
  • origin_req_host:指的是请求方的host名称或者IP地址。
  • unverifiable:指的是这个请求是否是无法验证的,默认是False。意思就是说用户没有足够权限来选择接收这个请求的结果。
    例:如果请求一个HTML文档中的图片,但是没有自动抓取图像的权限,这时unverifiable的值就是True
  • method:是一个字符串,它用来指示请求使用的方法,比如GET,POST,PUT等等。

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from urllib import request, parse

url = 'https://liuker.org/login'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36',
    'Cookie': 'liuker=.eJw9UE2LwjAU_CtLzi7UqBfBg1KVFt4rStrwcilurLZJsy610jbif9_iwcNchmG-niy_NMW9ZMu2eRQTlldntnyyrx-2ZGofG3ARV2E6Q441ml2dyIiD35Ugth3yw4zcsVL71IM71sAPA5isAr8xEMYOvZ3CPnPkN5YMeBKZS2S6QF_XSmCZhOtOhTZQQi9GDImIDfJoALf1yJUhs-Yj36OwAcmRF-kcRFyCgQ5lOidPPbgxW25X7DVh-t5c8vZmi9_PBPKHPgmhRx8bkuiUpI581BPfjTX1AD6zOE4hcTYYXgPlKMDr6m1XVw9bNN_69Nfq8vSx1G7aand7Sx73onk_xqbs9Q9r_G5A.DGn4yA.Xjf08hSZBqa36i3z6BFB5-_HlJg',
    'Host': 'liuker.org'
}
values = {
    'csrf_token': 'ImM0MTgzMTcyY2FjZmVmMGMyMWNhYjM3MjM1ZDUxMGE3YzQ4NGZmNDYi.DGn5VA.vZGVEM3paHN8WoSHm6e2zArpKDg',
    'username': 'admin',
    'password': '123456',
    'code': ''
}
data = bytes(parse.urlencode(values), encoding='utf8')
req = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

在这里我们通过四个参数构造了一个Request,在headers中指定了User-AgentCookieHost,传递的参数data用了urlencode()bytes()方法来转成字节流,另外指定了请求方式为POST

运行结果如下:

<!DOCTYPE html>
<html lang="en" class="app">
    ...
    <script type="text/javascript">
        $(document).ready(function () {
            var statue = parseInt("0");
            if (!statue) {
                $("input[name='username']").val("admin");
                $("input[name='password']").val("123456");
                setInputStatus($("input[name='username']"), false, "The username or phone number that you've entered is incorrect.");
                ...
            }
            ...
        });
    </script>
</body>
</html>

结果出现错误信息为“The username or phone number that you've entered is incorrect.”,说明请求成功。

另外headers也可以用add_header()方法来添加。

req = request.Request(url=url, data=data, method='POST')
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36')

如此一来,我们就可以更加方便地构造一个Request,实现请求的发送啦。

1.3 urllib.request高级特性

大家有没有发现,在上面的过程中,我们虽然可以构造Request,但是一些更高级的操作,比如Cookies处理,代理设置等操作我们该怎么办?

接下来就需要更强大的工具Handler登场了。

简而言之你可以把它理解为各种处理器,有专门处理登录验证的,有处理Cookies的,有处理代理设置的,利用它们我们几乎可以做到任何HTTP请求中所有的事情。

首先介绍下urllib.request.BaseHandler,它是所有其他Handler的父类,它提供了最基本的Handler的方法,例如default_open()protocol_request()等。

接下来就有各种Handler子类继承这个BaseHandler,举例几个如下:

  • HTTPDefaultErrorHandler用于处理HTTP响应错误,错误都会抛出HTTPError类型的异常。
  • HTTPRedirectHandler用于处理重定向。
  • HTTPCookieProcessor用于处理Cookie
  • ProxyHandler用于设置代理,默认代理为空。
  • HTTPPasswordMgr用于管理密码,它维护了用户名密码的表。
  • HTTPBasicAuthHandler用于管理认证,如果一个链接打开时需要认证,那么可以用它来解决认证问题。
  • 另外还有其他的Handler,在这不一一列举了,详情可以参考官方文档。

https://docs.python.org/3/library/urllib.request.html#urllib.request.BaseHandler

它们怎么来使用,不用着急,下面会有栗子讲解。

另外一个比较重要的类就是OpenerDirector,我们可以称之为Opener,我们之前用过urlopen()这个方法,实际上它就是urllib为我们提供的一个Opener

那么为什么要引入Opener呢?因为我们需要实现更高级的功能,之前我们使用的Requesturlopen()相当于类库为你封装好了极其常用的请求方法,利用它们两个我们就可以完成基本的请求,但是现在不一样了,我们需要实现更高级的功能,所以我们需要深入一层进行配置,使用更底层的实例来完成我们的操作。

所以,在这里我们就用到了比调用urlopen()的对象的更普遍的对象,也就是Opener

Opener可以使用open()方法,返回的类型和urlopen()如出一辙。那么它和Handler有什么关系?简而言之,就是利用Handler来构建Opener

1.3.1 认证

有些网站在打开时它就弹出了一个框,直接提示你输入用户名和密码,认证成功之后才能查看页面能利用。那么我们如果要请求这样的页面怎么办呢?

举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
from urllib.error import URLError
import ssl

# 全局取消证书验证
ssl._create_default_https_context = ssl._create_unverified_context

username = 'xxxxxx'
password = '******'
url = 'https://svn.liuker.org/repository/'

p = HTTPPasswordMgrWithDefaultRealm() # 实例化HTTPPasswordMgrWithDefaultRealm对象
p.add_password(None, url, username, password) # 用add_password()添加用户名和密码
auth_handler = HTTPBasicAuthHandler(p)  # 实例化HTTPBasicAuthHandler对象
opener = build_opener(auth_handler)     # 用build_opener()构建一个Opener

try:
    result = opener.open(url)
    html = result.read().decode('utf-8')
    print(html)
except URLError as e:
    print(e.reason)

在这里,首先实例化了一个HTTPBasicAuthHandler对象,参数是HTTPPasswordMgrWithDefaultRealm对象,它利用add_password()添加进去用户名和密码,这样我们就建立了一个处理认证的Handler

接下来利用build_opener()方法来利用这个Handler构建一个Opener,那么这个Opener在发送请求的时候就相当于已经认证成功了。

接下来利用Openeropen()方法打开链接,就可以完成认证了。在这里获取到的结果就是认证后的页面源码内容。

1.3.2 代理

在做爬虫的时候免不了要使用代理,如果要添加代理,可以这样做:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from urllib.error import URLError
from urllib.request import ProxyHandler, build_opener

# 本地代理服务器,端口为1080
proxy_handler = ProxyHandler({
    'http': 'http://127.0.0.1:1080',
    'https': 'https://127.0.0.1:1080'
})
opener = build_opener(proxy_handler)
try:
    response = opener.open('https://www.google.com')
    print(response.read().decode(encoding='UTF-8'))
except URLError as e:
    print(e.reason)

在这里使用了ProxyHandlerProxyHandler的参数是一个字典,key是协议类型,value是代理链接。

然后利用build_opener()方法利用这个Handler构造一个Opener,然后发送请求即可。

1.3.3 Cookies设置

Cookies的处理就需要Cookies相关的Handler了。

我们先用一个栗子来了解怎样将网站的Cookies获取下来。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import http.cookiejar, urllib.request

cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('https://www.liuker.org')
for item in cookie:
    print(item.name + "=" + item.value)

首先我们必须声明一个CookieJar对象,接下来我们就需要利用HTTPCookieProcessor来构建一个handler,最后利用build_opener()方法构建出opener,执行open()函数即可。

运行结果如下:

liuker=eyJjc3JmX3Rva2VuIjp7IiBiIjoiWXpsaVptVmxZell6TVdFMFpEazNOV1JqTTJJellUTmhOR1E1TTJNNU56UmhPV0UyWm1SbVpnPT0ifX0.DGrWAw.FHSrQJ5Y66wvzeuqnTWAI_7kSOE

可以看到输出了每一条Cookie的名称还有值。

不过既然能输出,那可不可以输出成文件格式呢?我们知道Cookies实际也是以文本形式保存的。

答案当然是肯定的,举个栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import http.cookiejar, urllib.request

filename = 'cookie.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('https://www.liuker.org')
cookie.save(ignore_discard=True, ignore_expires=True)

这时的CookieJar就需要换成MozillaCookieJar,生成文件时需要用到它,它是CookieJar的子类,可以用来处理Cookies和文件相关的事件,读取和保存Cookies,它可以将Cookies保存成Mozilla型浏览器的Cookies的格式。

运行之后可以发现生成了一个cookie.txt文件。

内容如下:

# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

www.liuker.org	FALSE	/	FALSE		liuker	eyJjc3JmX3Rva2VuIjp7IiBiIjoiTVdSa00yVXlNamd3TURSa1lUVXlNMlEyWkRJeE1qbGxZVGt6WXpjeE9EVTNaamRpWTJJelpnPT0ifX0.DGrWjg.uj_7t7qlmPIunhuS9LVB1FEVHrM

另外还有一个LWPCookieJar,同样可以读取和保存Cookies,但是保存的格式和MozillaCookieJar的不一样,它会保存成与libwww-perl(LWP)Cookies文件格式。

要保存成LWP格式的Cookies文件,可以在声明时就改为

cookie = http.cookiejar.LWPCookieJar(filename)

生成的内容如下:

#LWP-Cookies-2.0
Set-Cookie3: liuker="eyJjc3JmX3Rva2VuIjp7IiBiIjoiT0RNd01EQm1NVEEwWldVM05HVXhPVEJqTW1Zek1EYzROekkxWldFd056ZzNaVE0yWmpReU1BPT0ifX0.DGrXDQ.KlGe_RCQ2bozobA9_vnWeFhSYb4"; path="/"; domain="www.liuker.org"; path_spec; discard; HttpOnly=None; version=0

由此看来生成的格式还是有比较大的差异的。

那么生成了Cookies文件,怎样从文件读取并利用呢?

下面我们以LWPCookieJar格式为栗子:

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import http.cookiejar, urllib.request

cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('https://www.liuker.org')
print(response.read().decode('utf-8'))

可以看到我们这里调用了load()方法来读取本地的Coookis文件,获取到了Cookies的内容。不过前提是我们首先利用生成了LWPCookieJar格式的Cookie,获取到Cookies之后,后面同样的方法构建HandlerOpener即可。

好,通过如上用法,我们可以实现绝大多数请求功能的设置了。如果有更多想实现的功能,可以参考官方文档的说明:

https://docs.python.org/3/library/urllib.request.html#basehandler-objects

...

Tags Read More..