urllib —— 解析

urllib库还提供了parse模块,实现了URL个部分的抽取、合并以及链接转换。

解析方法:

  • urlparse()

  • urlunparse()

  • urlsplit()

  • urlunsplit()

  • urljoin()

  • urlencode():用于构造GET请求参数

    1
    2
    3
    4
    5
    6
    7
    8
    9
    from ullib.parse import urlencode

    params = {
    'name':'germey',
    'age':22
    }
    base_url = 'http://www.baidu.com'
    url = base_url + urlencode(params)
    print(url)
  • parse_qs()

  • parse_qsl()

  • quote():将内容转化成URL编码的格式,URL中带有中文时,会导致乱码的问题,用这个方法可以将中文字符转化为URL编码。

    1
    2
    3
    4
    5
    from urllib.parse import quote

    keyword='爬虫'
    url = 'https://www.baidu.com/s?wd=' + quote(keyword)
    print(url)
  • unquote()