python爬虫教程之美丽汤（一）

# python 爬虫之美丽汤 BeautifulSoup

作者： jwang106

1. 使用requests获取网页的html源码

import requests

from bs4 import BeautifulSoup

response = requests.get('https://www.autohome.com.cn/news/')

response.encoding = response.apparent_encoding

response.text

request用法总结

response = requests.get(url)

# get传参

>>> payload = {'key1': 'value1', 'key2': 'value2', 'key3': None}

>>> r = requests.get('http://httpbin.org/get', params=payload)

# 参数也可以传递列表

>>> payload = {'key1': 'value1', 'key2': ['value2', 'value3']}

>>> r = requests.get('http://httpbin.org/get', params=payload)

>>> print(r.url)

http://httpbin.org/get?key1=value1&key2=value2&key2=value3

# 编码

request.encoding

# 返回headers中的编码解析的结果

text 

# 返回二进制结果

content

# response.json()返回JSON格式，可能抛出异常

apparent_encoding

# 状态码 404 200等

status_code

# 为方便引用，Requests还附带了一个内置的状态码查询对象:

print r.status_code == requests.codes.ok

2. 使用美丽汤

举例：如果目标是爬取某个html里某个id下a标签的图片

soup = BeautifulSoup(response.text,features='html.parser')

# 直接用soup.find(id='xxx'） 简单又好记

# soup的每一个find的return可以继续用find, find是找到第一个，

# find_all 是所有，返回list

target = soup.find(id='auto-channel-lazyload-article')

li_list = target.find_all('li')

for i in li_list:

    a = i.find('a')

    if a:

        print(a.attrs.get('href'))

        txt = a.find('h3').text

        print(txt)

        img_url = 'https:' + a.find('img').attrs.get('src')

        print(img_url)

        img_response = requests.get(url=img_url)

        import uuid

        file_name = str(uuid.uuid4()) + '.jpg'

        with open(file_name,'wb') as f:

            f.write(img_response.content)

打印一下这些元素的type，就更容易懂了

print(type(soup))

print(type(target))

print(type(li_list[0]))

output:

<class 'bs4.BeautifulSoup'>

<class 'bs4.element.Tag'>

<class 'bs4.element.Tag'>

打印一下a

a = li_list[0].find('a')

a.attrs

output:

{'href': '//www.autohome.com.cn/news/201901/928448.html#pvareaid=102624'}

可以看到是一个字典，并且汽车之家使用了小技巧来防止加密，就是href里没有写https，没有难度我们自己加上就ok了。

后面的代码就很好懂了，获取使用requests获取图片，然后写入本地文件。

美丽汤总结

soup = BeautifulSoup(response.text, features='html.parser')

soup.find('div')

soup.find(id='1')

soup.find('div', id='1')

find是找第一个 find_all是所有,返回列表

3. 讲一下uuid

通用唯一识别码（英语：Universally Unique Identifier，UUID）

uuid.uuid1([node[, clock_seq]])

Generate a UUID from a host ID, sequence number, and the current time. 

uuid.uuid3(namespace, name)

Generate a UUID based on the MD5 hash of a namespace identifier (which is a UUID) and a name (which is a string).

uuid.uuid4()

Generate a random UUID.

python爬虫教程之美丽汤（一）的更多相关文章

Python爬虫教程-11-proxy代理IP，隐藏地址（猫眼电影）
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影) ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网 ...
Python爬虫教程-10-UserAgent和常见浏览器UA值
Python爬虫教程-10-UserAgent和常见浏览器UA值有时候使用爬虫会被网站封了IP,所以需要去模拟浏览器,隐藏用户身份, UserAgent 包含浏览器信息,用户身份,设备系统信息 Us ...
Python爬虫教程-09-error 模块
Python爬虫教程-09-error模块今天的主角是error,爬取的时候,很容易出现错,所以我们要在代码里做一些,常见错误的处,关于urllib.error URLError URLError ...
Python爬虫教程-08-post介绍(百度翻译)（下）
Python爬虫教程-08-post介绍(下) 为了更多的设置请求信息,单纯的通过urlopen已经不太能满足需求,此时需要使用request.Request类构造Request 实例 req = ...
Python爬虫教程-07-post介绍(百度翻译)（上）
Python爬虫教程-07-post介绍(百度翻译)(上) 访问网络两种方法 get: 利用参数给服务器传递信息参数为dict,使用parse编码 post :(今天给大家介绍的post) 一般向服 ...
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...
Python爬虫教程-34-分布式爬虫介绍
Python爬虫教程-34-分布式爬虫介绍分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集.单机爬虫就是只在一 ...
Python爬虫教程-33-scrapy shell 的使用
本篇详细介绍 scrapy shell 的使用,也介绍了使用 xpath 进行精确查找 Python爬虫教程-33-scrapy shell 的使用 scrapy shell 的使用条件:我们需要先 ...

随机推荐

CSP-S2019退役记
分两次写完思路不是很清晰. 作为一名强迫症患者我选择以后再更新一些细节…… upd 真·退役,D1T1为什么都是95分算法他们AC了我挂成了70分555555555555 普及-的题目A不掉我死了55 ...
对称性——cf405d
以后碰到这种题就应该往对称性想:设x的对称数x‘是1e6-x+1 对于任意一组对称数x+x'-2=1e6-1,2e6-(x+x')=1e6-1,即X集合Y集合同时加上任意一组对称数都是可以的枚举每个 ...
CF B. Planning The Expedition
题意:有n个人和m个食物,给出每一个食物的种类,每个人只会吃一种食物,每个人一天吃一个食物,问这n个人可以撑多少天. 分析:因为题目给出的天数范围比较小所以我们可以从1到100天开始枚举,我们判断如果 ...
使用wordpress搭建的网站如何去掉域名中的wordpess
我们搭建好的网站当以文件夹的形式把wordpress程序放在空间的根目录时,访问的时候要加上文件夹名,访问地址就是:http://www.xxx.com/wordpress,直接用域名是无法访问,解决 ...
C++之string面试问题
1.指针变量指向字符串常量的问题代码如下: "; 问p[0]=2;是否可以?原因? 答案:不可以.“123456”是字符串常量,存储在常量区,其值不可更改. 2.sizeof求字符串长度问 ...
CSS：CSS 伪元素
ylbtech-CSS:CSS 伪元素 1.返回顶部 1. CSS 伪元素 CSS伪元素是用来添加一些选择器的特殊效果. 语法伪元素的语法: selector:pseudo-element {pro ...
django-filters，rangefilter的用法，不在某个范围内
找了好久在网上都没找到完整的示例代码,东拼西凑,连蒙带猜出来一句. not_in=django_filters.NumericRangeFilter(field_name="pid" ...
linux jps命令
原文链接: http://www.cnblogs.com/qlqwjy/p/7928410.html https://blog.csdn.net/u013250071/article/details/ ...
内存Zone中的pageset成员分析
1: struct per_cpu_pageset __percpu *pageset; 首先,分析一个函数,__free_pages,这个函数是Buddy System提供的API接口函数,用于翻译 ...
（转载）深入理解ES6箭头函数的this以及各类this面试题总结
声明:本文转载自 https://blog.csdn.net/yangbingbinga/article/details/61424363 ES6中新增了箭头函数这种语法,箭头函数以其简洁性和方便获取 ...