python3+beautifulsoup4爬取汽车信息

import requests

from bs4 import BeautifulSoup

response = requests.get("https://www.autohome.com.cn/news/")  # 01 发送请求

response.encoding = response.apparent_encoding      # 格式转换防止页面中文乱码  自动获得返回数据原来的编码

# print(response.text)  # 打印整个html文本

soup = BeautifulSoup(response.text,features="html.parser")     # 02 soup ：整体的框架 把html文本转换成soup对象，features="表示引擎"

target = soup.find(id="auto-channel-lazyload-article")      # 03 soup==>>div ：在soup框架种找里面的文本内容先找做大的哪个div 标签 从id =" " 的标签开始

# print(target)         # 只打印div标签内容

li_list=target.find_all("li")       # find表示只找第一个li的标签，find_all表示找所有的

# print(li_list)        #打印所有的div里面的li标签，打印的是列表类型，不是 beautifulsuop 的对象

for i in li_list:

    a = i.find("a")  # 04 找soup==>>div==>>li_list ：不是 beautifulsuop  的对象，是一个列表。但li_list[0]是，可以用for循环来查找

    if a:  # 因为有些li标签没有a 所有用个if判断语句有a的话在执行下面的

        print('http:'+a.attrs.get('href'))  # 打印所有li中的a标签    （a.attrs ）表示找到a标签的属性值，打印所有a标签的链接

        h3_txt= a.find("h3") .text  # 05 找soup==>>div==>>li_list==>>h3 ：查找 li 标签里面的 h3 标签   .text 获取对象的文本，返回的是字符串格式

        print(h3_txt)  # 打印li 标签里面的 h3 标签的内容 # type查看属性type(h3_txt)

        img_url = a.find('img') .attrs.get('src') # 06 找soup==>>div==>>li_list==>>img ：查找 li 里面的 img 标签 并获取标签属性值，既标签的链接

        print('http:'+img_url)    # 打印li 标签里面的 图片链接 的内容

        '''

         07 保存图片到本地

       '''

        import uuid

        image_reponse = requests.get(url='http:'+img_url)

        file_name = str(uuid.uuid4()) + '.jpg'   # 用uuid随机生成名字

        with open(file_name, 'wb') as  f:

            f.write(image_reponse.content)  #  reponse.content返回字节 reponse.text 返回的是字符串  reponse.encoding    reponse.reparent_encoding自动获得返回数据原来的编码

python3+beautifulsoup4爬取汽车信息的更多相关文章

python3.x爬取美团信息
在之前的文章中,笔者有提到,我们要在实践中去学习python,笔者有天就想着要不要爬点东西呢,跃跃欲试的节奏啊,想来想去,想到美团了,那么首先笔者想给自己确定一个目标,就是我要爬什么样的数据,我要爬 ...
python3 爬取汽车之家所有车型数据操作步骤（更新版）
题记: 互联网上关于使用python3去爬取汽车之家的汽车数据(主要是汽车基本参数,配置参数,颜色参数,内饰参数)的教程已经非常多了,但大体的方案分两种: 1.解析出汽车之家某个车型的网页,然后正则表 ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
python3爬虫-爬取58同城上所有城市的租房信息
from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, dat ...
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库
从0开始学爬虫8使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库 Python使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库参考 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
python学习之——爬取网页信息
爬取网页信息说明:正则表达式有待学习,之后完善此功能 #encoding=utf-8 import urllib import re import os #获取网络数据到指定文件 def getHt ...
Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...

随机推荐

Python模块之time、datetime
python内置模块系列(一):time模块与datetime time模块是python内置查看当前时间戳的一个模块一 time 1 获得时间戳时间戳:通常来说,时间戳表示的是从1970年1月1 ...
Win10一周年纪念版，瞧一瞧Linux子系统
Bash Bash是一个命令处理器,通常运行于文本窗口中,并能执行用户直接输入的命令.Bash还能从文件中读取命令,这样的文件称为脚本.和其他Unix shell 一样,它支持文件名替换(通配符匹配) ...
springMVC_11拦截器实现登录
一. 思路 controller实现核对用户名和密码,如果核对正确则保存到session中并且跳转到主页系统中包含诸多界面,部分界面不需要登录即可进行访问,通过拦截器实现判断是否是不需要登录的界 ...
Java岗面试考点精讲（基础篇01期）
即将到来金三银四人才招聘的高峰期,渴望跳槽的朋友肯定跟我一样四处找以往的面试题,但又感觉找的又不完整,在这里我将把我所见到的题目做一总结,并尽力将答案术语化.标准化.预祝大家面试顺利. 术语会让你的面 ...
汇编语言--微机CPU的指令系统（五）（算术运算指令）
(3)算术运算指令算术运算指令是反映CPU计算能力的一组指令,也是编程时经常使用的一组指令.它包括:加.减.乘.除及其相关的辅助指令. 该组指令的操作数可以是8位.16位和32位(80386+).当 ...
Java并发编程-Semaphore
基于AQS的前世今生,来学习并发工具类Semaphore.本文将从Semaphore的应用场景.源码原理解析来学习这个并发工具类. 1. 应用场景 Semaphore用来控制同时访问某个特定资源的操作 ...
ThinkPHP登录功能的实现方法
登陆功能是PHP程序设计中常见的功能.本文ThinkPHP实例主要完成注册成功后进入首页,并告诉你是登录用户的功能.具体实现步骤如下: 第一步:在config.php文件中加上: 完整实现代码如下: ...
angular post 带参数导出excel
原文地址:http://www.cnblogs.com/xujanus/p/5985644.html html <button class="btn btn-info" ng ...
JAVA 多线程（3）
再讲线程安全: 一.脏读脏读:在于读字,意在在读取实例变量时,实例变量有可能被另外一个线程更改了,导致获取到的数据出现异常. 在非线程安全的情况下,如果线程A与线程B 共同使用对象实例C中的方法me ...
JAVA 多线程（1）：synchronized
入坑3年,对线程总是一知半解,最多停留在copy,决定还是仔细看看这方面的东西,一点点的记录让自己理解,对一些重要的概念进行记录和理解(包括参考作者的原话与个人理解) 参考链接:https://www ...

python3+beautifulsoup4爬取汽车信息

python3+beautifulsoup4爬取汽车信息的更多相关文章

随机推荐

热门专题