requests bs4 爬取资讯图片

#!/usr/bin/env python

# Version = 3.5.2

# __auth__ = '无名小妖'

import requests

from bs4 import BeautifulSoup

import uuid

response = requests.get(

    url='http://www.autohome.com.cn/news/'

)

response.encoding = response.apparent_encoding  # 使用原页面的编码进行解析

# response.status_code 状态码

# 将页面字符串转化成bs对象，features 是转化方式，此处用的html.parser，而生产中用的是lxml，性能较好

soup = BeautifulSoup(response.text, features='html.parser')

# 获取id为'auto-channel-lazyload-article' 的标签

target = soup.find(id='auto-channel-lazyload-article')

# 在此标签下找到所有的li标签

li = target.find_all('li')

# 获取每个li标签下的a标签

for i in li:

    a = i.find('a')

    if a:

        # print(a.attrs.get('href'))

        txt = a.find('h3').text

        # 获取图片的地址

        img_url = a.find('img').attrs.get('src')

        if not img_url.startswith("http:"):

            img_url = "http:" + img_url

        # 下载图片

        img_response = requests.get(url=img_url)

        h = img_url.split('.')

        jpg_name = '{}.{}'.format(uuid.uuid4(), h[-1])

        with open(jpg_name, 'wb') as f:

            f.write(img_response.content)

requests bs4 爬取资讯图片的更多相关文章

requests+bs4爬取豌豆荚排行榜及下载排行榜app
爬取排行榜应用信息爬取豌豆荚排行榜app信息 - app_detail_url - 应用详情页url - app_image_url - 应用图片url - app_name - 应用名称 - ap ...
requests + bs4 爬取豌豆荚所有应用的信息
1.分析豌豆荚的接口的规律 - 获取所有app的接口url 2.往每一个接口发送请求,获取json数据解析并提取想要的数据 app_data: 1.图标 app_img_url 2.名字 app_n ...
python requests库爬取网页小实例：爬取网页图片
爬取网页图片: #网络图片爬取 import requests import os root="C://Users//Lenovo//Desktop//" #以原文件名作为保存的文 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
使用request+bs4爬取所有股票信息
爬取前戏我们要知道利用selenium是非常无敌的,自我认为什么反爬不反爬都不在话下,但是今天我们为什么要用request+bs4爬取所有股票信息呢?因为他比较原始,因此今天的数据,爬取起来也是比较 ...
百度图片爬虫-python版-如何爬取百度图片?
上一篇我写了如何爬取百度网盘的爬虫,在这里还是重温一下,把链接附上: http://www.cnblogs.com/huangxie/p/5473273.html 这一篇我想写写如何爬取百度图片的爬虫 ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...

随机推荐

进程间通信--POSIX消息队列
相关函数: mqd_t mq_open(const char *name, int oflag); mqd_t mq_send(mqd_t mqdes, const char *msg_ptr, si ...
MySQL账号安全设置
======================================================================== 推荐账号安全设置在数据库服务器上严格控制操作系统的账 ...
hbase基于solr配置二级索引
一.概述 Hbase适用于大表的存储,通过单一的RowKey查询虽然能快速查询,但是对于复杂查询,尤其分页.查询总数等,实现方案浪费计算资源,所以可以针对hbase数据创建二级索引(Hbase Sec ...
solrcloud配置中文分词器ik
无论是solr还是luncene,都对中文分词不太好,所以我们一般索引中文的话需要使用ik中文分词器. 三台机器(192.168.1.236,192.168.1.237,192.168.1.238)已 ...
ThinkPHP 更新 5.0.23 和 5.1.31
ThinkPHP 更新 5.0.23 和 5.1.31 FastAdmin 也跟着更新. V1.0.0.20181210_beta 修复 ThinkPHP5.0发布了一个重要安全更新,强烈建议更新修 ...
C51 头文件中的 extern
C51 头文件使用 extern 的目的是声明外部变量或函数. 使用注意: 只放在 .h 文件中. 声明时不用赋值. extern 只是声明不是定义.
dongle0
*CLI> -- [dongle0] Trying to connect on /dev/ttyUSB2... 插拔dongle[Jan 13 23:42:20] WARNING[3443]: ...
oracle之变更OS时间对数据库的影响
本文:说明提供了操作系统日期变更对数据库.应用程序数据和作业的影响. 1.它将会影响插入的任何记录,如果涉及到sysdate,则更改日期.2.它还会影响在那个日期运行的任何调度器作业. 如果将系统时间 ...
Oracle 联机重做日志文件(ONLINE LOG FILE)
--========================================= -- Oracle 联机重做日志文件(ONLINE LOG FILE) --================== ...
WeakHashMap 理解
WeakHashMap 通过 expungeStaleEntries 这个函数的来实现:移除其内部不用的条目,从而达到自动释放内存的目的. 基本上只要对 WeakHashMap 的内容进行访问就会调用 ...

requests bs4 爬取 资讯 图片

requests bs4 爬取 资讯 图片的更多相关文章

随机推荐

热门专题

requests bs4 爬取资讯图片

requests bs4 爬取资讯图片的更多相关文章