单个图片获取-爬取网易"数读"信息数据(暴涨的房租，正在摧毁中国年轻人的生活)

参考链接:https://www.makcyun.top/web_scraping_withpython3.html

该网页其实有16张图片,但是因为页面数据中某处多个空白,导致参考链接中的方式只有15张图片,并且亲测有些方式能用,有些方式不能用,特此记录一下

正常显示:

不正常显示:

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import random

import re

import requests

from bs4 import BeautifulSoup

from lxml import etree

from pyquery import PyQuery as pq

from requests import RequestException

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0'

}

def get_one_page():

    url = 'http://data.163.com/18/0901/01/DQJ3D0D9000181IU.html'

    try:

        response = requests.get(url, headers=headers)

        if response.status_code == 200:

            return response.text

    except RequestException:

        print('网页请求失败')

        return None

### 如下是解析网页数据的5中方式

# 正则表达式

def parse_one_page1(html):

    pattern = re.compile('<img alt=".*?租" src="(.*?)"', re.S)

    items = re.findall(pattern, html)

    for item in items:

        yield {

            'url': item

        }

# Xpath语法 # 使用这个('*//p//img[@alt = "房租"]/@src') 则结果只有15条,因为有个alt参数中房租前面有空格

def parse_one_page2(html):

    parse = etree.HTML(html)

    items = parse.xpath('*//img[@style="margin: 0px auto; display: block;" ]/@src')

    for item in items:

        yield {

            'url': item

        }

# CSS选择器,结果有8条,还有待研究

def parse_one_page3(html):

    soup = BeautifulSoup(html, 'lxml')

    items = soup.select('p a img')

    # print(items)

    for item in items:

        yield {

            'url': item['src']

        }

# Beautiful Soup + find_all函数提取 结果有8条,还有待研究

def parse_one_page4(html):

    soup = BeautifulSoup(html, 'lxml')

    item = soup.find_all(attrs={'width': '100%', 'style': 'margin: 0px auto; display: block;'})

    print(item)

    for i in range(len(item)):

        url = item[i].attrs['src']

        yield {

            'url': url

        }

# PyQuery

def parse_one_page5(html):

    data = pq(html)

    data2 = data('p>a>img')

    for item in data2.items():

        yield {

            'url': item.attr('src')

        }

def download_thumb(url, name):

    print(url, name)

    try:

        response = requests.get(url)

        with open(name + '.jpg', 'wb') as f:

            f.write(response.content)

    except RequestException as e:

        print(e)

        pass

def main():

    html = get_one_page()

    items = parse_one_page5(html)

    for item in items:

        # print(item['url'])

        download_thumb(item['url'], str(random.randint(1, 1000)))

if __name__ == '__main__':

    main()

注:下载保存图片的函数还能再优化一下,不过懒得弄了,直接上随机数,哈哈

单个图片获取-爬取网易"数读"信息数据(暴涨的房租，正在摧毁中国年轻人的生活)的更多相关文章

python爬取豆瓣电影信息数据
题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里琐事也很多, 加上自己一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...
Python scrapy框架爬取瓜子二手车信息数据
项目实施依赖: python,scrapy ,fiddler scrapy安装依赖的包: 可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载 pywi ...
使用Jsoup 爬取网易首页所有的图片
package com.enation.newtest; import java.io.File; import java.io.FileNotFoundException; import java. ...
爬虫—Selenium爬取JD商品信息
一,抓取分析本次目标是爬取京东商品信息,包括商品的图片,名称,价格,评价人数,店铺名称.抓取入口就是京东的搜索页面,这个链接可以通过直接构造参数访问https://search.jd.com/Sea ...
如何利用python爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: LSGOGroup PS:如有需要Python学习资料的小伙伴可以 ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...
python itchat 爬取微信好友信息
原文链接:https://mp.weixin.qq.com/s/4EXgR4GkriTnAzVxluJxmg 「itchat」一个开源的微信个人接口,今天我们就用itchat爬取微信好友信息,无图言虚 ...
简单的python爬虫--爬取Taobao淘女郎信息
最近在学Python的爬虫,顺便就练习了一下爬取淘宝上的淘女郎信息:手法简单,由于淘宝网站本上做了很多的防爬措施,应此效果不太好! 爬虫的入口:https://mm.taobao.com/json/r ...
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...

随机推荐

你不知道的JavaScript--Item33 跨域总结与解决的方法
一.神马是跨域(Cross Domain) 说白点就是post.get的url不是你当前的站点,域名不同.比如在*aaa.com/a.html*里面,表单的提交action是bbb.com/b.htm ...
win7_32虚拟机网络设置
今天工作中同事需要使用ie8的浏览器,组内同事没有,想到自己玩的win7_32虚拟机上有ie8,想让对方连接使用,发现自己本机可以远程连接,同事不能连接排查原因:可能虚拟机使用的是nat模式连接的网 ...
C语言之基本算法40—字符串删除元音字母倒序输出
//字符串,数组 /* ================================================================== 题目: 输入一行字符,将辅音字母按反序输出 ...
C# Interactive Walkthrough
C# Interactive Walkthrough
poj--1274--The Perfect Stall(匈牙利裸题)
The Perfect Stall Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 21868 Accepted: 980 ...
Iframe 用法的详细讲解
1转自:https://blog.csdn.net/judyge/article/details/51786064 zIframe 用法的详细讲解把iframe解释成“浏览器中的浏览器“很是恰当 & ...
Android对话框与Activity共存时的异常
异常提示信息 01-01 18:30:38.630: E/WindowManager(14537): Activity com.jack.outstock.activity.ManageCustomA ...
PCB Genesis增加点阵字实现原理
我们采用Genesis增加点阵字时,用Genesis增加Canned Text即可,但奥宝中文不支持,且字符种类是有限的呀不过没关系,没有自己造呀.在这里我分享一种增加点阵字的实现方法一.通过代码 ...
SiteMesh3使用实例和详解
一.SiteMesh介绍 SiteMesh是一个网页布局和修饰的框架,利用它可以将网页的内容和页面结构分离,以达到页面结构共享的目的.[来自百度百科] 通俗的理解就是,SiteMesh把页面中变化的和 ...
selenium3 + Python - 处理浏览器弹窗(转载)
作者:Real_Tino 转载链接:https://blog.csdn.net/real_tino/article/details/59068827 我们在浏览网页时经常会碰到各种花样的弹窗,在做UI ...

单个图片获取-爬取网易"数读"信息数据(暴涨的房租，正在摧毁中国年轻人的生活)

单个图片获取-爬取网易"数读"信息数据(暴涨的房租，正在摧毁中国年轻人的生活)的更多相关文章

随机推荐

热门专题