Python 爬取图书图片和地址

#-*- coding:utf-8 -*-

import xlwt

import urllib

import re

def getHtml(url):

    page = urllib.urlopen(url)

    html = page.read()

    return html

def get_book_message(url):

    page = urllib.urlopen(url)

    html = page.read()

    urls = []

    page.close()

    imgReg = r'src="(.+?\.jpg)"'

    titlReg = r'rel="bookmark">(.+?)</a>'

    divre = re.compile(imgReg)

    divreTitle = re.compile(titlReg)

    divlist = re.findall(divre,html)

    titleList = re.findall(divreTitle,html)

    bookMessage = {}

    for url,title in zip(divlist,titleList):

        bookMessage[title] = url

    return bookMessage

def run():

    value = get_book_message('http://www.allitebooks.com/')

    workbook = xlwt.Workbook(encoding = 'ascii')

    worksheet = workbook.add_sheet('MyBookMessage')

    worksheet.write(0,1,u'地址')

    worksheet.write(0,2,u'标题')

    index = 1

    for x in value:

        worksheet.write(index,1,x)

        worksheet.write(index,2,value[x])

        index = index + 1

    workbook.save('MyBookMessage.xls')

run()

Python 爬取图书图片和地址的更多相关文章

Python爬取谷歌街景图片
最近有个需求是要爬取街景图片,国内厂商百度高德和腾讯地图都没有开放接口,查询资料得知谷歌地图开放街景api 谷歌捷径申请key地址:https://developers.google.com/maps ...
利用Python爬取网页图片
最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: Python 3.6官网下载我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片 ...
Python 爬取美女图片，分目录多级存储
最近有个需求:下载https://mm.meiji2.com/网站的图片. 所以简单研究了一下爬虫. 在此整理一下结果,一为自己记录,二给后人一些方向. 爬取结果如图: 整体研究周期 2-3 天, ...
python爬取网页图片（二）
从一个网页爬取图片已经解决,现在想要把这个用户发的图片全部爬取. 首先:先找到这个用户的发帖页面: http://www.acfun.cn/u/1094623.aspx#page=1 然后从这个页面中 ...
用python 爬取网页图片
import re import string import sys import os import urllib url="http://tieba.baidu.com/p/252129 ...
python爬取网页图片
# html:网页地址 def getImg2(html): soup = BeautifulSoup(html, 'html.parser') href_regex = re.compile(r'^ ...
python爬取百度图片
import requests import re from urllib import parse import os from threading import Thread def downlo ...
python爬取许多图片的代码
from bs4 import BeautifulSoup import requests import os os.makedirs('./img/', exist_ok=True) URL = & ...
python 爬取妹子
爬取妹子图片网址:https://www.mzitu.com/jiepai/ 2019-06-13 环境WIN10 1903 python 3.7.3 个人习惯先在IDLE中进行调试 import ...

随机推荐

小白学phoneGap《构建跨平台APP：phoneGap移动应用实战》连载三（通过实例来体验生命周期）
4.1.2 通过实例来亲身体验Activity的生命周期上一小节介绍了Activity生命周期中的各个过程,本小节将以一个简单的实例来使读者亲身体验到Activity生命周期中的各个事件. 在Ec ...
Python3+selenium3环境搭建笔记
系统:win7 64位浏览器:ie9 64位 chrome70 32位 firefox63 64位python版本:3.6.5 Windows x86 executable installersele ...
fpga Verilog hdl 按键消抖部分程序讲解
module debounce(clk_in,rst_in,key_in,key_pulse,key_state); input clk_in;//system clock input rst_in; ...
python基础教程总结9——模块，包，标准库
1. 模块在python中一个文件可以被看成一个独立模块,而包对应着文件夹,模块把python代码分成一些有组织的代码段,通过导入的方式实现代码重用. 1.1 模块搜索路径导入模块时,是按照sys ...
UVA 11997 K Smallest Sums （多路归并）
从包含k个整数的k个数组中各选一个求和,在所有的和中选最小的k个值. 思路是多路归并,对于两个长度为k的有序表按一定顺序选两个数字组成和,(B表已经有序)会形成n个有序表 A1+B1<=A1+B ...
groupmod - 修改群组
总览 SYNOPSIS groupmod [-g gid [-o]] [-n group_name ] group 描述 DESCRIPTION groupmod 命令会参照你命令列 ...
2018.4.22 深入理解Java的接口和抽象类
前言对于面向对象编程来说,抽象是他的一大特征之一.在Java中,可以通过两种形式来体现oop 的抽象:接口和抽象类.这两者有太多相似的地方,又有太多不同的地方.很多人在初雪的时候会以为他们可以随意互 ...
Paper: 《Bert》
Bert: Bidirectional Encoder Representations from Transformers. 主要创新点:Masked LM 和 Next sentence predi ...
ARC中__weak;__strong;__unsafe_unretained;修饰词
测试代码: // Human.h代码 @interface Human : NSObject @property (nonatomic, weak) Cat *pinkCat; @property ( ...
matplotlib绘图(四)
控制文字属性的方法: 所有的方法都会返回一个matplotlib.text.Text对象文本注释: annnotate() xy参数设置箭头指示的位置,xytext参数设置注释文字的位置 arro ...

Python 爬取图书图片和地址

Python 爬取图书图片和地址的更多相关文章

随机推荐

热门专题