爬取genome的网页和图片

# -*- coding: utf-8 -*-

# @Time    : 2018/03/08 10:32

# @Author  : cxa

# @File    : gethtmlandimg.py

# @Software: PyCharm

import requests

from fake_useragent import UserAgent as UA

from lxml import html

import traceback

import os

url = "http://www.genome.jp/kegg-bin/show_pathway?1520394169137283/hsa01100.args"

html_path = os.path.join(os.getcwd(), url.split("/")[-1].replace("args", "html"))

img_path = os.path.join(os.getcwd(), url.split("/")[-1].replace("args", "png"))

headers = {'Accept': 'text/html, application/xhtml+xml, image/jxr, */*',

           'Accept - Encoding': 'gzip, deflate',

           'Accept-Language': 'zh-Hans-CN, zh-Hans; q=0.5',

           'Connection': 'Keep-Alive',

           'User-Agent': UA().random}

img_xapth = "//div[@class='map']/div[@class='image']/img[@name='pathwayimage']/@src"

main_url = "http://www.genome.jp"

def get_img(buff):

    with open(img_path, "wb") as fs:

        fs.write(buff)

req = requests.get(url, timeout=20, headers=headers)

try:

    if req.status_code == requests.codes.ok:

        get_html = req.text

        root = html.fromstring(get_html)

        imgurl = main_url + root.xpath(img_xapth)[0]

        with open(html_path, "w") as fs:

            fs.write(get_html.replace(root.xpath(img_xapth)[0],"./{}".format(url.split("/")[-1].replace("args", "png"))))

        img_req = requests.get(imgurl, headers=headers)

        if img_req.status_code == requests.codes.ok:

            buff = img_req.content

            get_img(buff)

        else:

            img_req.raise_for_status()

    else:

        req.raise_for_status()

except:

    print(traceback.format_exc())

爬取genome的网页和图片的更多相关文章

python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
Node JS爬虫：爬取瀑布流网页高清图
原文链接:Node JS爬虫:爬取瀑布流网页高清图静态为主的网页往往用get方法就能获取页面所有内容.动态网页即异步请求数据的网页则需要用浏览器加载完成后再进行抓取.本文介绍了如何连续爬取瀑布流网页 ...
Python爬取贴吧中的图片
#看到贴吧大佬在发图,准备盗一下 #只是爬取一个帖子中的图片 1.先新建一个scrapy项目 scrapy startproject TuBaEx 2.新建一个爬虫 scrapy genspider ...
初识python 之爬虫：爬取某网站的壁纸图片
用到的主要知识点:requests.get 获取网页HTMLetree.HTML 使用lxml解析器解析网页xpath 使用xpath获取网页标签信息.图片地址request.urlretrieve ...
python网络爬虫之使用scrapy自动爬取多个网页
前面介绍的scrapy爬虫只能爬取单个网页.如果我们想爬取多个网页.比如网上的小说该如何如何操作呢.比如下面的这样的结构.是小说的第一篇.可以点击返回目录还是下一页对应的网页代码: 我们再看进入后面 ...
Python 网络爬虫 005 (编程) 如何编写一个可以下载（或叫：爬取）一个网页的网络爬虫
如何编写一个可以下载(或叫:爬取)一个网页的网络爬虫使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:P ...
Python 爬取煎蛋网妹子图片
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-24 10:17:28 # @Author : EnderZhou (z ...
初识python 之爬虫：使用正则表达式爬取“古诗文”网页数据
通过requests.re(正则表达式) 爬取"古诗文"网页数据. 详细代码如下: #!/user/bin env python # author:Simple-Sir # tim ...
python爬取某站上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间开始学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSou ...

随机推荐

Struts2(五.用户注册的实现及整合Action的配置方法)
一.用户注册功能 register.jsp页面若是jquery ajax方式提交给action,还要回到jquery,控制权在jquery若是表单方式提交给action,控制权交给action &l ...
Sersync实时备份服务部署实践
z 变换
1. z 变换单位脉冲响应为 \(h[n]\) 的离散时间线性时不变系统对复指数输入 \(z^n\) 的响应 \(y[n]\) 为 \[ \tag{1} y[n] = H(z) z^{n}\] 式中 ...
mysql语法总结
增: 删: 改: 查: 索引: 建: alter table: sql一些常用的经典语句,最后是select as的用法
XML序列化器读取XML数据
PS:标题我还真的不知道该怎么取比较好,大家将就下吧^_^ 场景:上周接到一个任务,要求我把ASP写的会员充值功能,用ASP.NET复制一遍,没有给我需求文档,就是让我根据代码去分析业务逻辑,然后看到 ...
C# 测试代码的运行时间
使用以下方法可以准确的记录代码运行的耗时. System.Diagnostics.Stopwatch stopwatch = new Stopwatch(); stopwatch.Start(); / ...
关于C标准
关于C标准 1. 前言本文从英文 C-FAQ (2004 年 7 月 3 日修订版) 翻译而来.本文的中文版权为朱群英和孙云所有. 本文的内容可以自由用于个人目的,但是不可以未经许可出版发行. ...
hbase表的写入
hbase列式存储给我们画了一个很美好的大饼,好像有了它,很多问题都可以轻易解决.但在实际的使用过程当中,你会发现没有那么简单,至少一些通用的准则要遵守,还需要根据业务的实际特点进行集群的参数调整,不 ...
Hibernate映射关系之_多对多
多对多关系由于效率的原因,实际中会拆成相互的一对多的关系,不再累述
【bzoj1260】[CQOI2007]涂色paint 区间dp
题目描述给出一个序列,每次可以给一段染成同一种颜色,问最少要染多少次能够染成给定方案. 输入输入仅一行,包含一个长度为n的字符串,即涂色目标.字符串中的每个字符都是一个大写字母,不同的字母代表不同 ...

爬取genome的网页和图片

爬取genome的网页和图片的更多相关文章

随机推荐

热门专题