python 爬取国家粮食局东北地区玉米收购价格监测信息

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import re
import sys
import time
import urllib
import urllib.request
from datetime import datetime

def get_html(url):
   try:
       request = urllib.request.Request(url)
       WebPageContent = urllib.request.urlopen(request)
       return WebPageContent.read().decode('UTF-8')
   except urllib.error.HTTPError as e:
       print(e)
       return "Error"

def cbk(a, b, c):
   #显示当前下载进度
   persent = 100.00 * a * b / c
   if persent > 100:
       persent = 100
   sys.stdout.write("{0} %\r".format(round(persent,2)))
   sys.stdout.flush()

def get_image(WebPageContent, re_rule, output_path):
   image = re.compile(re_rule)
   image_url_list = re.findall(image, WebPageContent)
   for part_url in image_url_list:
       image_url = "%s%s.jpg" % ("http://www.chinagrain.gov.cn/", part_url)
   print(image_url)
   try:
       urllib.request.urlretrieve(url=image_url, filename=output_path, reporthook=cbk)
   except IsADirectoryError as e:
       print(e)



if __name__ == '__main__':
   #__init__
   url = "http://www.chinagrain.gov.cn/n787423/c1163380/content.html"
   re_rule = r'src="../../(.+?).jpg"'
   output_path = ""

   starttime = datetime.now()
   WebPageContent = get_html(url=url)
   #print(WebPageContent)
   get_image(WebPageContent=WebPageContent, re_rule=re_rule, output_path=output_path)
   endtime = datetime.now()
   print("Runtime is: %s s" % (endtime-starttime).seconds)

python 爬取国家粮食局东北地区玉米收购价格监测信息的更多相关文章

Python爬取网址中多个页面的信息
通过上一篇博客了解到爬取数据的操作,但对于存在多个页面的网址来说,使用上一篇博客中的代码爬取下来的资料并不完整.接下来就是讲解该如何爬取之后的页面信息. 一.审查元素鼠标移至页码处右键,选择检查元素 ...
Python 爬取北京市政府首都之窗信件列表-[信息展示]
日期:2020.01.25 博客期:133 星期六 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] //博客总体说明 1.准备工作 2.爬取工作 3.数据处理 4.信息展示(本期博客 ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
告诉你那里最受欢迎，python爬取全国13个城市旅游数据
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
Python爬取跑男的评论，看看大家都在看谁吧
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python,作者: J哥 Python爬取爬取腾讯视频弹幕视频讲解 http ...
毕设之Python爬取天气数据及可视化分析
写在前面的一些P话:(https://jq.qq.com/?_wv=1027&k=RFkfeU8j) 天气预报我们每天都会关注,我们可以根据未来的天气增减衣物.安排出行,每天的气温.风速风向. ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...

随机推荐

详解tomcat的连接数与线程池
前言在使用tomcat时,经常会遇到连接数.线程数之类的配置问题,要真正理解这些概念,必须先了解Tomcat的连接器(Connector). 在前面的文章详解Tomcat配置文件server.xm ...
Kotlin实现LeetCode算法题之String to Integer (atoi)
题目String to Integer (atoi)(难度Medium) 大意是找出给定字串开头部分的整型数值,忽略开头的空格,注意符号,对超出Integer的数做取边界值处理. 方案1 class ...
微信小程序入门（一）
想必当你对官方文档了解地差不多的时候,一颗跃跃欲试的心就开始骚动了吧. 开发小程序之前的准备工作: 1).准备一个域名 2).准备一台云服务器 3).搭建小程序的后台,博主的小程序后台请求的的是自己写 ...
SQL中锁表语句简单理解(针对于一个表)
锁定数据库的一个表复制代码代码如下: SELECT * FROM table WITH (HOLDLOCK) 注意: 锁定数据库的一个表的区别复制代码代码如下: SELECT * FROM tab ...
Dubbo源码学习--环境搭建及基础准备(ServiceLoader、ExtensionLoader)
环境搭建 Github上下载Dubbo最新发布版本,楼主下载版本为2.5.7. cd到源码解压目录,maven编译,命令为: mvn clean install -Dmaven.test.skip 生 ...
Linux下安装ActiveMQ CPP
ActiveMQ CPP ActiveMQ CPP是用C++语言访问ActiveMQ的客户端开发库,也称cms(cpp message service),安装cms开发库需要先安装一些基础库. 如下: ...
Machine Learning &&Deep Learning&&Sklearn
参考资料:https://github.com/ty4z2008/Qix/blob/master/dl.md https://morvanzhou.github.io/ 如图,先了解一下都有什么模型方 ...
Python进阶---面向对象第二弹
python类的继承原理一.类的继承顺序 class A(object): def test(self): print('from A') passclass B(A): # def test(se ...
删除一个大表导致其他表Opening tables
ViewPager +无限轮播+滑动速度修改+指示小点
养成习惯,做过代码记录总结. ViewPager 使用记录 1. ViewPage 位于V4包. 2.主要用来做banner轮播. 3.原理:适配器重用提高效率,与listview等一个原理. 下面记 ...

python 爬取国家粮食局东北地区玉米收购价格监测信息

python 爬取国家粮食局东北地区玉米收购价格监测信息的更多相关文章

随机推荐

热门专题