1 #思路 : 利用beautiful 省去了正则这个麻烦事,把页面搞出来然后提取js,css,img ,提取命令使用getopt 很方便,使用前需要确保已经安装了beautiful soup,如没有安#装请 到 http://www.crummy.com/software/BeautifulSoup/ 下载
  2 from bs4 import BeautifulSoup
  3 import urllib, urllib2,time
  4 import sys,os
  5 import getopt
  6 reload(sys)  
  7 sys.setdefaultencoding("utf-8")
  8 
  9 #set default value 
 10 clock_time = 60
 11 target_url = "http://m.sohu.com"
 12 target_lib = "/tmp/backup"
 13 
 14 def usage() :
 15     print "simple like this :"
 16     print "main.py -d 60 -u http://m.sohu.com -o \tmp\backup"
 17 
 18 def getHtml(target_url,target_lib,time) :
 19     response = urllib.urlopen(target_url)
 20     Html= response.read()
 21     target_lib=target_lib+'/'+time
 22     os.makedirs(target_lib)
 23     #save html
 24     print target_lib
 25     try :
 26         f = open(target_lib+"/index.html","w")
 27         f.write(Html)
 28         f.close()
 29         print "save index.html ok!"
 30     except Exception,e:
 31         print str(e)
 32     
 33     # save picture     
 34     os.makedirs(target_lib+"/images")
 35     soup = BeautifulSoup(Html)
 36     f=soup.find_all('img')
 37     if f != None :
 38         for i in f :
 39             pic_url=i.get('src')
 40             response = urllib.urlopen(pic_url)
 41             pic_url=pic_url.split('/')
 42             pic= response.read()
 43             try :
 44                 f = open(target_lib+"/images/"+pic_url[-1],"wb")
 45                 f.write(pic)
 46                 f.close()
 47             except Exception,e :
 48                 print str(e)
 49                            
 50     print "save picture ok!"
 51     
 52     #save js 
 53     os.makedirs(target_lib+"/js")
 54     f=soup.find_all('script')
 55     noName=0
 56     if f != None :
 57         for i in f :
 58             if i.get('src')!=None :
 59                 js_url=i.get('src')
 60                 response = urllib.urlopen(js_url)
 61                 js_url=js_url.split('/')
 62                 js= response.read()
 63                 try :
 64                     f = open(target_lib+"/js/"+js_url[-1],"w")
 65                     f.write(js)
 66                     f.close()
 67                 except Exception,e :
 68                     print str(e)
 69             else :  # js 可以嵌入在文档里 保存为wuming
 70                 f = open(target_lib+"/js/"+"wuming"+str(noName)+".js","w")
 71                 noName+=1
 72                 f.write(i.string)
 73                 f.close()
 74     print "save js ok!"    
 75     
 76     #save css
 77     os.makedirs(target_lib+"/css")
 78     f=soup.find_all('link')
 79     if f != None :
 80             for i in f :
 81                 if i.get('type') != None and i.get('type') == "text/css" :
 82                     css_url=i.get('href')
 83                     response = urllib.urlopen(css_url)
 84                     css_url=css_url.split('/')
 85                     css= response.read()
 86                     try :
 87                         f = open(target_lib+"/css/"+css_url[-1],"w")
 88                         f.write(css)
 89                         f.close()
 90                     except Exception,e :
 91                         print str(e)
 92     print "save css ok!"
 93     
 94 def main() :
 95     global clock_time
 96     global target_url
 97     global target_lib
 98     
 99     if not len(sys.argv[1:]) :
         usage()
     try :
         opts,args = getopt.getopt(sys.argv[1:], "d:u:o:",[])
     except getopt.GetoptError as err :
         print str(err) 
         usage()
         
     for o,a in opts :
         if o in ("-d") :
             clock_time = a
         if o in ("-u") :
             target_url = a
         if o in ("-o") :
             target_lib = a
     
     lastTime = int(time.time())
     timeArray = time.localtime(lastTime)
     otherStyleTime = time.strftime("%Y%m%d%H%M", timeArray)    
     getHtml(target_url,target_lib,otherStyleTime)
     
     while True :
         nowTime=int(time.time())
         if nowTime - lastTime >= 60 :
             lastTime=nowTime
             timeArray = time.localtime(nowTime)
             otherStyleTime = time.strftime("%Y%m%d%H%M", timeArray)            
             getHtml(target_url,target_lib,otherStyleTime)     
             print "update at time" + otherStyleTime
 if __name__=="__main__" :
     main() 

py 爬取页面http://m.sohu.com 并存储的更多相关文章

  1. [实战演练]python3使用requests模块爬取页面内容

    本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...

  2. MinerHtmlThread.java 爬取页面线程

    MinerHtmlThread.java 爬取页面线程 package com.iteye.injavawetrust.miner; import org.apache.commons.logging ...

  3. 【java】使用URL和CookieManager爬取页面的验证码和cookie并保存

    使用java的net包和io包下的几个工具爬取页面的验证码图片并保存到本地. 然后可以把获取的cookie保存下来,做进一步处理.比如通过识别验证码,进一步使用验证码和用户名,密码,保存下来的cook ...

  4. scrapy中使用selenium来爬取页面

    scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...

  5. 爬取豆瓣电影TOP 250的电影存储到mongodb中

    爬取豆瓣电影TOP 250的电影存储到mongodb中 1.创建项目sp1 PS D:\scrapy> scrapy.exe startproject douban 2.创建一个爬虫 PS D: ...

  6. py爬取英文文档学习单词

    最近开始看一些整本整本的英文典籍,虽然能看个大概,但是作为四级都没过的我来说还是有些吃力,总还有一部分很关键的单词影响我对句子的理解,因为看的是纸质的,所以查询也很不方便,于是想来个突击,我想把程序单 ...

  7. python 爬虫之requests爬取页面图片的url,并将图片下载到本地

    大家好我叫hardy 需求:爬取某个页面,并把该页面的图片下载到本地 思考: img标签一个有多少种类型的src值?四种:1.以http开头的网络链接.2.以“//”开头网络地址.3.以“/”开头绝对 ...

  8. python爬取豌豆荚中的详细信息并存储到SQL Server中

    买了本书<精通Python网络爬虫>,看完了第6章,我感觉我好像可以干点什么:学的不多,其中的笔记我放到了GitHub上:https://github.com/NSGUF/PythonLe ...

  9. Python 爬取美女图片,分目录多级存储

    最近有个需求:下载https://mm.meiji2.com/网站的图片. 所以简单研究了一下爬虫. 在此整理一下结果,一为自己记录,二给后人一些方向. 爬取结果如图:   整体研究周期 2-3 天, ...

随机推荐

  1. C语言二维数组作为函数参数

    设有整型二维数组a[3][4]如下:0   1   2   34   5   6   78   9  10  11 它的定义为:    int a[3][4]={{0,1,2,3},{4,5,6,7} ...

  2. 剑指offer——把字符串转换成整数(c++)

    题目描述请你写一个函数StrToInt,实现把字符串转换成整数这个功能.当然,不能使用atoi或者其他类似的库函数. 示例 1:输入: " -42"输出: -42解释: 第一个非空 ...

  3. ValueError: option names {'--alluredir'} already added 报错

    运行测试用例 import pytest from WXP2P_2.test_data2.login_case import logindata_error1,logindata_error2,log ...

  4. Robot Framework(十二) 执行测试用例——配置执行

    3.4配置执行 本节介绍可用于配置测试执行或后处理输出的不同命令行选项.与生成的输出文件相关的选项将在下一节中讨论. 3.4.1选择测试用例 通过测试套件和测试用例名称 按标签名称 当没有测试匹配选择 ...

  5. django 第一次运行出错

    直接运行整个项目正常,直接运行url文件报错 报错内容: E:\Python\python.exe D:/Python储存文件/ceshiweb/ceshiweb/urls.pyTraceback ( ...

  6. C#中Lock关键字的使用

    C# 中的 Lock 语句通过隐式使用 Monitor 来提供同步功能.lock 关键字在块的开始处调用 Enter,而在块的结尾处调用 Exit. 通常,应避免锁定 public 类型,否则实例将超 ...

  7. PAT (Basic Level) Practise (中文)-1036. 跟奥巴马一起编程(15)

    PAT (Basic Level) Practise (中文)-1036. 跟奥巴马一起编程(15)  http://www.patest.cn/contests/pat-b-practise/103 ...

  8. 初涉树形dp

    算是一个……复习以及进阶? 什么是树形dp 树形dp是一种奇妙的dp…… 它的一个重要拓展是和各种树形的数据结构结合,比如说在trie上.自动机上的dp. 而且有些时候还可以拓展到环加外向树.仙人掌上 ...

  9. [LUOGU] P1048 采药

    题目描述 辰辰是个天资聪颖的孩子,他的梦想是成为世界上最伟大的医师.为此,他想拜附近最有威望的医师为师.医师为了判断他的资质,给他出了一个难题.医师把他带到一个到处都是草药的山洞里对他说:" ...

  10. 【php】 php.ini文件位置解析

    配置文件(php.ini)在 PHP 启动时被读取.对于服务器模块版本的 PHP,仅在 web 服务器启动时读取一次.对于CGI 和 CLI 版本,每次调用都会读取. php.ini 的搜索路径如下( ...