Python 爬取单个网页所需要加载的URL地址和CSS、JS文件地址

通过学习Python爬虫，知道根据正式表达式匹配查找到所需要的内容（标题、图片、文章等等）。而我从测试的角度去使用Python爬虫，希望爬取到访问该网页所需要的CSS、JS、URL，然后去请求这些地址，根据响应的状态码判断是否都可以成功访问。

代码

'''

Created on 2017-08-02  



@author: Lebb  


'''


import sys


import urllib2


import re


reload(sys)


sys.setdefaultencoding('utf-8')



url = "https://www.szrtc.cn/"


http = "http"


request = urllib2.Request(url,headers=Headers)


responsecode = None


errorcount = 0


itemurl = url



def getResponse():


    try:


        response = urllib2.urlopen(request)


    except urllib2.HTTPError,he:


        print he.code


    except urllib2.URLError,ue:


        print ue.reason


    else :


        return response.read().decode('utf-8')



def getUrl():


    html = getResponse()


    patterncss ='<link href="(.*?)"'


    patternjs = '<script src="(.*?)"'


    patternimg = '<img src="(.*?)"'


    patternpage = '<a.*?href="(.*?)"'


    patternonclick = "openQuestion.*?'(.*?)'"


    href = re.compile(patterncss, re.S).findall(html)


    href += re.compile(patternimg, re.S).findall(html)


    href += re.compile(patternpage, re.S).findall(html)


    href += re.compile(patternjs, re.S).findall(html)


    href += re.compile(patternonclick, re.S).findall(html)


return href



def reasonCode():


    global errorcount


    itemurl = getUrl()


    for item1 in itemurl:


        if http in item1:


            sendurl = item1


        else:


            sendurl = url + item1


        try:


            print sendurl


            responseurl = urllib2.urlopen(sendurl,timeout=8)


        except urllib2.HTTPError,he:


            responsecode = he.code


            errorcount += 1


        except urllib2.URLError,ue:


            responsecode = ue.reason


            errorcount += 1


        else:


            responsecode = responseurl.getcode()


            if(responsecode != 200):


                errorcount += 1    


        print responsecode


        #return responsecode


    print errorcount

运行的结果：

错误截图：

实际上这条请求复制到浏览器是可以访问的，但是Python 的urllib2访问时，因为请求带中文参数，没有进行编码转换，导致报400错误。

尝试在代码中加入utf-8，还是没有效果，仍然报错。

这个问题先记下来，后面去找到其他解决办法

Python 爬取单个网页所需要加载的地址和CSS、JS文件地址的更多相关文章

python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
python爬取基础网页图片
python基础爬虫总结 1.爬取信息原理与浏览器客户端类似,向网站的服务器发送一个请求,该请求一般是url,也就是网址.之后服务器响应一个html页面给客户端,当然也有其他数据类型的信息,这些就是 ...
python爬取豆瓣小组700+话题加回复啦啦啦python open file with a variable name
需求:爬取豆瓣小组所有话题(话题title,内容,作者,发布时间),及回复(最佳回复,普通回复,回复_回复,翻页回复,0回复) 解决:1. 先爬取小组下,所有的主题链接,通过定位nextpage翻页获 ...
预加载（图片，css ,js）
图片预加载 new Image().src = 'http://img1.t.sinajs.cn/t35/skin/skin_008/skin.css'; //新浪(4) 非ie下预加载(js,css ...
Python抓取单个网页中所有的PDF文档
Github博文地址,此处更新可能不是很及时. 1.背景最近发现算法以及数据结构落下了不少(其实还是大学没怎么好好学,囧rz),考虑到最近的项目结构越来越复杂了,用它来练练思路,就打算复习下数据结构 ...
Python 爬取bangumi网页信息
1.数据库连接池 #######db.py########## import time import pymysql import threading from DBUtils.PooledDB im ...
python爬取动态网页2，从JavaScript文件读取内容
import requests import json head = {"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) ...
python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据
有写规则需要自己定义判断. import requests from selenium import webdriver import time def grasp(urlT): driver = w ...

随机推荐

Lumia 1520 IE mobile window.devicePixelRatio
Lumia 1520 IE11 mobile -> window.devicePixelRatio = 2.217964285714286 Lumia 1520 UAP 环境 -> win ...
CF209C Trails and Glades（欧拉路）
题意最少添加多少条边,使无向图有欧拉回路. n,m≤106 题解求出每个点的度数奇度数点需要连一条新边仅有偶度数点的连通块需要连两条新边答案为上面统计的新边数 / 2 注意:此题默认以1为起 ...
学习参考《Python基础教程（第3版）》中文PDF+英文PDF+源代码
python基础教程ed3: 基础知识列表和元组字符串字典流程控制抽象(参数作用域递归) 异常魔术方法/特性/迭代器模块/标准库文件 GUI DB 网络编程测试扩展python ...
whatis---查询一个命令执行什么功能
whatis命令是用于查询一个命令执行什么功能,并将查询结果打印到终端上. whatis命令在用catman -w命令创建的数据库中查找command参数指定的命令.系统调用.库函数或特殊文件名.wh ...
Symfony4中文文档: 安装和设置Symfony框架
安装和设置Symfony框架要创建新的Symfony应用程序, 首先确保使用的是PHP7.1 或更高版本并且已经安装Componser. 如果未安装, 请首先在系统上全局安装Componser. 如 ...
[ZJOI2012]旅游（树的直径）
[ZJOI2012]旅游题目描述到了难得的暑假,为了庆祝小白在数学考试中取得的优异成绩,小蓝决定带小白出去旅游~~ 经过一番抉择,两人决定将T国作为他们的目的地.T国的国土可以用一个凸N边形来表示 ...
java关闭资源，自制关闭资源工具类
在网上看到一篇关于关闭资源的正确方式:http://blog.csdn.net/bornforit/article/details/6896775 该博文中的总结: (1)使用finally块来关闭物 ...
bootstrap结合google code prettify的问题
发现prettify不能显示行号,于是上网找了解决方法: 只使用prettify的js的文件,不使用css文件,另外添加这段css: .com { color: #93a1a1; } .lit { c ...
jQuery模拟输出回车键
jQuery模拟输出回车键学习了:https://zhidao.baidu.com/question/1753748968579760068.html 原文少了个r var e = jQuery.E ...
java中hashmap和hashtable和hashset的区别
hastTable和hashMap的区别:(1)Hashtable是基于陈旧的Dictionary类的,HashMap是Java 1.2引进的Map接口的一个实现.(2)这个不同即是最重要的一点:Ha ...

Python 爬取单个网页所需要加载的地址和CSS、JS文件地址

Python 爬取单个网页所需要加载的URL地址和CSS、JS文件地址

Python 爬取单个网页所需要加载的地址和CSS、JS文件地址的更多相关文章

随机推荐

热门专题