python访问网站

#!/usr/bin/env python

# encoding: utf-8

from functools import wraps

import requests

from lxml import html

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

import time

import random

first_num = random.randint(55, 62)

third_num = random.randint(0, 3200)

fourth_num = random.randint(0, 140)

class FakeChromeUA:

    os_type = [

                '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',

                '(Macintosh; Intel Mac OS X 10_12_6)'

               ]

    chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num)

    @classmethod

    def get_ua(cls):

        return ' '.join(['Mozilla/5.0', random.choice(cls.os_type), 'AppleWebKit/537.36',

                         '(KHTML, like Gecko)', cls.chrome_version, 'Safari/537.36']

                        )

HEADERS = {

    'User-Agent': FakeChromeUA.get_ua(),

    'Accept-Encoding': 'gzip, deflate, sdch',

    'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',

    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

    'Connection': 'keep-alive'

}

URL="https://www.taobao.com/"

MAX_RETRY=3  #最大尝试次数

XPATH="//div[@class='cat-title']"  #需要检查的xpath

def request(url):

    session=requests.Session()

    req=session.get(url,headers=HEADERS)

    if req.status_code==requests.codes.ok:

        req.encoding=req.apparent_encoding

        return req.text

    return None

def getdriver(url):

    co=Options()

    prefs = {

        'profile.default_content_setting_values': {

            'images': 2

        }

    }

    co.add_experimental_option('prefs', prefs)

    co.add_argument('lang=zh_CN.UTF-8')

    co.add_argument('--headless')

    co.add_argument('--nogpu')

    driver=webdriver.Chrome(chrome_options=co)

    driver.get(url)

    time.sleep(3)

    source=driver.page_source

    time.sleep(3)

    print("关闭chrome浏览器")

    driver.close()

    return source

def newdecorator(url,retry,check_xpath):

  def decorator(func):

      @wraps(func)

      def log(*args,**kwargs):

          global retry

          retry=1

          try:

              while retry<3:

                 source=request(url)

                 if source:

                     print("开启requests模块")

                     print("=" * 50)

                     root=html.fromstring(source)

                     nodelist=root.xpath(check_xpath)

                     if nodelist:

                         return func(source)

                     else:

                         print("该网站为ajax生成的网页，开始启用chrome模式")

                         try:

                            source=getdriver(url)

                         except:

                             print("获取内容失败，再次启动谷歌浏览器")

                             source = getdriver(url)

                         break

                 else:

                     retry+=1

              return func(source)

          except Exception as e:

              print(e.args)

      return log

  return decorator

@newdecorator(url=URL,retry=MAX_RETRY,check_xpath=XPATH)

def getitem(source):

    root=html.fromstring(source)

    nodes=root.xpath(XPATH)

    print("="*50)

    print("开始解析网页")

    print("=" * 50)

    print("获取商品分类")

    for item in nodes:

        name=item.xpath(".//text()")

        print(name[1])

if __name__ == '__main__':

    getitem()

python访问网站的更多相关文章

python 携带cookie访问网站（python接口测试post）
最近在使用自己研究性能测试工具的时候想到,使用python向服务器不断发送数据以作为并发测试.大概情况如下: #coding=utf-8 import urllib2 import urllib im ...
Python监控网站运行状况
利用python便捷的类库,可以方便快速实现对网站运行状况的监控,主要包括对80端口(即网站运行端口),其它tcp服务等端口的监控就可以了解服务器大概的一个运行状况,使用的库主要为urllib2及so ...
通过cookies跳过验证码登陆页面，直接访问网站的其它URL
我每次手动访问去NN网的一家酒店,就不需要登陆,一旦我用脚本打开就会让我登陆,而登陆页面又有验证码,不想识别验证码,所以就想:“通过cookies跳过验证码登陆页面,直接访问网站的其它URL” 转 ...
Python Jupyter 网站编辑器
Python Jupyter 网站编辑器 jupyter 是 python的网站编辑器可以直接在网页内编写python代码并执行,内置是通过ipython来调用的.很方便灵活. 安装 1.安装ipyt ...
Windows Server 2008 R2 下配置证书服务器和HTTPS方式访问网站
http://www.cnblogs.com/zhongweiv/archive/2013/01/07/https.html 配置环境了解HTTPS 配置CA证书服务器新建示例网站并发布在IIS ...
配置Java SSL 访问网站证书
最近在开发 Java 访问 Azure ServiceBus 时遇到SSL证书问题,导致JAVA报错,不能正常访问,报错信息如下: javax.net.ssl.SSLException: Connec ...
htaccess文件还可以被用来把访问网站的流量劫持到黑客的网站
看是否有文件上传操作(POST方法), IPREMOVED--[01/Mar/2013:06:16:48-0600]"POST/uploads/monthly_10_2012/view.ph ...
iptables的conntrack表满了导致访问网站很慢
iptables的conntrack表满了导致访问网站很慢转载自:https://my.oschina.net/jean/blog/189935 检查系统conntrack表是否满现象:突然发现访 ...
js判断是手机还是电脑访问网站
js判断是手机还是电脑访问网站 <script type="text/javascript"> <!- ...

随机推荐

解决：Unable to execute dex: GC overhead limit exceeded
转自http://blog.sina.com.cn/s/blog_6e334dc70101hnug.html Android打包时下面的错误: Unable to execute dex: GC ov ...
Go基础篇【第4篇】: 内置库模块 bufio
bufio包实现了有缓冲的I/O.它包装一个io.Reader或io.Writer接口对象,创建另一个也实现了该接口,且同时还提供了缓冲和一些文本I/O的帮助函数的对象. 即:为了解决CPU与磁盘IO ...
jquery用正则表达式验证密码强度
/** * 不加paste鼠标粘贴不起作用 * 不加input第一次粘贴的时候不变 * 加上input和focus可以兼容表情 * ke ...
[译]Python - socket.error: Cannot assign requested address
原文来源: https://stackoverflow.com/questions/48306528/python-socket-error-cannot-assign-requested-addre ...
web四则运算
目录 1.coding.net地址 2.PSP 3.Information Hiding, Interface Design, Loose Coupling 4.计算模块接口的设计与实现过程 5.计算 ...
typescript 贪吃蛇[学习过程中，模仿的一个例子]
代码实现ts: 1 'use strict' module Main { const FloorType = { space: "space", snack: "body ...
BZOJ4484 JSOI2015最小表示（拓扑排序+bitset）
考虑在每个点的出边中删除哪些.如果其出边所指向的点中存在某点能到达另一点,那么显然指向被到达点的边是没有用的.于是拓扑排序逆序处理,按拓扑序枚举出边,bitset维护可达点集合即可. #include ...
[洛谷P4001][BJOI2006]狼抓兔子
题目大意:给你一个n*m的网格图,有三种边,横的,纵的和斜的,要你求出它的最小割题解:网络流卡点:1.无向图,反向弧容量应和正向弧相同 C++ Code: #include<cstdio&g ...
2018牛客多校第一场 D.Two Graphs
题意: n个点,m1条边的图E1,n个点,m2条边的图E2.求图E2有多少子图跟图E1同构. 题解: 用STL的全排列函数next_permutation()枚举映射.对于每一种映射枚举每一条边判断合 ...
ACM International Collegiate Programming Contest, Egyptian Collegiate Programming Contest (ECPC 2015)
A.Arcade Game(康拓展开) 题意: 给出一个每个数位都不同的数n,进行一场游戏.每次游戏将n个数的每个数位重组.如果重组后的数比原来的数大则继续游戏,否则算输.如果重组后的数是最大的数则算 ...

python访问网站

python访问网站的更多相关文章

随机推荐

热门专题