lxml_time_代理

 import requests

 from pyquery import PyQuery as pq

 import json

 import jsonpath

 from lxml import etree

 import os

 import re

 import time

 html = '''

 <div>

     <ul>

          <li class="item-0">first item</li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>

          <li class="item-1 active"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a></li>

      </ul>

 </div>

 '''

 # html = requests.get('http://news.4399.com/gonglue/lscs/kptj/').content.decode('gbk')

 num = 0

 # def pq方法(url):

 #     global num

 #     html=requests.get(url).content.decode('gbk')

 #     doc = pq(html)

 #     items = doc('#dq_list > li').items()

 #     # print(doc)

 #     # print(type(doc))

 #     for item in items:

 #         url=item.find('img').attr('lz_src')

 #         num+=1

 #         print(str(num),url)

 #         url_content=requests.get(url).content

 #         name = item.find('.kp-name').text()

 #         with open('e:/py3/002/'+'{:0>4}'.format(str(num))+name+'.jpg','wb') as file:

 #             file.write(url_content)

 #         # print(url,name)

 def transformCodec(re_data):#ascii (gbk) 转 unicode

     try:

         re_data = re_data.decode('gbk')

     except Exception as error:

         print (error)

         print ('delete illegal string,try again...')

         pos = re.findall(r'decodebytesinposition([\d]+)-([\d]+):illegal',str(error).replace(' ',''))

         if len(pos)==1:

             re_data = re_data[0:int(pos[0][0])]+re_data[int(pos[0][1]):]

             re_data = transformCodec(re_data)

             return re_data

     return re_data

 def lxml方法(url):

     global num

     header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6756.400 QQBrowser/10.3.2473.400'}

     content=requests.get(url,headers=header).content

     html=content.decode('utf-8')

     # print(html.status_code)

     # print(content)

     # print(html)

     r=etree.HTML(html)

     # items=r.xpath("//div[@class='box10-content']//ul[@id='dq_list']/li/a/img/@lz_src")

     items=r.xpath("//div[@id='list']/table//tr")

     # print(items)

     for item in items:

         dl_ip=item.xpath("./td[1]/text()")

         dl_port=item.xpath("./td[2]/text()")

         dl_name=item.xpath("./td[5]/text()")

         num+=1

         dl_ip=dl_ip[0]+":" if len(dl_ip)>=1 else ''

         dl_port=dl_port[0]+"#" if len(dl_port)>=1 else ''

         dl_name=dl_name[0] if len(dl_name)>=1 else ''

         # print(len(dl_ip))

         # print(dl_ip)

         # print(r'{}{}{}'.format(dl_ip,dl_port,dl_name))

         with open("proxy.txt",'a',encoding='utf-8') as file:

             file.write('{}{}{}\n'.format(dl_ip,dl_port,dl_name))

         # lzcontent=requests.get(lzsrc).content

         # with open('e:/py3/004/'+'{:0>4}'.format(str(num))+'_'+kpname+'.jpg','wb')as file:

         #     file.write(lzcontent)

 if __name__ == '__main__':

     with open("proxy.txt", 'w', encoding='utf-8') as file:

             file.write(str(time.localtime()[0])+'_'+str(time.localtime()[1])+'_'+str(time.localtime()[2])+'_采集：\n')

     # url='https://www.kuaidaili.com/free/inha/1/'

     for i in range(1,11):

         print('第'+str(i)+'次：\n')

         url2 = r'https://www.kuaidaili.com/free/inha/'+str(i)+r'/'

         print(url2)

         lxml方法(url2)

         time.sleep(5)

     # header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6756.400 QQBrowser/10.3.2473.400'}

     # pq方法()

     # print(str(time.localtime()[0])+'_'+str(time.localtime()[1])+'_'+str(time.localtime()[2]))

     print(str(num)+' ok!')

     # 创建目录

     '''

     for dirnum in range(1,100):

         dirnum2='{:0>3}'.format(str(dirnum))

         mkpath="e:\\py3\\{}\\".format(dirnum2)

         print(mkpath)

         print('已存在！') if os.path.exists(mkpath) else os.makedirs(mkpath)

     '''

lxml_time_代理的更多相关文章

【原】谈谈对Objective-C中代理模式的误解
[原]谈谈对Objective-C中代理模式的误解本文转载请注明出处 —— polobymulberry-博客园 1. 前言这篇文章主要是对代理模式和委托模式进行了对比,个人认为Objective ...
nginx配置反向代理或跳转出现400问题处理记录
午休完上班后,同事说测试站点访问接口出现400 Bad Request Request Header Or Cookie Too Large提示,心想还好是测试服务器出现问题,影响不大,不过也赶紧上 ...
Visual Studio Code 代理设置
Visual Studio Code (简称 VS Code)是由微软研发的一款免费.开源的跨平台文本(代码)编辑器,在十多年的编程经历中,我使用过非常多的的代码编辑器(包括 IDE),例如 Fron ...
DynamicObject - 代理对象的种类
开箱即用,DynamicProxy提供了多种代理对象,主要分成两个大类: 基于继承(Inheritance-based) 基于继承的代理是通过继承一个代理类来实现,代理拦截对类的虚(virtual)成 ...
SignalR代理对象异常：Uncaught TypeError: Cannot read property 'client' of undefined 推出的结论
异常汇总:http://www.cnblogs.com/dunitian/p/4523006.html#signalR 后台创建了一个DntHub的集线器前台在调用的时候出现了问题(经检查是代理对象 ...
实现代理设置proxy
用户在哪些情况下是需要设置网络代理呢? 1. 内网上不了外网,需要连接能上外网的内网电脑做代理,就能上外网:多个电脑共享上外网,就要用代理: 2.有些网页被封,通过国外的代理就能看到这被封的网站:3. ...
23种设计模式--代理模式-Proxy
一.代理模式的介绍代理模式我们脑袋里出现第一个词语就是代购,其实就是这样通过一个中间层这个中间成是属于什么都干什么都买得,俗称"百晓生",在平时得开发中我们经常会听到 ...
使用Java原生代理实现AOP
### 本文由博主柒.原创,转载请注明出处 ### 完整源码下载地址 [https://github.com/MatrixSeven/JavaAOP](https://github.com/Matri ...
Javascript 代理模式模拟一个文件同步功能
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

随机推荐

Delphi快递鸟【支持快递查询和单号识别】
作者QQ:(648437169) 点击下载➨Delphi快递鸟 [delphi快递鸟]支持快递查询.单号识别.
Selenium+Java（十）Selenium常用方法
前言: 通过前几篇博客的已经了解了元素如何定位,提示框下拉框如何处理,多表单,鼠标键盘操作.此篇博客来介绍拿到想应的driver对象后如果对于对象做一些操作. get //打开网站 driver.ge ...
linux上文件的上传和下载
现整理一篇linux上文件的上传和下载第一种方式就是在windos上安装工具如: 工具如何使用我就不赘述了,easy 第二种方式就是使用liux的命令(首先是文件上传) 上传文件(首先创建文件夹如 ...
记一次线上问题排查：C#可选参数的坑
线上报了大量异常,错误信息为:找不到XX方法实现代码调用关系是: 查看代码历史记录,发现最近上线前对 GetUserDottedLineSuperiors 方法做过修改,增加了一个可选参数. 跟相关 ...
JVM性能优化--字节码技术
一.字节码技术应用场景 AOP技术.Lombok去除重复代码插件.动态修改class文件等二.字节技术优势 Java字节码增强指的是在Java字节码生成之后,对其进行修改,增强其功能,这种方式相当于 ...
Matlab代码优化之道
一. 遵守Performance Acceleration的规则关于什么是“Performance Acceleration”请参阅matlab的帮助文件.1.只有使用以下数据类型,matlab才会 ...
Kali 2019(debian linux)安装MySql5.7.x
Kali 2019(debian linux)安装MySql5.7.x MySQL安装确认是否安装MySQL 终端输入:mysql 如出现Welcome to the MariaDB monitor ...
webpack练手项目之easySlide（一）：初探webpack
最近在学习webpack,正好拿了之前做的一个小组件,图片轮播来做了下练手,让我们一起来初步感受下webpack的神奇魅力. webpack是一个前端的打包管理工具,大家可以前往:http:/ ...
Iris Network Traffic Analyzer嗅探器
网卡配置 ftp测试
Spring 在xml文件中配置Bean
Spring容器是一个大工厂,负责创建.管理所有的Bean. Spring容器支持2种格式的配置文件:xml文件.properties文件,最常用的是xml文件. Bean在xml文件中的配置 < ...

lxml_time_代理

lxml_time_代理的更多相关文章

随机推荐

热门专题