学习爬虫的day02 （用线程去爬虫提高速度）

通过lxml的方式去分析数据，将爬到的数据放到file中的html中

代码如下

# 用线程去爬虫

from urllib.request import Request

from urllib.request import urlopen

from time import sleep,ctime

from lxml import etree

import _thread;

ii=

headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

def spilder(page):

    global ii;

    url = "http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%%E5%%8C%%97%%E4%%BA%%AC&kw=python&sm=0&p=%i"%(page);

    req = Request(url=url, headers=headers);

    req_timeout = ;

    f = urlopen(req, None, req_timeout);

    s = f.read();

    s=s.decode("UTF-8");

    s=str(s)

    selector = etree.HTML(s);

    links = selector.xpath('//tr/td[@class="zwmc"]/div/a/@href|//tr/td[@class="zwmc"]/div/a/text()');

    f=open("file/%i.html" %page,'w')

    for link in links:

        f.write("%s<br>"%link);

        print(link);

    ii+=;

    print(ii)

    f.close();

def main():

    global ii;

    for i in range(,1):

        _thread.start_new_thread(spilder,(i,))

    for kk in range():

        if(ii>):

            break;

        else :

            sleep()

main()

会出错，socket.timeout: timed out 可以通过代理IP来解决

学习爬虫的day02 （用线程去爬虫提高速度）的更多相关文章

爬虫day 04(通过登录去爬虫解决django的csrf_token)
#通过登录去爬虫 #首先要有用户名和密码 import urllib.request import http.cookiejar from lxml import etree head = { 'Co ...
python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影
我们在之前的文章谈到了高效爬虫在 python 中多线程下的 GIL 锁会让多线程显得有点鸡肋特别是在 CPU 密集型的代码下多线程被 GIL 锁搞得效率不高特别是对于多核的 CPU 来说 ...
爬虫（二）Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
03.Python网络爬虫第一弹《Python网络爬虫相关基础概念》
爬虫介绍引入之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...
Python网络爬虫第一弹《Python网络爬虫相关基础概念》
爬虫介绍引入之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...
爬虫框架Scrapy的第一个爬虫示例入门教程
我们使用dmoz.org这个网站来作为小抓抓一展身手的对象. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目明确目 ...
03，Python网络爬虫第一弹《Python网络爬虫相关基础概念》
爬虫介绍引入为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从就业上. 我们都知道,当前我们所处的时代 ...
【网络爬虫】【python】网络爬虫（四）：scrapy爬虫框架（架构、win/linux安装、文件结构）
scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档.scrapy的github wiki: 2.一个很好的scrapy中文文档:http://scrapy-chs.rea ...

随机推荐

phalcon——访问控制列表ACL
一个完整的使用实例(将acl封装成一个插件使用): use Phalcon\Acl; use Phalcon\Acl\Role; use Phalcon\Acl\Resource; use Phalc ...
LeetCode 442. Find All Duplicates in an Array （在数组中找到所有的重复项）
Given an array of integers, 1 ≤ a[i] ≤ n (n = size of array), some elements appear twice and others ...
Ubuntu远程登陆、SSH图形界面、WOL远程唤醒
本文为作者原创,转载请注明出处(http://www.cnblogs.com/mar-q/)by 负赑屃实现目标:通过路由器配置路由路径,将拨号获取的公网IP地址指向局域网Ubuntu服务器.家里有 ...
RobotFrameWork安装笔记
1. RobotFrameWork安装配置笔记 1.1. 安装环境 64位win10家庭中文版网上很多这方面的教程,但是比较零散,这里是自己安装配置的一个简单的笔记. 1.2. 安装说明由于R ...
EF框架搭建小总结--CodeFirst模型优先
前言:之前在下总结编写了一篇 EF框架搭建小总结--ModelFirst模型优先博文,看到一段时间内该博文的访问量蹭.蹭蹭.蹭蹭蹭...往上涨(实际也不是很多,嘿嘿),但是还是按捺不住内心的喜悦(蛮 ...
批量查询sql脚本
远程批量查询sql脚本 for i in {1..50} do sql_ip=172.168.0.${i} information=`mysql -h ${sql_ip} -uroot -ppas ...
java自动化-juint框架简述
本人使用的是java的juint框架来组织的自动化测试,故我这边需要简单介绍一下juint框架首先,建议自行百度一下juint框架,先有一个大概的了解所谓的接口自动化测试,会对多个接口中每一个接口 ...
HBase数据备份及恢复(导入导出)的常用方法
一.说明随着HBase在重要的商业系统中应用的大量增加,许多企业需要通过对它们的HBase集群建立健壮的备份和故障恢复机制来保证它们的企业(数据)资产.备份Hbase时的难点是其待备份的数据集可能非 ...
10.javaweb核心标签库详解
一.JSTL简介及在项目中安装配置 1, 简介使用JSTL标签的目的就是不希望jsp中出现java逻辑代码分类 2, JSTL的安装配置首先将jar包中的各个标签库配置文件拷贝到项目WEB- ...
NOIP2017衢二中旅游记Day 1
NOIP前一天下午早早的去了衢州: 车程大概在4个半小时左右: 车上大家都一脸颓废,并混杂着动听的音乐: 到了衢州二中,立刻跑去吃晚饭: 吃饭的队伍特别长,吃面的却空无一人: 我毅然决然地选择了去吃面 ...

学习爬虫的day02 （用线程去爬虫 提高速度）

学习爬虫的day02 （用线程去爬虫 提高速度）的更多相关文章

随机推荐

热门专题

学习爬虫的day02 （用线程去爬虫提高速度）

学习爬虫的day02 （用线程去爬虫提高速度）的更多相关文章