学习爬虫的day02 （用线程去爬虫提高速度）

通过lxml的方式去分析数据，将爬到的数据放到file中的html中

代码如下

# 用线程去爬虫

from urllib.request import Request

from urllib.request import urlopen

from time import sleep,ctime

from lxml import etree

import _thread;

ii=

headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

def spilder(page):

    global ii;

    url = "http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%%E5%%8C%%97%%E4%%BA%%AC&kw=python&sm=0&p=%i"%(page);

    req = Request(url=url, headers=headers);

    req_timeout = ;

    f = urlopen(req, None, req_timeout);

    s = f.read();

    s=s.decode("UTF-8");

    s=str(s)

    selector = etree.HTML(s);

    links = selector.xpath('//tr/td[@class="zwmc"]/div/a/@href|//tr/td[@class="zwmc"]/div/a/text()');

    f=open("file/%i.html" %page,'w')

    for link in links:

        f.write("%s<br>"%link);

        print(link);

    ii+=;

    print(ii)

    f.close();

def main():

    global ii;

    for i in range(,1):

        _thread.start_new_thread(spilder,(i,))

    for kk in range():

        if(ii>):

            break;

        else :

            sleep()

main()

会出错，socket.timeout: timed out 可以通过代理IP来解决

学习爬虫的day02 （用线程去爬虫提高速度）的更多相关文章

爬虫day 04(通过登录去爬虫解决django的csrf_token)
#通过登录去爬虫 #首先要有用户名和密码 import urllib.request import http.cookiejar from lxml import etree head = { 'Co ...
python爬虫16 | 你，快去试试用多进程的方式重新去爬取豆瓣上的电影
我们在之前的文章谈到了高效爬虫在 python 中多线程下的 GIL 锁会让多线程显得有点鸡肋特别是在 CPU 密集型的代码下多线程被 GIL 锁搞得效率不高特别是对于多核的 CPU 来说 ...
爬虫（二）Python网络爬虫相关基础概念、爬取get请求的页面数据
什么是爬虫爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程. 哪些语言可以实现爬虫 1.php:可以实现爬虫.php被号称是全世界最优美的语言(当然是其自己号称的,就是王婆 ...
03.Python网络爬虫第一弹《Python网络爬虫相关基础概念》
爬虫介绍引入之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...
Python网络爬虫第一弹《Python网络爬虫相关基础概念》
爬虫介绍引入之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的 ...
零基础写python爬虫之使用Scrapy框架编写爬虫
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...
爬虫框架Scrapy的第一个爬虫示例入门教程
我们使用dmoz.org这个网站来作为小抓抓一展身手的对象. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目明确目 ...
03，Python网络爬虫第一弹《Python网络爬虫相关基础概念》
爬虫介绍引入为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实际的应用还是从就业上. 我们都知道,当前我们所处的时代 ...
【网络爬虫】【python】网络爬虫（四）：scrapy爬虫框架（架构、win/linux安装、文件结构）
scrapy框架的学习,目前个人觉得比较详尽的资料主要有两个: 1.官方教程文档.scrapy的github wiki: 2.一个很好的scrapy中文文档:http://scrapy-chs.rea ...

随机推荐

.NET接入接口/请求服务器
之前只调用过自己写的接口,这个是调用外部接口一.创建方法链接接口 , string method = "Get", string token = null) { if (stri ...
vs2012建一个空解决方案添加以前老版本的Web项目调试弹出window安全
解决方法:NTLM身份验证去掉就行.
记录一个Unity播放器插件的开发
背景公司最近在做VR直播平台,VR开发我们用到了Unity,而在Unity中播放视频就需要一款视频插件,我们调研了几个视频插件,记录两个,如下: Unity视频插件调研网上搜了搜,最流行的有以下两 ...
ASP动态网站建设之连接数据库相关操作
连接数据库: string str = @"server=服务器名称;Integrated Security=SSPI;database=数据库名称;"; 注意封装公共类,将常用重 ...
URL的编码和解码
URL的编码和解码参考:阮一峰--关于URL编码 1 为什么要URL编码在因特网上传送URL,只能采用ASCII字符集也就是说URL只能使用英文字母.阿拉伯数字和某些标点符号,不能使用其他文字和 ...
2301: [HAOI2011]Problem b ( 分块+莫比乌斯反演+容斥）
2301: [HAOI2011]Problem b Time Limit: 50 Sec Memory Limit: 256 MBSubmit: 6015 Solved: 2741[Submit] ...
A Very Simple Problem
A Very Simple Problem Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Other ...
Best Coder #86 1001 Price List（大水题）
Price List Accepts: 880 Submissions: 2184 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 26214 ...
js获取浏览器版本
获取火狐,谷歌,ie,常见浏览器的方法 function myBrowser(){ var userAgent = navigator.userAgent, rMsie = /(msie\s|trid ...
【DG】利用闪回数据库（flashback）修复Failover后的DG环境
利用闪回数据库(flashback)修复Failover后的DG环境 1.1 BLOG文档结构图 1.2 前言部分 1.2.1 导读和注意事项各位技术爱好者,看完本文后,你可以掌握如下的技能, ...

学习爬虫的day02 （用线程去爬虫 提高速度）

学习爬虫的day02 （用线程去爬虫 提高速度）的更多相关文章

随机推荐

热门专题

学习爬虫的day02 （用线程去爬虫提高速度）

学习爬虫的day02 （用线程去爬虫提高速度）的更多相关文章