PY简易爬虫

然而，实用性很差，仅仅是能用而已。

已知bug:

由于土啬的问题，经常会炸掉。网络不稳定导致各种Connection Aborted/SSLError: EOF occurred in violation of protocol.

引入新的bug，无法记录错误啊啊啊！

解决方案：

已修复，添加异常处理，一次超时重试三次，超时值设定为1s。三次超时访问下一个页面，同时记录错误信息。

已修复，改了下代码。

程序运行速度已经有了很大的提高[约3pv/(s/thread)]

bug已经修复。

乱写的+现学现卖。

鸣谢：百度爬虫，感谢它的无私奉献(Anti-Anti-Spider Technology)

效果（速度不太稳定，约在1s/pv~10s/pv间波动）：

（已经有了较大变化）

多进程生成器：

import sys

reload(sys)

sys.setdefaultencoding('utf8')

import codecs

for i in range(1,7000):

    f = open(str(i*10)+'k'+'.py','w')

    f.write('''# coding:utf-8

import re

import requests

import time

headers = {

'User-Agent':'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)',

}

sess = requests.Session()

adapter = requests.adapters.HTTPAdapter(max_retries = 20)

sess.mount('https://', adapter)

for i in range ('''+str(10000*i)+''','''+str((i+1)*10000)+'''):

    print(str(i))

    url = "https://www.pixiv.net/member_illust.php?mode=medium&illust_id="+str(i);

    try:

        r = sess.get(url,headers = headers,timeout = 1)

    except:

        try:

            r = sess.get(url,headers = headers,timeout = 1)

        except:

            try:

                r = sess.get(url,headers = headers,timeout = 1)

            except:

                err = open('err'+str(i)+'.log',"a")

                err.write(str(i)+"\\n")

                err.close

                continue

    if r.status_code != 200:

        continue

    data = r.text

    pattern = u'class="text">初音ミク</a>'

    piclist = re.findall(pattern,data)

    if len(piclist):

        f = open("'''+str(i*10)+'k-'+str((i+1)*10)+'k'+'''.txt","a")

        f.write(str(i)+'\\n')

        f.close()''')

f.close()

生成实例：

# coding:utf-8

import re

import requests

import time

headers = {

'User-Agent':'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)',

}

sess = requests.Session()

adapter = requests.adapters.HTTPAdapter(max_retries = 20)

sess.mount('https://', adapter)

for i in range (69990000,70000000):

    print(str(i))

    url = "https://www.pixiv.net/member_illust.php?mode=medium&illust_id="+str(i);

    try:

        r = sess.get(url,headers = headers,timeout = 1)

    except:

        try:

            r = sess.get(url,headers = headers,timeout = 1)

        except:

            try:

                r = sess.get(url,headers = headers,timeout = 1)

            except:

                err = open('err'+str(i)+'.log',"a")

                err.write(str(i)+"\n")

                err.close

                continue

    if r.status_code != 200:

        continue

    data = r.text

    pattern = u'class="text">初音ミク</a>'

    piclist = re.findall(pattern,data)

    if len(piclist):

        f = open("69990k-70000k.txt","a")

        f.write(str(i)+'\n')

        f.close()

UPDATE: 回家后更新多进程版，速度约25w pv/h.结合bash脚本实现不间断爬虫。然而还是很慢（摊手）。代码大范围重构，补了一点信息（回家后就能跑完了hhh）。稳定性有了提高（1000Wpv无错误）？？？

系统要求：

Linux主流发行版

内存8G（主进程虚拟内存2G，物理内存2G，worker进程不清楚，反正能跑，总内存消耗大约是4.4G左右）

四核CPU（占用率大约是170%-200%+）

40Mbps网络（外网，速度不是很稳定，约10-30Mbps左右）

------------------------------------------------------

150进程（然而实践证明100进程足矣）？？？

引入新的bug：单文件7000W数量级，gc会炸掉。orz.

PY简易爬虫的更多相关文章

python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Inte ...
php+phpquery简易爬虫抓取京东商品分类
这是一个简单的php加phpquery实现抓取京东商品分类页内容的简易爬虫.phpquery可以非常简单地帮助你抽取想要的html内容,phpquery和jquery非常类似,可以说是几乎一样:如果你 ...
[转]使用 HttpClient 和 HtmlParser 实现简易爬虫
http://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ http://blog.csdn.net/dancen/article/d ...
爬虫系列1：python简易爬虫分析
决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...
nodeJS实现简易爬虫
nodeJS实现简易爬虫需求:使用nodeJS爬取昵图网某个分类下的图片并存入本地运用nodeJS自带系统模块http.fs 示例代码: var http =require('http'); va ...
利用简易爬虫完成一道基础CTF题
利用简易爬虫完成一道基础CTF题声明:本文主要写给新手,侧重于表现使用爬虫爬取页面并提交数据的大致过程,所以没有对一些东西解释的很详细,比如表单,post,get方法,感兴趣的可以私信或评论给我.如 ...
day17 python re模块简易爬虫
day17 python 一.re模块 1.re模块的基础方法查找findall() import re #re.findall(pattern,string,flags ...
NodeJS概述2-事件插件-简易爬虫
事件 events 模块原生事件写法 /* * 1. 事件分类 * DOM0级事件 - on + eventType * DOM2级事件 - 事件监听 * 2. 事件构成部分有哪些? dom.o ...

随机推荐

UI层自动化测试框架（一）-简介和环境搭建
http://blog.csdn.net/ToBeTheEnder/article/details/52302777
mysql 日期计算，今天，明天，本周，下周，本月，下月
--今天 DATE_FORMAT(BIRTH_DATE,'%Y-%m-%d') = CURDATE() --明天 DATE_FORMAT(BIRTH_DATE,'%Y-%m-%d') = TIMEST ...
luogu1726 上白泽慧音
题目大意求一个有向图含节点数最多且结点编号从小到大排列字典序最小的强连通分量. 注意事项 HDU1269那道题题面.数据太弱,在这道题上把我害惨了... Dfs点u时,如果与u相连的一个点v有Dfs ...
oc51--循环retain
// main.m // 循环retain #import <Foundation/Foundation.h> #import "Person.h" #import & ...
rk3288对于parameter参数文件的解析处理【转】
本文转载自:http://blog.csdn.net/groundhappy/article/details/56479694 rk3288有一个parameter文件. 类似于 FIRMWARE_V ...
bzoj 4198 [ Noi 2015 ] 荷马史诗 —— 哈夫曼编码(k叉哈夫曼树)
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=4198 第一次写哈夫曼树!看了很多博客. 哈夫曼树 & 哈夫曼编码:https://w ...
K-means (PRML) in C++
原始数据 #include <iostream>#include <fstream>#include <sstream>#include <vector> ...
14招搞定JavaScript调试
14招搞定JavaScript调试译者按: 很多时候,大家可能只是依靠console.log来调试JavaScript代码,这样做的局限性不言而喻,这篇博客将教你几招实用的调试技巧. 原文: The ...
CentOS7 搭建Kafka（二）kafka篇
CentOS7 搭建Kafka(二)kafka篇前面我们说了zookeeper的搭建,zookeeper运行后就可以着手搭建kafka了. 必看喜欢官方文档的请移步:[http://kafka.a ...
A - Voting（queue）
Problem description There are n employees in Alternative Cake Manufacturing (ACM). They are now voti ...

PY简易爬虫

PY简易爬虫的更多相关文章

随机推荐

热门专题