PY简易爬虫

然而，实用性很差，仅仅是能用而已。

已知bug:

由于土啬的问题，经常会炸掉。网络不稳定导致各种Connection Aborted/SSLError: EOF occurred in violation of protocol.

引入新的bug，无法记录错误啊啊啊！

解决方案：

已修复，添加异常处理，一次超时重试三次，超时值设定为1s。三次超时访问下一个页面，同时记录错误信息。

已修复，改了下代码。

程序运行速度已经有了很大的提高[约3pv/(s/thread)]

bug已经修复。

乱写的+现学现卖。

鸣谢：百度爬虫，感谢它的无私奉献(Anti-Anti-Spider Technology)

效果（速度不太稳定，约在1s/pv~10s/pv间波动）：

（已经有了较大变化）

多进程生成器：

import sys

reload(sys)

sys.setdefaultencoding('utf8')

import codecs

for i in range(1,7000):

    f = open(str(i*10)+'k'+'.py','w')

    f.write('''# coding:utf-8

import re

import requests

import time

headers = {

'User-Agent':'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)',

}

sess = requests.Session()

adapter = requests.adapters.HTTPAdapter(max_retries = 20)

sess.mount('https://', adapter)

for i in range ('''+str(10000*i)+''','''+str((i+1)*10000)+'''):

    print(str(i))

    url = "https://www.pixiv.net/member_illust.php?mode=medium&illust_id="+str(i);

    try:

        r = sess.get(url,headers = headers,timeout = 1)

    except:

        try:

            r = sess.get(url,headers = headers,timeout = 1)

        except:

            try:

                r = sess.get(url,headers = headers,timeout = 1)

            except:

                err = open('err'+str(i)+'.log',"a")

                err.write(str(i)+"\\n")

                err.close

                continue

    if r.status_code != 200:

        continue

    data = r.text

    pattern = u'class="text">初音ミク</a>'

    piclist = re.findall(pattern,data)

    if len(piclist):

        f = open("'''+str(i*10)+'k-'+str((i+1)*10)+'k'+'''.txt","a")

        f.write(str(i)+'\\n')

        f.close()''')

f.close()

生成实例：

# coding:utf-8

import re

import requests

import time

headers = {

'User-Agent':'Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)',

}

sess = requests.Session()

adapter = requests.adapters.HTTPAdapter(max_retries = 20)

sess.mount('https://', adapter)

for i in range (69990000,70000000):

    print(str(i))

    url = "https://www.pixiv.net/member_illust.php?mode=medium&illust_id="+str(i);

    try:

        r = sess.get(url,headers = headers,timeout = 1)

    except:

        try:

            r = sess.get(url,headers = headers,timeout = 1)

        except:

            try:

                r = sess.get(url,headers = headers,timeout = 1)

            except:

                err = open('err'+str(i)+'.log',"a")

                err.write(str(i)+"\n")

                err.close

                continue

    if r.status_code != 200:

        continue

    data = r.text

    pattern = u'class="text">初音ミク</a>'

    piclist = re.findall(pattern,data)

    if len(piclist):

        f = open("69990k-70000k.txt","a")

        f.write(str(i)+'\n')

        f.close()

UPDATE: 回家后更新多进程版，速度约25w pv/h.结合bash脚本实现不间断爬虫。然而还是很慢（摊手）。代码大范围重构，补了一点信息（回家后就能跑完了hhh）。稳定性有了提高（1000Wpv无错误）？？？

系统要求：

Linux主流发行版

内存8G（主进程虚拟内存2G，物理内存2G，worker进程不清楚，反正能跑，总内存消耗大约是4.4G左右）

四核CPU（占用率大约是170%-200%+）

40Mbps网络（外网，速度不是很稳定，约10-30Mbps左右）

------------------------------------------------------

150进程（然而实践证明100进程足矣）？？？

引入新的bug：单文件7000W数量级，gc会炸掉。orz.

PY简易爬虫的更多相关文章

python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Inte ...
php+phpquery简易爬虫抓取京东商品分类
这是一个简单的php加phpquery实现抓取京东商品分类页内容的简易爬虫.phpquery可以非常简单地帮助你抽取想要的html内容,phpquery和jquery非常类似,可以说是几乎一样:如果你 ...
[转]使用 HttpClient 和 HtmlParser 实现简易爬虫
http://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ http://blog.csdn.net/dancen/article/d ...
爬虫系列1：python简易爬虫分析
决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...
nodeJS实现简易爬虫
nodeJS实现简易爬虫需求:使用nodeJS爬取昵图网某个分类下的图片并存入本地运用nodeJS自带系统模块http.fs 示例代码: var http =require('http'); va ...
利用简易爬虫完成一道基础CTF题
利用简易爬虫完成一道基础CTF题声明:本文主要写给新手,侧重于表现使用爬虫爬取页面并提交数据的大致过程,所以没有对一些东西解释的很详细,比如表单,post,get方法,感兴趣的可以私信或评论给我.如 ...
day17 python re模块简易爬虫
day17 python 一.re模块 1.re模块的基础方法查找findall() import re #re.findall(pattern,string,flags ...
NodeJS概述2-事件插件-简易爬虫
事件 events 模块原生事件写法 /* * 1. 事件分类 * DOM0级事件 - on + eventType * DOM2级事件 - 事件监听 * 2. 事件构成部分有哪些? dom.o ...

随机推荐

find -perm命令
http://www.2cto.com/os/201205/130125.html find -perm,根据文件的权限来查找文件,有三种形式: find -perm mode find -perm ...
Two Heads Are Often Better Than One
Two Heads Are Often Better Than One Adrian Wible PROGRAMMING REQUIRES DEEP THOUGHT, and deep thought ...
Linux下route add 命令加入路由列表
route add命令的主要作用是加入静态路由,通常的格式是: route ADD 157.0.0.0 MASK 255.0.0.0 157.55.80.1 METRIC 3 IF 2 參数含义:d ...
Android简单调用相机Camera功能，实现打开照相功能
在最開始接触Android相机功能之前,先来体验一下Android调用系统照相功能吧核心代码 Intent intent = new Intent(); //调用照相机 intent.setActi ...
美团网 KVM虚拟化公开课学习笔记
KVM优化技术,美团开放平台--邱剑基于KVM现有选项做一些优化.视频地址:http://www.osforce.cn/course/77/learn#lesson/80 CPU调优: 1.Cont ...
关于Windows下程序运行的说明
预计有非常多人首次都是通过Windows(微软的操作系统)来使用计算机的.Windows的设计导致非常多人觉得全部程序仅仅要双击一下就能够被正确运行了,所以一大堆初学程序设计的童鞋就会遇到些疑问: 为 ...
Android studio 报错 gradel project sync failed Error:Cause: peer not authenticated
在网上找了半天,应该是找不到gradel的路径,试了网上非常多方法.本人解决例如以下: 在android studio中设置gradle.打开File-> settings->Gradle ...
monitor weblogic server ,Very simple to use, weblogic监控、巡检、故障简单小工具
1. 开发了一个简单的监视weblogic执行情况的小程序.各位朋友下载下来试试,不用登陆console就能够知道server的执行状况,包含了jvm.线程.jdbc.状态jms等:另一个更简 ...
【译文】利用STAN做贝叶斯回归分析：Part 2 非正态回归
[译文]利用STAN做贝叶斯回归分析:Part 2 非正态回归作者 Lionel Hertzogn 前一篇文章已经介绍了怎样在R中调用STAN对正态数据进行贝叶斯回归.本文则将利用三个样例来演示怎样 ...
Codeforces Round #330 (Div. 2) D. Max and Bike 二分
D. Max and Bike For months Maxim has been coming to work on his favorite bicycle. And quite recently ...

PY简易爬虫

PY简易爬虫的更多相关文章

随机推荐

热门专题