最近练习写爬虫,本来爬几张mm图做测试,可是爬到几十张的时候就会返回403错误,这是被网站服务器发现了,把我给屏蔽了. 因此需要使用代理IP.为了方便以后使用,我打算先写一个自动爬取ip代理的爬虫,正所谓,磨刀不误砍柴工,读完高中再打工! 先看看运行结果: 函数返回一个列表 废话少说,放码出去: #-*- coding: utf-8 -*- import urllib import urllib2 import re import time # obtain some ip and port f…
二话不说 先上代码: #coding=utf-8 import urllib import re import time global x x = 1 def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): global x reg = r'src="(.+?\.jpg)" alt=' imgre = re.compile(reg) imglist = r…
#批量创建txt文件import sys,osa=open("demo.txt")n=0aList=[]for line in a.readlines(): aList.append(str(line.strip('\n')))print aListfor i in aList: os.system('@echo > %s.txt'%i)…