【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫

作用，之间将目标网页保存金本地

1、爬虫代码修改自网络，目前运行平稳，博主需要的是精准爬取，数据量并不大，暂未加多线程。

2、分割策略是通过查询条件进行分类，循环启动多条线程。

1、单线程简单爬虫（第二次整理）

import urllib.parse

import urllib.request

import os

import datetime

import json

#获取页面数据，返回整张网页

def getHtml(url,values):

    user_agent='Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36'

    headers = {'User-Agent':user_agent}

    data = urllib.parse.urlencode(values)

    response_result = urllib.request.urlopen(url+'?'+data).read()

    html = response_result.decode('utf-8')

    return html

#组装请求参数

def requestCnblogs(index):

    print('请求数据')

    url = 'http://xxx解析链接xxx.com/'

    value= {

        'param1': '',

        'param2': '',

        'param3': '308',

        'page': index

    }

    result = getHtml(url,value)

    return result

#print(requestCnblogs(1))

#通过IO流写出文件

def writeToTxt(html,file_path):

    print(file_path)

    try:

        fp = open(file_path,"w+",encoding='utf-8')

        fp.write(html)

        fp.close()

    except IOError:

        print("fail to open file")

#创建文件夹

def createFile():

    # date = datetime.datetime.now().strftime('%Y-%m-%d')

    path = r'P:\Users' + '/foldername'

    if os.path.exists(path):

        return path

    else:

        os.mkdir(path)

        return path

#保存页面

def saveBlogs():

    i=1;

    while 1==1:

        try:

            print('request for '+str(i)+'...')

            blogs = requestCnblogs(i)

            #保存到文件

            path = createFile()

            writeToTxt(blogs,path+'/filenames'+ str(i) +'.txt')

            print('第'+ str(i) +'页已经完成')

            i = i + 1;

        except IOError:

            print("sleep 10min and retry")

    return 'success'

#开始搞事情

result = saveBlogs()

print(result)

并发爬虫：https://www.cnblogs.com/huohuohuo1/p/9064759.html

2、多线程爬虫（第二次整理）

这里是利用安全的队列保证线程安全，首先要将地址放入队列（摘抄自网络）

# coding=utf-8

import threading, queue, time, urllib

from urllib import request

baseUrl = 'http://www.pythontab.com/html/pythonjichu/'

urlQueue = queue.Queue()

for i in range(2, 10):

 url = baseUrl + str(i) + '.html'

 urlQueue.put(url)

 #print(url)

def fetchUrl(urlQueue):

 while True:

  try:

   #不阻塞的读取队列数据

   url = urlQueue.get_nowait()

   i = urlQueue.qsize()

  except Exception as e:

   break

  print ('Current Thread Name %s, Url: %s ' % (threading.currentThread().name, url))

  try:

   response = urllib.request.urlopen(url)

   responseCode = response.getcode()

  except Exception as e:

   continue

  if responseCode == 200:

   #抓取内容的数据处理可以放到这里

   #为了突出效果， 设置延时

   html = response.read().decode('utf-8')

   time.sleep(1)

   print(html)

if __name__ == '__main__':

 startTime = time.time()

 threads = []

 # 可以调节线程数， 进而控制抓取速度

 threadNum = 4

 for i in range(0, threadNum):

  t = threading.Thread(target=fetchUrl, args=(urlQueue,))

  threads.append(t)

 for t in threads:

  t.start()

 for t in threads:

  #多线程多join的情况下，依次执行各线程的join方法, 这样可以确保主线程最后退出， 且各个线程间没有阻塞

  t.join()

 endTime = time.time()

 print ('Done, Time cost: %s ' % (endTime - startTime))

3、自己改进了下（未整理，但正在使用）

# coding=utf-8

import threading, queue, time, urllib

import urllib.parse

import urllib.request

import os

import datetime

import json

from urllib import request

baseUrl = 'http://www.xxxxxxxxx.cn/xxx/402/'

urlQueue = queue.Queue()

def writeToTxt(html, file_path):

 print(file_path)

 try:

  # 这里直接write item 即可，不要自己给序列化在写入，会导致json格式不正确的问题

  fp = open(file_path, "w+", encoding='utf-8')

  fp.write(html)

  fp.close()

 except IOError:

  print("fail to open file")

#创建文件夹

def createFiles():

    # date = datetime.datetime.now().strftime('%Y-%m-%d')

    path = r'P:\Users3' + '/402'

    if os.path.exists(path):

        return path

    else:

        os.mkdir(path)

        return path

for i in range(1, 881):

 url = baseUrl + str(i) + "/"

 urlQueue.put(url)

 #print(url)

def fetchUrl(urlQueue):

 while True:

  try:

   #不阻塞的读取队列数据

   url = urlQueue.get_nowait()

   i = urlQueue.qsize()

  except Exception as e:

   break

  print ('Current Thread Name %s, Url: %s ' % (threading.currentThread().name, url))

  try:

   response = urllib.request.urlopen(url)

   responseCode = response.getcode()

  except Exception as e:

   continue

  if responseCode == 200:

   #抓取内容的数据处理可以放到这里

   #为了突出效果， 设置延时

   html = response.read().decode('utf-8')

   path = createFiles()

   writeToTxt(html, path + '/filename' + str(i) + '.txt')

if __name__ == '__main__':

 startTime = time.time()

 threads = []

 # 可以调节线程数， 进而控制抓取速度

 threadNum = 4

 for i in range(0, threadNum):

  t = threading.Thread(target=fetchUrl, args=(urlQueue,))

  threads.append(t)

 for t in threads:

  t.start()

 for t in threads:

  #多线程多join的情况下，依次执行各线程的join方法, 这样可以确保主线程最后退出， 且各个线程间没有阻塞

  t.join()

 endTime = time.time()

 print ('Done, Time cost: %s ' % (endTime - startTime))

 def saveBlogs():

  i = 51;  # 873

  while 1 == 1:

   try:

    print('request for ' + str(i) + '...')

    blogs = requestCnblogs(i)

    # 保存到文件

    path = createFiles()

    writeToTxt(blogs, path + '/nongyeyinhang' + str(i) + '.txt')

    print('第' + str(i) + '页已经完成')

    i = i + 1;

   except IOError:

    print("sleep 10min and retry")

  return 'success'

个人记录，处理下载的文件写入数据库（java代码）：

package com.zzt.spider;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileNotFoundException;

import java.io.FileReader;

import java.io.IOException;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.PreparedStatement;

import java.sql.ResultSet;

import java.sql.SQLException;

import java.util.ArrayList;

import java.util.List;

import java.util.Scanner;

/**

 * 读取爬取的数据

 * @author ZX

 *

 */

public class ReadSpiderData3 {

	public static void main(String[] args) {

		List<String> folderList = new ArrayList<>();

		//文件目录

		File fileDir = new File("P:\\Users3\\102");

		if(!fileDir.exists()){

			  return;

		  }

		String[] list = fileDir.list();

		for(String str :list) {//列出所有文件名

			readTxt("P:\\Users3\\102\\"+str);

			//return;

		}

		Scanner sc = new Scanner(System.in);

	}

	public static void readTxt(String path) {

		try {

			File file = new File(path);

			BufferedReader br = new BufferedReader(new FileReader(file));

			String line   = null;

			int isVaribales=-1;

			int lineCount=-1;//取1-20行有效数据

			while ((line = br.readLine()) != null) {

			 	if(line.contains("<th>SWIFT CODE</th>")){

			 		isVaribales=1;

            	}

			 	if(isVaribales==1) {

			 		lineCount++;

			 		if(lineCount>=1&&lineCount<84) {

			 			if(line==null||"".equals(line.trim())) {

			 				continue;

			 			}

			 			System.out.println(line);

			 			//insertBank(code, name, phone, addr, "170");

			 		}

			 	}

			 	if(line.contains("<div class=\"page\">")){

			 		isVaribales=-1;

			 	}

			 }

			 if (br != null) {

			     br.close();

			 }

		} catch (FileNotFoundException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		} catch (IOException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

	/**

	 * 插入一条数据

	 */

	public static void insertBank(String BANK_CODE,String BANK_NAME,String BANK_PHONE,String BANK_ADDR,String BANK_NO) {

		Connection connerction= createConn();

		String sql="insert into SP_BANK_DETILS_S2 (BANK_CODE,BANK_NAME,BANK_PHONE,BANK_ADDR,BANK_NO) values(?,?,?,?,?)";

		try {

			PreparedStatement pstmt = connerction.prepareStatement(sql);

			pstmt.setString(1, BANK_CODE);

			pstmt.setString(2, BANK_NAME);

			pstmt.setString(3, BANK_PHONE);

			pstmt.setString(4, BANK_ADDR);

			pstmt.setString(5, BANK_NO);

			pstmt.executeUpdate();

			closeConn(null, pstmt, connerction);

		} catch (SQLException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

	/**

	 * 获取jdbc链接

	 * @return

	 */

	private static Connection createConn(){

		Connection conn = null;

		try {

			Class.forName("com.mysql.jdbc.Driver");

			conn =DriverManager.getConnection("jdbc:mysql://192.168.0.100:3306/payrecdb?characterEncoding=utf8","name","pwd");

		} catch (ClassNotFoundException e) {

			e.printStackTrace();

		} catch (SQLException e) {

			e.printStackTrace();

		}

		return conn;

	}

	/**

	 * 关闭所有资源

	 * @param rs

	 * @param stmt

	 * @param conn

	 */

	private static void closeConn(ResultSet rs,PreparedStatement stmt,Connection conn){

		try {

			if(rs!=null)

			rs.close();

			if(stmt!=null)

			stmt.close();

			if(conn!=null)

			conn.close();

		} catch (SQLException e) {

			// TODO Auto-generated catch block

			e.printStackTrace();

		}

	}

}

【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫的更多相关文章

【python3两小时快速入门】入门笔记01：基础
又要我搞爬虫了,这次的源网站使用的ajax加载数据,我用java爬下来的页面内容部分全都是空,虽然java也有插件,但是使用起来感觉很麻烦,所以,python!老子来了. 1. 版本:pytho ...
【python3两小时快速入门】入门笔记02：类库导入
昨晚遇到了一个问题:pip下载了request类库,以及在pyCharm的setting中下载了request类库,项目左侧也能显示出requst文件夹,但是引入报错! 这里贴一下我的解决方案,在此记 ...
smarty半小时快速上手入门教程
http://www.jb51.net/article/56754.htm http://www.yiibai.com/smarty/smarty_functions.html http://www. ...
【python3两小时根本不够】入门笔记04：线程+Lock安全同步
有了简单爬虫,但是效率实在是太慢,于是决定启用线程进行爬取数据但是对于临界资源的定义不好把握,思路如下: 1.定义队列(Queue的数据结构,List也可,安全性待考究) demo:https:// ...
两小时快速构建微信小程序
小程序在2017年1月上线之初,被社会极力吹捧,刻意去将其制造为一个“风口”,透支其价值.但是在之后一个月里,石破天惊迅速归为沉寂.媒体又开始过度消费小程序,大谈其鸡肋之处. 个人认为小程序的一个分水 ...
爬虫制作入门学习笔记2：[转]python爬虫实例项目大全
WechatSogou [1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典. DouBanSpider [2]- ...
python3.5学习笔记--一个简单的图片爬虫
参考资料:http://v.qq.com/boke/page/q/g/t/q01713cvdgt.html 目的:爬取网站图片实际上以上链接的视频中已经将整个过程说的非常明白了,稍微有点计算机基础的 ...
Nginx快速入门菜鸟笔记
Nginx快速入门-菜鸟笔记 1.编译安装nginx 编译安装nginx 必须先安装pcre库. (1)uname -a 确定环境 Linux localhost.localdomain 2.6. ...
Sass简单、快速上手_Sass快速入门学习笔记总结
Sass是世界上最成熟.稳定和强大的专业级css扩展语言 ,除了Sass是css的一种预处理器语言,类似的语言还有Less,Stylus等. 这篇文章关于Sass快速入门学习笔记. 资源网站大全 ht ...

随机推荐

设计模式（四）The Factory Pattern 出厂模式
一.简单工厂定义:定义一个创建对象的接口,可是由其子类决定要实例化的对象是哪一个,工厂方法让类的实例化推迟到子类. 通俗的来讲就是由工厂方法确定一个框架.详细的实现由其子类来完毕. 与简单工厂相比, ...
解决关于archlinux升级至3.16.1，Xorg桌面环境无法进入的问题
[现象]有终端输入username,password后,桌面环境启动失败. [报错]log文件里显示: (EE) Fatal server error: (EE) xf86OpenConsole: V ...
Hopfield 神经网络及稳态性的证明
根据其提出者,John Joseph Hopfield 命名.Hopfield 在 1982 年提出的划时代的:Neural networks and physical systems with em ...
SEO分享：为什么我的资源外链这么多的高品质？
在小浪前制成的制品" [完整版]我怎么3的月800单词索引厨师主页!".之后,很多人都表示了极大的钦佩观看.顽强的运行力,真SEO它是运行顽强的力量.也有人说是吹牛吧,一天500外 ...
TargetNullValue与FallbackValue
原文:TargetNullValue与FallbackValue TargetNullValue与FallbackValue都是BindingBase的属性. TargetNullValue:获取或设 ...
Web前端开发人员实用Chrome插件收集
越来越多的前端开发人员喜欢在Chrome里开发调试代码,Chrome有许多优秀的插件可以帮助前端开发人员极大的提高工作效率.尤其Chrome本身是可以登录的,登录后你所有的插件都会自动同步到每一个登录 ...
自动备份Mysql数据库脚本
[root@bogon ~]# cat auto_backup_mysql.sh #!/bin/bash #auto backup mysql db #by authors wugk #define ...
WPF 4 目录树型显示
原文:WPF 4 目录树型显示本篇将通过WPF4 制作简单的目录树型结构显示实例,完成本篇内容我们将作出下图所示的应用程序. 从图中我们可以看到程序主要分为两部分:左边显示本地驱 ...
Qt4可以使用trUtf8函数，其内容可以是中文，也可以是\F硬编码
显示在textBrowser->setText 中文乱码转成QObject::trUtf8即可. ui->textBrowser->setText((QObject::trUtf8 ...

【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫

【python3两小时快速入门】入门笔记03：简单爬虫+多线程爬虫的更多相关文章

随机推荐

热门专题