python多线程抓取网页信息

#!/usr/env python
#-*- coding: utf-8 -*-

import urllib

import urllib2

import random

import requests

import os,sys

import Queue

import threading

import time

import MySQLdb

from sgmllib import SGMLParser

import re

queue = Queue.Queue()

out_queue = Queue.Queue()

num=0

class ThreadUrl(threading.Thread):

def __init__(self, queue, out_queue):

threading.Thread.__init__(self)

self.queue = queue

self.out_queue = out_queue

def run(self):

while True:

host = self.queue.get()

print host

try:

html=requests.get(host)

result=html.content

html.close()

self.out_queue.put(result)

#place chunk into out queue

except:

print time.sleep(5)

#signals to queue job is done

self.queue.task_done()

class DatamineThread(threading.Thread):

def __init__(self, out_queue):

threading.Thread.__init__(self)

self.out_queue = out_queue

def run(self):

while True:

result = self.out_queue.get()

pattern=re.compile('<div class="appdiscrib">[\s\S]*?<h4>(.+?)</h4>')

data0=re.findall(pattern,result)

pattern=re.compile('版本号(.+?)</li>')

data1=re.findall(pattern,result)

pattern=re.compile('开发者(.+?)</li>')

data2=re.findall(pattern,result)

pattern=re.compile('发布时间(.+?)</li>')

data3=re.findall(pattern,result)

pattern=re.compile('文件大小(.+?)</li>')

data4=re.findall(pattern,result)

pattern=re.compile('支持固件(.+?)</li>')

data5=re.findall(pattern,result)

pattern=re.compile('应用介绍</h3>[\s\S]*?<div class="intro">([\s\S]*?)</div>')

data6=re.findall(pattern,result)

for items in data6:

pass#print re.sub('<br />',' ',items)

sql="insert into address(name,version,developer,pubtime,filesize,support,introduction) values(%s,%s,%s,%s,%s,%s,%s)"

for items in data6:

if(data5):

values=(data0[0],data1[0],data2[0],data3[0],data4[0],data5[0],re.sub('<br />',' ',items))

else:

values=(data0[0],data1[0],data2[0],data3[0],data4[0],'NULL',re.sub('<br />',' ',items))

#print values

#print sql % values

try:

conn=MySQLdb.connect(host='localhost',user='root',passwd='123456',db='addressbookdb',charset="utf8")

cursor=conn.cursor()

cursor.execute(sql,values)

conn.commit()

except:

print "error2"

try:

cursor.close()

conn.close()

except:

print "error3"

pattern=re.compile(' <div class="appTitle clearfix">[\s\S]*?<img src=(.+?)/>')

data=re.findall(pattern,result)

for j in data:

print j

global num

try:

temp=requests.get(j[1:-2])

f=file("picture/"+str(num),"w+")

num=num+1

print num

f.write(temp.content)

except:

print "error4"

self.out_queue.task_done()

def main():

for k in range(1,2539):

print k

try:

url="http://apk.gfan.com/apps_7_1_"+str(k)+".html"

html=requests.get(url)

result=html.content

html.close()

pattern=re.compile('<a href="([http://apk.gfan.com]?/Product/App\d{1,8}.html)"')

dataresult=re.findall(pattern,result)

dataresult=list(set(dataresult))

for a in range(20):

w = ThreadUrl(queue, out_queue)

w.setDaemon(True)

w.start()

for i in dataresult:

host="http://apk.gfan.com"+i

queue.put(host)

for a in range(20):

dt = DatamineThread(out_queue)

dt.setDaemon(True)

dt.start()

except:

time.sleep(5)

queue.join()

out_queue.join()

#sql="select * from address"

#cursor.execute(sql)

#conn.commit()

#finalresult=cursor.fetchall()

#if finalresult:

#for x in finalresult:

#pass #print x[0:]

if __name__=="__main__":

main()

python多线程抓取网页信息的更多相关文章

python 处理抓取网页乱码
python 处理抓取网页乱码问题一招鲜相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找是否包含指定的信息. 在html = urllib2. ...
PHP利用Curl实现多线程抓取网页和下载文件
PHP 利用 Curl 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集数据可以利用 PHPquery ...
HttpClient+Jsoup 抓取网页信息（网易贵金属为例）
废话不多说直接讲讲今天要做的事. 利用HttpClient和Jsoup技术抓取网页信息.HttpClient是支持HTTP协议的客户端编程工具包,并且它支持HTTP协议. jsoup 是一款基于 Ja ...
php curl_multi系列函数实现多线程抓取网页
最近几天在做一个多搜索引擎关键字排名查询工具,用于及时方便的了解关键词在各大搜索引擎的排名. 在抓取360搜索的时候,发现360搜索每页只支持显示10个搜索结果,如果想获取100个搜索结果数据,就得搜 ...
python 处理抓取网页乱码问题一招鲜
FROM: http://my.oschina.net/012345678/blog/122355 相信用python的人一定在抓取网页时,被编码问题弄晕过一阵前几天写了一个测试网页的小脚本,并查找 ...
python 解决抓取网页中的中文显示乱码问题
关于爬虫乱码有很多各式各样的问题,这里不仅是中文乱码,编码转换.还包括一些如日文.韩文 .俄文.藏文之类的乱码处理,因为解决方式是一致的,故在此统一说明. 网络爬虫出现乱码的原因源网页编码和爬取下来 ...
.net抓取网页信息 - Jumony框架使用1
往往在实际开发中,经常会用到一些如抓取网站信息之类的的操作,往往大家采用的是用一些正则的方式获取,但是有时候正则是很死板的,我们常常试想能不能使用jquery的选择器,获取符合自己要求的元素,然后进行 ...
python分布式抓取网页
呵呵,前两节好像和python没多大关系..这节完全是贴代码, 这是我第一次写python,很多地方比较乱,主要就看看逻辑流程吧. 对于编码格式确实搞得我头大..取下来页面不知道是什么编码,所以先找c ...
python 多线程抓取动态数据
利用多线程动态抓取数据,网上也有不少教程,但发现过于繁杂,就不能精简再精简?! 不多解释,直接上代码,基本上还是很好懂的. #!/usr/bin/env python # coding=utf-8 i ...

随机推荐

最小日志量的insert操作
--1.实验环境 SQL> conn scott/tiger Connected to Oracle Database 11g Enterprise Edition Release 11.2.0 ...
PC机安装android apk | adb install -r
PC 下载 *****.apk 通过adb直接安装到android系统
App Store审核指南中文版（2014.10.11更新）
App Store审核指南中文版(2014.10.11更新) 2014-10-11 16:36 编辑: suiling 分类:AppStore研究来源:CocoaChina 2 8657 App ...
Effective Java2读书笔记-类和接口（一）
第13条:使类和成员的可访问性最小化设计良好的模块的模块与设计不好的模块区别在于,设计良好的模块会隐藏所有的实现细节,把它的API与他的实现清晰地隔离开来.然后模块之间只通过API通信. 信息隐藏之 ...
用php理解指针--写给刚刚学习编程的人
在刚刚学习编程时,可能for循环什么的还是可以理解,但是当学习到指针的时候,课上估计很多人就睡觉去了. 现在用两端php程序说明指针先写一个简单的,大家都理解下 <?php class tex ...
A51汇编器的解释
A51汇编器是运行于IBM PC系列及其兼容机上的交叉汇编软件,其主要功能是将MCS-51系列单片机汇编语言源程序翻译成符合Intel目标文件格式的可再定位的目标代码,经过L51连接器的连接和装配,产 ...
Cocos2d-x程序Windows下VC中文乱码的解决（用MultiByteToWideChar进行转换，VC2010有非常厉害的execution_character_set）
Cocos2d-x默认字符串常量编码都是UTF8的,而Windows中的VC默认都是跟系统相同,比如简体Windows是GB2312或者GBK.繁体就是BIG5编码.而我们大多数中国人用VC编译出来的 ...
java获得指定日期的前一天，后一天的代码
/** * 获得指定日期的前一天 * @param specifiedDay * @return * @throws Exception */ public static String getSpec ...
jsp中全局变量和局部变量的设置
python中自定义类对象json字符串化的方法
1. 用 json 或者simplejson 就可以 2.定义转换函数: def convert_to_builtin_type(obj): print 'default(', repr(obj), ...

python多线程抓取网页信息

python多线程抓取网页信息的更多相关文章

随机推荐

热门专题