#!/usr/env  python
#-*- coding: utf-8  -*-

import urllib

import urllib2

import random

import requests

import os,sys

import MySQLdb

from sgmllib import SGMLParser

import re

num=0

def main():

    try:

        conn=MySQLdb.connect(host='localhost',user='root',passwd='123456',db='addressbookdb',charset="utf8")

        conn.query("set names utf8")

    except Exception,e:

        print e

        sys.exit()

    cursor=conn.cursor()

    for k in range(1,2574):

        url="http://apk.gfan.com/apps_7_1_"+str(k)+".html"

        html=requests.get(url)

        result=html.content

        pattern=re.compile('<a href="([http://apk.gfan.com]?/Product/App\d{1,8}.html)"')

        dataresult=re.findall(pattern,result)

        dataresult=list(set(dataresult))

        for i in dataresult:

            t="http://apk.gfan.com"+i

            print t

            html=requests.get(t)

            result=html.content

            pattern=re.compile('<div class="appdiscrib">[\s\S]*?<h4>(.+?)</h4>')

            data0=re.findall(pattern,result)

            print data0[0]

            pattern=re.compile('版 本 号(.+?)</li>')

            data1=re.findall(pattern,result)

            pattern=re.compile('开 发 者(.+?)</li>')

            data2=re.findall(pattern,result)

            pattern=re.compile('发布时间(.+?)</li>')

            data3=re.findall(pattern,result)

            pattern=re.compile('文件大小(.+?)</li>')

            data4=re.findall(pattern,result)

            pattern=re.compile('支持固件(.+?)</li>')

            data5=re.findall(pattern,result)

            pattern=re.compile('应用介绍</h3>[\s\S]*?<div class="intro">([\s\S]*?)</div>')

            data6=re.findall(pattern,result)

            for items in data6:

                pass#print re.sub('<br />',' ',items)

            sql="insert into address(name,version,developer,pubtime,filesize,support,introduction) values(%s,%s,%s,%s,%s,%s,%s)"

            for items in data6:

            

                if(data5):

                    values=(data0[0],data1[0],data2[0],data3[0],data4[0],data5[0],re.sub('<br />',' ',items))

                else:

                    values=(data0[0],data1[0],data2[0],data3[0],data4[0],'NULL',re.sub('<br />',' ',items))

                #print values

                #print sql % values

                try:

                    cursor.execute(sql,values)

                    conn.commit()

                except:

                    pass

            pattern=re.compile(' <div class="appTitle clearfix">[\s\S]*?<img src=(.+?)/>')

            data=re.findall(pattern,result)

            for j in data:

                print j

      #temp = urllib2.urlopen(i[10:])

        # 这个是保存函数,第一个参数是地址,第二个是保存的文件名,让地址的倒数8位,当做文件名

                #urllib.urlretrieve(j[1:-2], j[-40:])

                temp=requests.get(j[1:-2])

                global num

                f=file("picture/"+str(num),"w+")

                num=num+1

                print num

                f.write(temp.content)

                

    #sql="select * from address"

    #cursor.execute(sql)

    #conn.commit()

    #finalresult=cursor.fetchall()

    #if finalresult:

        #for x in finalresult:

            #pass #print x[0:]

    cursor.close()

    conn.close()

    f.close()

    

if  __name__=="__main__":

       main()

python crawler0723.py的更多相关文章

  1. python调用py中rar的路径问题。

    1.python调用py,在py中的os.getcwd()获取的不是py的路径,可以通过os.path.split(os.path.realpath(__file__))[0]来获取py的路径. 2. ...

  2. python gettitle.py

    #!/usr/bin/env python # coding=utf-8 import threading import requests import Queue import sys import ...

  3. Python pydoc.py

    1. 查看帮助,我们可以在python命令行交互环境下用 help函数,比如: 查看 math 模块: >>> help('math')Help on built-in module ...

  4. django 1.7之后python manage.py syncdb没有了

    在命令行输入python manage.py createsuperuser按照提示输入即可记得先初始化表. django>1.7 python manage.py makemigrations ...

  5. Python安装mysql-python错误提示python setup.py egg_info

    做python项目,需要用到mysql,一般用python-mysql,安装时遇到错误提示如下: Command "python setup.py egg_info" failed ...

  6. python __init__.py用途

    转自http://www.cnpythoner.com/post/2.html Python中的Module是比较重要的概念.常见的情况是,事先写好一个.py文 件,在另一个文件中需要import时, ...

  7. python setup.py uninstall

    I have installed a python package with python setup.py install How do I uninstall it? ============== ...

  8. python 运行python manege.py runserver时报错:“no module named djangorestframework” 的解决方案

    python 运行python manege.py runserver时报错:“no module named djangorestframework” 的解决方案 importerror:no mo ...

  9. Python Web.py

    安装Web.py root@bt:~# sudo pip install web.py Downloading/unpacking web.py Downloading web.py-0.37.tar ...

随机推荐

  1. codevs 1106 篝火晚会

    不要问我为什么WA这么多次... #include<iostream> #include<cstdio> #include<cstring> #include< ...

  2. iOS 静态类库项目的建立与使用

    iOS 静态类库项目的建立与使用   新建 Xcode workspace 打开 Xcode , 选择 File -> New -> Workspace , 将 Workspace 命名为 ...

  3. Java [Leetcode 231]Power of Two

    题目描述: Given an integer, write a function to determine if it is a power of two. 解题思路: 判断方法主要依据2的N次幂的特 ...

  4. .gitignore的使用:首次创建及事后添加无法生效.

    问题:使用sourceTree做版本管理后, Xcode工程每次打开, 都会有几个xcodeworkspace之类的文件提示改动了. 如果想ignore掉, 有两种情况: 1:整个工程没有纳入版本管理 ...

  5. GitHub开源库排名一百的简单介绍,值得收藏!

    GitHub Android Libraries Top 100 简介 本项目主要对目前 GitHub 上排名前 100 的 Android 开源库进行简单的介绍, 至于排名完全是根据 GitHub ...

  6. jQuery-对Radio/CheckBox的操作集合

    jQuery获取Radio选择的Value值 $("input[name='radio_name'][checked]").val(); //选择被选中Radio的Value值 $ ...

  7. HDU 2222 (AC自动机模板题)

    题意: 给一个文本串和多个模式串,求文本串中一共出现多少次模式串 分析: ac自动机模板,关键是失配函数 #include <map> #include <set> #incl ...

  8. HDU1402 A * B Problem Plus FFT

    分析:网上别家的代码都分析的很好,我只是给我自己贴个代码,我是kuangbin的搬运工 一点想法:其实FFT就是快速求卷积罢了,当小数据的时候我们完全可以用母函数来做,比如那种硬币问题 FFT只是用来 ...

  9. 《Python核心编程》 第四章 Python对象- 课后习题

    练习 4-1. Python对象.与所有Python对象有关的三个属性是什么?请简单的描述一下. 答:身份.类型和值: 身份:每一个对象都有一个唯一的身份标识自己,可以用id()得到.  类型:对象的 ...

  10. Hadoop学习笔记2---配置详解

    配置系统是复杂软件必不可少的一部分,而Hadoop配置信息处理是学习Hadoop源代码的一个很好的起点.现在就从Hadoop的配置文件谈起. 一.Hadoop配置格式 Hadoop配置文件格式如下所示 ...