shops

#!/usr/bin/env python

#coding:utf-

import urllib2,sys,re,os,string

reload(sys);

sys.setdefaultencoding('utf8');

#url="http://www.dianping.com/search/category/1/20/g122"

def httpCrawler(url):

    #first page

    content = httpRequest(url)

    #other page

    #for pageNo in range(,):

    #    content = httpRequest(url)

    shops=parseHtml(content)

    getAllPages(shops)

    unpackOneShop()

    #saveData(shops)

def httpRequest(url):

    try:

        html = None

        req_header = {

            'User-Agent':'Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0'

            #'Accept':'text/html;q=0.9,*/*;q=0.8',

            #'Accept-Language':'en-US,en;q=0.5',

            #'Accept-Encoding':'gzip',

            #'Host':'j3.s2.dpfile.com',

            #'Connection':'keep-alive',

            #'Referer':'http://www.baidu.com'

        }

        req_timeout =

        req = urllib2.Request(url,None,req_header)

        resp = urllib2.urlopen(req,None,req_timeout)

        html = resp.read().decode('utf-8')

        #print html

    finally:

        if resp:

            resp.close()

    return html

def parseHtml(html):

    content = None

    #shops = re.findall(r'<li class="" >(.+?)<\li>',html,re.S)

    shops = re.findall(r'<div class="shop-list J_shop-list shop-all-list" id="shop-all-list">\n<ul>.*?</ul>\n</div>',html,re.S)

    return shops

def getAllPages(shops):

    #total  pages

    getEachShop(shops)

    print "################one page done."

global t_OneShop

t_OneShop=['']**

def getEachShop(shops):

    global t_OneShop

    t_OneShop=['']**

    t_start=

    shops_string=''.join(shops)

    i=

    t_start = shops_string.find(r'<li class="" >')

    all_end = shops_string.rfind('</li>')

    while i<= and t_start and all_end:

        t_start = shops_string.find(r'<li class="" >',t_start)

        t_end = shops_string.find('</li>',t_start,all_end)

        #print "t_start:",t_start

        #print "t_end:",t_end

        t_OneShop[i] = shops_string[t_start:t_end]

        #print t_OneShop[i]

        t_start=t_end

        i=i+

def unpackOneShop():

    global t_OneShop

    f = open('./zhubao/shops.csv', 'w')

    f.write('\xEF\xBB\xBF')

    f.write('名称,地址,人均消费,,,')

    f.write('\r\n')

    f.close()

    for i in range(,):

        #print t_OneShop[i]

        f = open('./zhubao/shops.csv', 'ab+')

        ShopName = re.findall(r'<h4>(.*?)</h4>',t_OneShop[i])

    #ShopDistrict =

        address = re.findall(r'<span class="addr">(.*?)</span>',t_OneShop[i])

        mean_price = re.findall(r'mean-price" target="_blank" >(.*?)</span>',t_OneShop[i],re.S)

        averageComsumption = re.findall(r'<b>(.*?)</b>',''.join(mean_price),re.S)

        print 'mean_price:',mean_price

        print 'average::',averageComsumption

        ShopName.extend(address)

        ShopName.extend(averageComsumption)

        print (','.join(ShopName)).replace('\n',''),'\r\n'

        f.write((''.join(','.join(ShopName)).replace('\n','')))

        f.write('\r\n')

        f.close()

    #iprovince =

    #city =

    #adminDistrict =

def saveData(data):

    if not os.path.exists('./zhubao'):

        os.mkdir(r'./zhubao')

    f = open('./zhubao/zhubao_shops.csv', 'wb')

    f.write(data)

    f.close()

if __name__ == '__main__':

    url="http://www.dianping.com/search/category/1/20/g122"

    httpCrawler(url)

'''

python2. 没有urllib.request

多线程

gevent

爬虫系统基本的结构：

.网络请求；

最简单的工具就是urllib、urllib2。这两个工具可以实现基本的下载功能，如果进阶想要异步可以使用多线程，如果想效率更高采用非阻塞方案tornado和curl可以实现非阻塞的下载。

.抓取结构化数据；

要想在页面中找到新链接需要对页面解析和对url排重，正则和DOM都可以实现这个功能，看自己熟悉哪一种。

正则感觉速度较快一些，DOM相对较慢并且复杂一点，如果只是为了要url正则可以解决，如果还想要页面中其他的结构或者内容DOM比较方便。

url的排重两小可以用memcache或者redis，量大就要用到bloomfilter。

.数据存储；

抓的少怎么存都行，抓的多并且要方便读取那就要好好设计了，用哈希分布存储在RDBMS上或者直接存在HBase上都要看你的数据量和具体需求。

'''

shops的更多相关文章

（hdu 6024） Building Shops
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6024 Problem Description HDU’s n classrooms are on a ...
APP-SERVICE-SDK:setStorageSync:fail;at page/near/pages/shops/shops page lifeCycleMethod onUnload function
APP-SERVICE-SDK:setStorageSync:fail;at page/near/pages/shops/shops page lifeCycleMethod onUnload fun ...
HDU6024 Building Shops 2017-05-07 18:33 30人阅读评论(0) 收藏
Building Shops Time Limit: 2000/1000 MS ...
Building Shops
Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) Total Submissi ...
HDU6024：Building Shops（简单DP）
Building Shops Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) ...
hdu6024 Building Shops(区间dp)
https://cn.vjudge.net/problem/HDU-6024 分开考虑某一点种与不种,最后取二者的最小值. dp[i][1] = min(dp[i-1][0], dp[i-1][1]) ...
HDU 6024 Building Shops
$dp$. $dp[i]$表示到$i$位置,且$i$位置建立了的最小花费,那么$dp[i] = min(dp[k]+cost[i+1][k-1])$,$k$是上一个建的位置.最后枚举$dp[i]$,加 ...
【HDU6024】Building Shops
题意有n个教室排成一排,每个教室都有一个坐标,现在,小Q想建一些糖果商店,在这n个教室里面.总的花费有两部分,在教室i建一个糖果屋需要花费ci,对于没有任何糖果屋的P,需要的花费为这个教室到它左边有 ...
HDU6024：Building Shops（DP）
传送门题意在一条直线上有n个教室,现在要设置糖果店,使得最后成本最小,满足以下两个条件: 1.若该点为糖果店,费用为cost[i]; 2.若不是,则为loc[i]-最近的糖果店的loc 分析 dp ...

随机推荐

洛谷P3745 [六省联考2017]期末考试
传送门题解 //Achen #include<algorithm> #include<iostream> #include<cstring> #include&l ...
ArcGIS中线转面
1. 打开ArcMap用Add Data加载shp Polyline线文件. 2. 选Editor编辑\Start Editing开始编辑. 3. 选Editor编辑\More Editing Too ...
mysql高级教程(三)-----数据库锁、主从复制
锁概念锁是计算机协调多个进程或线程并发访问某一资源的机制. 在数据库中,除传统的计算资源(如CPU.RAM.I/O等)的争用以外,数据也是一种供许多用户共享的资源.如何保证数据并发访问的一致性. ...
[转载] OpenCV2.4.3 CheatSheet学习（四）
五.数据的输入和输出 1. 将数据写入YAML(或XML) 注意,在OpenCV中,无论读写,文件的格式均由指定的后缀名确定.示例: FileStorage fs("test.yml&quo ...
在Linux中常用的启动引导工具：grub和lilo
在Linux和WINDOWS两系统并存时就需要安装GRUB(Grand Unified Bootloader),GRUB被广泛地用于替代lilo,GRUB支持在启动时使用命令行模式,支持md5加密保护 ...
Luogu P2066 机器分配(dp)
P2066 机器分配题面题目背景无题目描述总公司拥有高效设备 $M$ 台,准备分给下属的 $N$ 个分公司.各分公司若获得这些设备,可以为国家提供一定的盈利.问:如何分配这 \(M\ ...
FTP主动模式与被动模式说明
FTP是仅基于TCP的服务,不支持UDP.与众不同的是FTP使用2个端口,一个数据端口和一个命令端口(也可叫做控制端口).通常来说这两个端口是21(命令端口)和20(数据端口).但FTP工作方式的不同 ...
stream求集合元素的属性值最值
Person p1 = new Person("张三", new BigDecimal("10.0"));Person p2 = new Person(&quo ...
MAC中已有的虚拟环境在pycharm 中进行调用
首先确定虚拟环境的路径: 打开工作环境配置文件,找到工作目录: 在pycharm中解释器中找到工作目录中对应的虚拟环境进行配置就可以了
css背景图自适应
在开发时,修改了d2admin的登录页面.使用了背景图片,但是ui给的图过于大(可能是我电脑屏幕小哈)无法完整的显示到页面上,所以修改了代码,可以完整显示背景图. 代码如下:background: u ...

shops

shops的更多相关文章

随机推荐

热门专题