#!/usr/bin/env python
#coding:utf-
import urllib2,sys,re,os,string reload(sys);
sys.setdefaultencoding('utf8'); #url="http://www.dianping.com/search/category/1/20/g122" def httpCrawler(url):
#first page
content = httpRequest(url)
#other page
#for pageNo in range(,):
# content = httpRequest(url)
shops=parseHtml(content)
getAllPages(shops)
unpackOneShop()
#saveData(shops) def httpRequest(url):
try:
html = None
req_header = {
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0'
#'Accept':'text/html;q=0.9,*/*;q=0.8',
#'Accept-Language':'en-US,en;q=0.5',
#'Accept-Encoding':'gzip',
#'Host':'j3.s2.dpfile.com',
#'Connection':'keep-alive',
#'Referer':'http://www.baidu.com'
}
req_timeout =
req = urllib2.Request(url,None,req_header)
resp = urllib2.urlopen(req,None,req_timeout)
html = resp.read().decode('utf-8')
#print html
finally:
if resp:
resp.close()
return html def parseHtml(html):
content = None
#shops = re.findall(r'<li class="" >(.+?)<\li>',html,re.S)
shops = re.findall(r'<div class="shop-list J_shop-list shop-all-list" id="shop-all-list">\n<ul>.*?</ul>\n</div>',html,re.S)
return shops def getAllPages(shops):
#total pages
getEachShop(shops)
print "################one page done." global t_OneShop
t_OneShop=['']** def getEachShop(shops):
global t_OneShop
t_OneShop=['']**
t_start=
shops_string=''.join(shops) i=
t_start = shops_string.find(r'<li class="" >')
all_end = shops_string.rfind('</li>')
while i<= and t_start and all_end:
t_start = shops_string.find(r'<li class="" >',t_start)
t_end = shops_string.find('</li>',t_start,all_end)
#print "t_start:",t_start
#print "t_end:",t_end
t_OneShop[i] = shops_string[t_start:t_end]
#print t_OneShop[i] t_start=t_end
i=i+ def unpackOneShop():
global t_OneShop f = open('./zhubao/shops.csv', 'w')
f.write('\xEF\xBB\xBF')
f.write('名称,地址,人均消费,,,')
f.write('\r\n')
f.close()
for i in range(,):
#print t_OneShop[i] f = open('./zhubao/shops.csv', 'ab+') ShopName = re.findall(r'<h4>(.*?)</h4>',t_OneShop[i])
#ShopDistrict =
address = re.findall(r'<span class="addr">(.*?)</span>',t_OneShop[i])
mean_price = re.findall(r'mean-price" target="_blank" >(.*?)</span>',t_OneShop[i],re.S)
averageComsumption = re.findall(r'<b>(.*?)</b>',''.join(mean_price),re.S) print 'mean_price:',mean_price
print 'average::',averageComsumption
ShopName.extend(address)
ShopName.extend(averageComsumption) print (','.join(ShopName)).replace('\n',''),'\r\n'
f.write((''.join(','.join(ShopName)).replace('\n','')))
f.write('\r\n')
f.close() #iprovince =
#city =
#adminDistrict = def saveData(data):
if not os.path.exists('./zhubao'):
os.mkdir(r'./zhubao')
f = open('./zhubao/zhubao_shops.csv', 'wb')
f.write(data)
f.close() if __name__ == '__main__':
url="http://www.dianping.com/search/category/1/20/g122"
httpCrawler(url) '''
python2. 没有urllib.request
多线程
gevent
爬虫系统基本的结构:
.网络请求;
最简单的工具就是urllib、urllib2。这两个工具可以实现基本的下载功能,如果进阶想要异步可以使用多线程,如果想效率更高采用非阻塞方案tornado和curl可以实现非阻塞的下载。
.抓取结构化数据;
要想在页面中找到新链接需要对页面解析和对url排重,正则和DOM都可以实现这个功能,看自己熟悉哪一种。
正则感觉速度较快一些,DOM相对较慢并且复杂一点,如果只是为了要url正则可以解决,如果还想要页面中其他的结构或者内容DOM比较方便。
url的排重两小可以用memcache或者redis,量大就要用到bloomfilter。
.数据存储;
抓的少怎么存都行,抓的多并且要方便读取那就要好好设计了,用哈希分布存储在RDBMS上或者直接存在HBase上都要看你的数据量和具体需求。
'''

shops的更多相关文章

  1. (hdu 6024) Building Shops

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6024 Problem Description HDU’s n classrooms are on a ...

  2. APP-SERVICE-SDK:setStorageSync:fail;at page/near/pages/shops/shops page lifeCycleMethod onUnload function

    APP-SERVICE-SDK:setStorageSync:fail;at page/near/pages/shops/shops page lifeCycleMethod onUnload fun ...

  3. HDU6024 Building Shops 2017-05-07 18:33 30人阅读 评论(0) 收藏

    Building Shops                                                             Time Limit: 2000/1000 MS ...

  4. Building Shops

    Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others) Total Submissi ...

  5. HDU6024:Building Shops(简单DP)

    Building Shops Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others) ...

  6. hdu6024 Building Shops(区间dp)

    https://cn.vjudge.net/problem/HDU-6024 分开考虑某一点种与不种,最后取二者的最小值. dp[i][1] = min(dp[i-1][0], dp[i-1][1]) ...

  7. HDU 6024 Building Shops

    $dp$. $dp[i]$表示到$i$位置,且$i$位置建立了的最小花费,那么$dp[i] = min(dp[k]+cost[i+1][k-1])$,$k$是上一个建的位置.最后枚举$dp[i]$,加 ...

  8. 【HDU6024】Building Shops

    题意 有n个教室排成一排,每个教室都有一个坐标,现在,小Q想建一些糖果商店,在这n个教室里面.总的花费有两部分,在教室i建一个糖果屋需要花费ci,对于没有任何糖果屋的P,需要的花费为这个教室到它左边有 ...

  9. HDU6024:Building Shops(DP)

    传送门 题意 在一条直线上有n个教室,现在要设置糖果店,使得最后成本最小,满足以下两个条件: 1.若该点为糖果店,费用为cost[i]; 2.若不是,则为loc[i]-最近的糖果店的loc 分析 dp ...

随机推荐

  1. centos的yum配置

    什么是yum ?yum,是Yellow dog Updater Modified的简称,起初是由yellow dog这一发行版的开发者Terra Soft研发,用python写成,那时还叫做yup(y ...

  2. iframe加载完成事件

    var iframe = document.createElement("iframe"); iframe.src = "http://www.jb51.net" ...

  3. bzoj4788: [CERC2016]Bipartite Blanket

    2019.1.9交流题,现在看还是不会,,, 如果只有一边,那么Hall定理即可. 两边?分别满足Hall定理,就是合法的! 证明(构造方案): 左集合先任意形成一个合法匹配,单点增量加入右集合和与右 ...

  4. Java虚拟机原理图解-- 1.1、class文件基本组织结构 [转]

    作为Java程序猿,我们知道,我们写好的.java 源代码,最后会被Java编译器编译成后缀为.class的文件,该类型的文件是由字节组成的文件,又叫字节码文件.那么,class字节码文件里面到底是有 ...

  5. 数据交换格式之 - XML

    XML简介 XML是一种可扩展的标记语言,被设计用来传输和存储数据.传输数据. 需要自定义标签,自我描述性,XML是W3C的推荐标准: XML的特点与作用 特点: xml与操作系统.编程语言的开发平台 ...

  6. 关于python中 and 和 or 的一些特殊使用

    print(True or 1)  # True print(1 or True) # 1 print(3 or 1) # 3 print(0 or 3) # 3 总结:or左边无论是 数字还是Boo ...

  7. 10 种最常见的 Javascript 错误(频率最高)

    本文是小编给大家收藏的JavaScript 中频度最高的 10 种错误,我们会告诉你什么原因导致了这些错误,以及如何防止这些错误发生.写的十分的全面细致,具有一定的参考价值,对此有需要的朋友可以参考学 ...

  8. UVA11722 Jonining with Friend

    Joining with Friend You are going from Dhaka to Chittagong by train and you came to know one of your ...

  9. phonegap geolocation android 问题

    很纠结的 phonegap 使用定位的时候 android 获取地址异常的慢,为什么呢? 经过分析 如果android 只开启gprs 上网功能 可以立即获取到经纬度 如果只开启wifi 根本就获取不 ...

  10. CENTOS 7更换系统启动默认内核

    本文不再更新,可能存在内容过时的情况,实时更新请移步原文地址:CENTOS 7更换系统启动默认内核: 环境: CentOS Linux release 7.6.1810 (Core) : 1.查看当前 ...