#!/usr/bin/env python
#coding:utf-
import urllib2,sys,re,os,string reload(sys);
sys.setdefaultencoding('utf8'); #url="http://www.dianping.com/search/category/1/20/g122" def httpCrawler(url):
#first page
content = httpRequest(url)
#other page
#for pageNo in range(,):
# content = httpRequest(url)
shops=parseHtml(content)
getAllPages(shops)
unpackOneShop()
#saveData(shops) def httpRequest(url):
try:
html = None
req_header = {
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0'
#'Accept':'text/html;q=0.9,*/*;q=0.8',
#'Accept-Language':'en-US,en;q=0.5',
#'Accept-Encoding':'gzip',
#'Host':'j3.s2.dpfile.com',
#'Connection':'keep-alive',
#'Referer':'http://www.baidu.com'
}
req_timeout =
req = urllib2.Request(url,None,req_header)
resp = urllib2.urlopen(req,None,req_timeout)
html = resp.read().decode('utf-8')
#print html
finally:
if resp:
resp.close()
return html def parseHtml(html):
content = None
#shops = re.findall(r'<li class="" >(.+?)<\li>',html,re.S)
shops = re.findall(r'<div class="shop-list J_shop-list shop-all-list" id="shop-all-list">\n<ul>.*?</ul>\n</div>',html,re.S)
return shops def getAllPages(shops):
#total pages
getEachShop(shops)
print "################one page done." global t_OneShop
t_OneShop=['']** def getEachShop(shops):
global t_OneShop
t_OneShop=['']**
t_start=
shops_string=''.join(shops) i=
t_start = shops_string.find(r'<li class="" >')
all_end = shops_string.rfind('</li>')
while i<= and t_start and all_end:
t_start = shops_string.find(r'<li class="" >',t_start)
t_end = shops_string.find('</li>',t_start,all_end)
#print "t_start:",t_start
#print "t_end:",t_end
t_OneShop[i] = shops_string[t_start:t_end]
#print t_OneShop[i] t_start=t_end
i=i+ def unpackOneShop():
global t_OneShop f = open('./zhubao/shops.csv', 'w')
f.write('\xEF\xBB\xBF')
f.write('名称,地址,人均消费,,,')
f.write('\r\n')
f.close()
for i in range(,):
#print t_OneShop[i] f = open('./zhubao/shops.csv', 'ab+') ShopName = re.findall(r'<h4>(.*?)</h4>',t_OneShop[i])
#ShopDistrict =
address = re.findall(r'<span class="addr">(.*?)</span>',t_OneShop[i])
mean_price = re.findall(r'mean-price" target="_blank" >(.*?)</span>',t_OneShop[i],re.S)
averageComsumption = re.findall(r'<b>(.*?)</b>',''.join(mean_price),re.S) print 'mean_price:',mean_price
print 'average::',averageComsumption
ShopName.extend(address)
ShopName.extend(averageComsumption) print (','.join(ShopName)).replace('\n',''),'\r\n'
f.write((''.join(','.join(ShopName)).replace('\n','')))
f.write('\r\n')
f.close() #iprovince =
#city =
#adminDistrict = def saveData(data):
if not os.path.exists('./zhubao'):
os.mkdir(r'./zhubao')
f = open('./zhubao/zhubao_shops.csv', 'wb')
f.write(data)
f.close() if __name__ == '__main__':
url="http://www.dianping.com/search/category/1/20/g122"
httpCrawler(url) '''
python2. 没有urllib.request
多线程
gevent
爬虫系统基本的结构:
.网络请求;
最简单的工具就是urllib、urllib2。这两个工具可以实现基本的下载功能,如果进阶想要异步可以使用多线程,如果想效率更高采用非阻塞方案tornado和curl可以实现非阻塞的下载。
.抓取结构化数据;
要想在页面中找到新链接需要对页面解析和对url排重,正则和DOM都可以实现这个功能,看自己熟悉哪一种。
正则感觉速度较快一些,DOM相对较慢并且复杂一点,如果只是为了要url正则可以解决,如果还想要页面中其他的结构或者内容DOM比较方便。
url的排重两小可以用memcache或者redis,量大就要用到bloomfilter。
.数据存储;
抓的少怎么存都行,抓的多并且要方便读取那就要好好设计了,用哈希分布存储在RDBMS上或者直接存在HBase上都要看你的数据量和具体需求。
'''

shops的更多相关文章

  1. (hdu 6024) Building Shops

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6024 Problem Description HDU’s n classrooms are on a ...

  2. APP-SERVICE-SDK:setStorageSync:fail;at page/near/pages/shops/shops page lifeCycleMethod onUnload function

    APP-SERVICE-SDK:setStorageSync:fail;at page/near/pages/shops/shops page lifeCycleMethod onUnload fun ...

  3. HDU6024 Building Shops 2017-05-07 18:33 30人阅读 评论(0) 收藏

    Building Shops                                                             Time Limit: 2000/1000 MS ...

  4. Building Shops

    Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others) Total Submissi ...

  5. HDU6024:Building Shops(简单DP)

    Building Shops Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others) ...

  6. hdu6024 Building Shops(区间dp)

    https://cn.vjudge.net/problem/HDU-6024 分开考虑某一点种与不种,最后取二者的最小值. dp[i][1] = min(dp[i-1][0], dp[i-1][1]) ...

  7. HDU 6024 Building Shops

    $dp$. $dp[i]$表示到$i$位置,且$i$位置建立了的最小花费,那么$dp[i] = min(dp[k]+cost[i+1][k-1])$,$k$是上一个建的位置.最后枚举$dp[i]$,加 ...

  8. 【HDU6024】Building Shops

    题意 有n个教室排成一排,每个教室都有一个坐标,现在,小Q想建一些糖果商店,在这n个教室里面.总的花费有两部分,在教室i建一个糖果屋需要花费ci,对于没有任何糖果屋的P,需要的花费为这个教室到它左边有 ...

  9. HDU6024:Building Shops(DP)

    传送门 题意 在一条直线上有n个教室,现在要设置糖果店,使得最后成本最小,满足以下两个条件: 1.若该点为糖果店,费用为cost[i]; 2.若不是,则为loc[i]-最近的糖果店的loc 分析 dp ...

随机推荐

  1. JZOJ5965【NOIP2018提高组D2T2】填数游戏

    题目 作为NOIP2018的题目,我觉得不需要把题目贴出来了. 大意就是,在一个n∗mn*mn∗m的010101矩阵中,从左上角到右下角的路径中,对于任意的两条,上面的那条小于下面的那条.问满足这样的 ...

  2. springboot+atomikos+多数据源管理事务(mysql 8.0)

    jta:Java Transaction API,即是java中对事务处理的api 即 api即是接口的意思 atomikos:Atomikos TransactionsEssentials 是一个为 ...

  3. LOJ#3119 随机立方体

    解:极大值至少为1.我们尝试把最大那个数的影响去掉. 最大那个数所在的一层(指一个三维十字架)都是不可能成为最大值的. 考虑容斥.我们试图求除了最大值以外至少有k个极大值的概率. 我们钦定某k个位置是 ...

  4. python 连接mssql数据库

    1.目标数据sql2008 R2 ComPrject=>TestModel 2.安装python 连接mssql 模块 运行 pip install pymssql-2.2.0.dev0-cp3 ...

  5. php基础学习过程

    1.基础知识 a.注释: <?php // 这是单行注释 # 这也是单行注释 /* 这是多行注释块 它横跨了 多行 */ ?> b.大小写敏感: 在 PHP 中,所有用户定义的函数.类和关 ...

  6. Delphi 设计模式:《HeadFirst设计模式》Delphi2007代码---组合模式之Menus[转]

     1  2{<HeadFirst设计模式>之组合模式 }  3{ 组合与单项的抽象父类           }  4{ 编译工具:Delphi2007 for win32}  5{ E-M ...

  7. JEECMS 系统权限设计

    1.用户校验. 登录校验主要围绕着用户后台登陆的url拦截 a.围绕着用户登录过程中设计到两张用户表 jc_user:存储着用户的基本信息 jo_user:存储着用户登录.注册.更新时间及用户密码信息 ...

  8. 什么情况下要加上【javascript:】

    你知道http:// https:// mailto: tencent://这种东西么?这叫url schema,通常是在a的href里的.但a的href里面是不能加脚本的,所以浏览器就创造了一个叫j ...

  9. jmeter体系结构

    jmeter体系结构 jmeter体系结构: 1.取样器.断言.监听器组合在一起就可以帮助我们完成发送请求.验证结果及记录结果三项工作 (1)取样器的访问路径:[测试计划]---[线程组]       ...

  10. 《数据结构与算法分析——C语言描述》ADT实现(NO.00) : 链表(Linked-List)

    开始学习数据结构,使用的教材是机械工业出版社的<数据结构与算法分析——C语言描述>,计划将书中的ADT用C语言实现一遍,记录于此.下面是第一个最简单的结构——链表. 链表(Linked-L ...