python根据正则表达式的简单爬虫

今天根据正则表达式简单的爬了一下大众点评,把北京的美食爬了爬,(店铺名,人均消费,地址)

import re

import urllib.request

from urllib.request import urlopen

def getPage(url):

    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

                             'Chrome/51.0.2704.63 Safari/537.36'}

    req = urllib.request.Request(url=url, headers=headers)

    res = urllib.request.urlopen(req)

    return res.read().decode('utf-8')

def parsePage(s):

    ret = com.finditer(s)

    for i in ret:

        ret = {

            "店铺名": i.group("shop_name"),

            "人均价格": i.group("per_capita"),

            "地址": i.group("address"),

        }

        yield ret

def main(num):

    url = "http://www.dianping.com/beijing/ch10/p%s?aid=92020785%%2C102284990&cpt=92020785%%2C102284990" % num

    response_html = getPage(url)

    ret = parsePage(response_html)

    print(ret)

    f = open("eat_info", "a", encoding="utf-8")

    for obj in ret:

        print(obj)

        data = str(obj)

        f.write(data + "\n")

com = re.compile(

        '<div class="txt">.*?<h4>(?P<shop_name>.*?)</h4>'

        '.*?<b>￥(?P<per_capita>\d+)</b>.*?<span class="addr">(?P<address>.*?)</span>', re.S)

count = 1

for i in range(50):

    main(count)

    count += 1

简单爬虫

python根据正则表达式的简单爬虫的更多相关文章

python练习1（简单爬虫）
做一个简单的练习目标:爬取中文小说目标网站:http://www.biqule.com/book_58/26986.html 只爬取正文部分. 使用requests库来获取网页信息,使用re库正则 ...
python+senium+chrome的简单爬虫脚本
简述: 开始接触python写web自动化的脚本主要源于在公司订阅会议室,主要是使用python+selenium+chromedriver驱动chrome浏览器来完成的,其中部分python代码可以 ...
用python的正则表达式实现简单的计算器功能
#!/usr/bin/env python # -*- coding:utf-8 -*- import sys import re def welcome_func(): ""&q ...
Python开发简单爬虫（一）
一 .简单爬虫架构: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定 ...
Python简单爬虫
爬虫简介自动抓取互联网信息的程序从一个词条的URL访问到所有相关词条的URL,并提取出有价值的数据价值:互联网的数据为我所用简单爬虫架构实现爬虫,需要从以下几个方面考虑爬虫调度端:启动爬虫 ...
python网络爬虫，知识储备，简单爬虫的必知必会，【核心】
知识储备,简单爬虫的必知必会,[核心] 一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌 ...
Python开发简单爬虫
简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...
【Python实例二】BeautifulSoup爬虫简单实践
前言前面安装了BeautifulSoup库,现在就来实现一下吧. 目录一.Urllib库的使用二.BeautifulSoup的使用三. 一个示例 ----------------------- ...
python实现的一个简单的网页爬虫
学习了下python,看了一个简单的网页爬虫:http://www.cnblogs.com/fnng/p/3576154.html 自己实现了一个简单的网页爬虫,获取豆瓣的最新电影信息. 爬虫主要是获 ...

随机推荐

解决java log4j 配置log4jCaused by: java.lang.ClassNotFoundException: org.apache.logging.log4j.LogManager
前提安装http://mirror.bit.edu.cn/apache/logging/log4j/2.11.2/apache-log4j-2.11.2-bin.zip Buildpath 配置add ...
Linux BLE 基于树莓派
1.参考资料:Linux(RaspberryPi)上使用BLE低功耗蓝牙使用bluez协议栈方法有用 2.Linux下Bluez的编程实现 3.和菜鸟一起学linux之bluez学习记录2 4.BL ...
IIS - 虚拟目录与应用程序的异同
在Windows 7 IIS7中,对服务器建立站点后,有二种添加子站点的方式 A. 虚拟目录 B. 应用程序简单总结下二者之间的异同 A.虚拟目录虚拟目录是指在站点下建立一个虚拟子目录 ...
js随笔--关于数组
1.split()将一个字符串分割成字符串数组 stringObject.split(separator,howmany) separator:必需,字符串或正则表达式,从该参数指定的地方分割stri ...
CentOS7.6离线安装JDK1.8
卸载CentOS自带的openJDK: 查看openJDK命令:rpm -qa|grep java 结果: java-1.8.0-openjdk-headless-1.8.0.181-7.b13.el ...
前端用node+mysql实现简单服务端
node express + mysql实现简单服务端前端新人想写服务端不想学PHP等后端语言怎么办,那就用js写后台吧!这也是我这个前端新人的学习成果分享,如有那些地方不对,请给我指出. 1.准备工 ...
php 计算两个日期相差天数
<?php $startdate=strtotime("2013-3-09"); $enddate=strtotime("2013-4-05"); $da ...
pyhton3解决"tuple parameter unpacking is not supported"问题
准备将键值对中的键与值对调,结果第10行出了bug,显示"tuple parameter unpacking is not supported" 解决方法:将map(lambda( ...
Linux多进程CS服务器简单测试
Linux多进程CS服务器简单实现 server端多进程实现多用户连接,即每个用户一个连接,这里仍然用server将收到的字符串转大写后返回给客户端. 代码实现 #include <stdio ...
树莓派安装OSMC打造家庭影院，还可以看优酷和CCTV
1.OSMC是什么? OSMC是树莓派官方推荐的影音系统,是一款开源的操作系统,是Openelec的升级版,同样是基于Kodi的开源项目.OSMC,使用它可以将树莓派打造成一款全功能的家庭影院系统,它 ...

python根据正则表达式的简单爬虫

python根据正则表达式的简单爬虫的更多相关文章

随机推荐

热门专题