python爬取大众点评并写入mongodb数据库和redis数据库

抓取大众点评首页左侧信息，如图：

我们要实现把中文名字都存到mongodb，而每个链接存入redis数据库。

因为将数据存到mongodb时每一个信息都会有一个对应的id，那样就方便我们存入redis可以不出错。

# -*- coding: utf-8 -*-

import re

from urllib.request import urlopen

from urllib.request import Request

from bs4 import BeautifulSoup

from lxml import etree

import pymongo

client = pymongo.MongoClient(host="127.0.0.1")

db = client.dianping            #库名dianping

collection = db.classification          #表名classification

import redis        #导入redis数据库

r = redis.Redis(host='127.0.0.1', port=6379, db=0)

# client = pymongo.MongoClient(host="192.168.60.112")

# myip = client['myip']  # 给数据库命名

def secClassFind(selector, classid):

    secItems = selector.xpath('//div[@class="sec-items"]/a')

    for secItem in secItems:

        url = secItem.get('href')       #得到url

        title = secItem.text

        classid = collection.insert({'classname': title, 'pid': classid})

        classurl = '%s,%s' % (classid, url) #拼串

        r.lpush('classurl', classurl)   #入库

def Public(url):

    headers = {'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}    #协议头

    req_timeout = 5

    req = Request(url=url, headers=headers)

    f = urlopen(req, None, req_timeout)

    s = f.read()

    s = s.decode("utf-8")

    # beautifulsoup提取

    soup = BeautifulSoup(s, 'html.parser')

    links = soup.find_all(name='li', class_="first-item")

    for link in links:

        selector = etree.HTML(str(link))

        # indexTitleUrls = selector.xpath('//a[@class="index-title"]/@href')

        # # 获取一级类别url和title

        # for titleurl in indexTitleUrls:

        #     print(titleurl)

        indexTitles = selector.xpath('//a[@class="index-title"]/text()')

        for title in indexTitles:

            # 第二级url

            print(title)

            classid = collection.insert({'classname': title, 'pid': None})

            secClassFind(selector, classid)

            print('---------')

        # secItems = selector.xpath('//div[@class="sec-items"]/a')

        # for secItem in secItems:

        #     print(secItem.get('href'))

        #     print(secItem.text)

        print('-----------------------------')

        #

        # myip.collection.insert({'name':secItem.text})

        # r.lpush('mylist', secItem.get('href'))

        # collection.find_one({'_id': ObjectId('5a14c8916d123842bcea5835')})  # connection = pymongo.MongoClient(host="192.168.60.112")  # 连接MongDB数据库

# post_info = connection.myip  # 指定数据库名称（yande_test），没有则创建

# post_sub = post_info.test  # 获取集合名：test

Public('http://www.dianping.com/')

python爬取大众点评并写入mongodb数据库和redis数据库的更多相关文章

python爬取大众点评
拖了好久的代码 1.首先进入页面确定自己要抓取的数据(我们要抓取的是左侧分类栏-----包括美食.火锅)先爬取第一级分类(美食.婚纱摄影.电影),之后根据第一级链接爬取第二层(火锅).要注意第二级的p ...
Python 爬取大众点评 50 页数据，最好吃的成都火锅竟是它！
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
用Python爬取大众点评数据，推荐火锅店里最受欢迎的食品
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:有趣的Python PS:如有需要Python学习资料的小伙伴可以加点 ...
python爬虫实战---爬取大众点评评论
python爬虫实战—爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经 ...
python爬虫爬取大众点评并导入redis
直接上代码,导入redis的中文编码没有解决,日后解决了会第一时间上代码!新手上路,多多包涵! # -*- coding: utf-8 -*- import re import requests fr ...
python 爬取段子网段子写入文件
import requests import re 进入网址 for i in range(1,5): page_url = requests.get(f"http://duanziwang ...
利用Python爬取豆瓣电影
目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影: 我们把URL来复制出来分析分析: https://movie.douban.com ...
Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)
1. 爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: 2)数据提取,将web站点所获取的数据进行处理,获取所需要的数据,常使用的技 ...
Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...

随机推荐

zzuli 2131 Can Win dinic+链式前向星（难点：抽象出网络模型+建边）
2131: Can Win Time Limit: 1 Sec Memory Limit: 128 MB Submit: 431 Solved: 50 SubmitStatusWeb Board ...
node.js爬虫
这是一个简单的node.js爬虫项目,麻雀虽小五脏俱全. 本项目主要包含一下技术: 发送http抓取页面(http).分析页面(cheerio).中文乱码处理(bufferhelper).异步并发流程 ...
深入研究-webkit-overflow-scrolling:touch及ios滚动
1. -webkit-overflow-scrolling:touch是什么? MDN上是这样定义的: -webkit-overflow-scrolling 属性控制元素在移动设备上是否使用滚动回弹效 ...
jq获取今天、昨天、一周时间
不少后台文章管理系统就有今天.明天.一周内.全部的分类展示,用Jquery获取今天.明天.一周内的时间节点(如下图) html页面代码: <div class="date-list-c ...
再说Postgres中的高速缓存(cache)
表的模式信息存放在系统表中,因此要访问表,就需要首先在系统表中取得表的模式信息.对于一个PostgreSQL系统来说,对于系统表和普通表模式的访问是非常频繁的.为了提高这些访问的效率,PostgreS ...
Python 日期和时间操作
Python提供了一个time 和calendar模块可以用于格式化日期和时间. 时间间隔是以秒为单位的浮点小数. 每个时间戳都是以自从1970年1月1日午夜(历元)经过了多长时间来表示. Pytho ...
less新手入门（二） Mixin 混合、带参数的Mixin
四.mixin 混合 "mix - in"属性来自现有的样式!! 你可以在类选择器和id选择器中使用mixin, .a,#b{ color: rebeccapurple; } . ...
FPGA编程基础(一)--參数传递与寄存器使用
一.參数映射參数映射的功能就是实现參数化元件.所谓的"參数化元件"就是指元件的某些參数是可调的,通过调整这些參数从而可实现一类结构类似而功能不同的电路.在应用中.非常多电路都可採 ...
ML学习分享系列(2)_计算广告小窥[中]
原作:面包包包包包包改动:寒小阳 && 龙心尘时间:2016年2月出处:http://blog.csdn.net/Breada/article/details/50697030 ...
Oracle之PLSQL
PL/SQL Developer是一个集成开发环境,专门开发面向Oracle数据库的应用.PL/SQL也是一种程序语言,叫做过程化SQL语言(Procedural Language/SQL)它是Ora ...

python爬取大众点评并写入mongodb数据库和redis数据库

python爬取大众点评并写入mongodb数据库和redis数据库的更多相关文章

随机推荐

热门专题