豆瓣电影top250爬取并保存在MongoDB里

首先回顾一下MongoDB的基本操作：

数据库，集合，文档

db,show dbs,use 数据库名,drop 数据库

db.集合名.insert({})

db.集合名.update({条件},{$set:{}},{multi:true})

db.集合名.remove({条件})

db集合名.find({条件},{投影}).limit().skip().sort().count().distinct()

数据库 增加 修改 删除 查询

mysql	insert update delete select

redis	set	set	del	get

mongodb	insert	update	remove	find,aggregate

string
hash
list
set
zset

增加
mysql:insert into 表名(列) values(值)
mongo:db.集合名.insert({})

修改：
mysql:update 表名 set 列=值 where 条件
mongo:db.集合名.update({条件},{值$set},{是否修改多条})

删除：
mysql:delete from 表名 where ....
mongo:db.集合名.remove({条件},{是否删除多条})

查询：
db.stu.find({},{})
比较运算符，逻辑运算符，$where
limit(),skip(),sort(),count(),distinct()

首先使用xpath提取出要爬取的信息：我们这个项目需要爬取的信息有：标题，信息，评分，简介

第一页链接：https://movie.douban.com/top250

第二页链接：https://movie.douban.com/top250?start=25&filter=

第三页链接：https://movie.douban.com/top250?start=50&filter=

规律：https://movie.douban.com/top250?start=\d+&filter=

标题：//a/span[@class="title"][1]

信息：//div[@class="bd"]/p[1]/text()

评分：//div[@class="star"]/span[2]/text()

简介：//span[@class="inq"]/text()

然后使用sscrapy startproject douban 创建项目

sscrapy genspider dopuban movie.douban.com

然后依次编写下面的文件：

items.py

doubanmovie.py

settings.py

pipelines.py

豆瓣电影top250爬取并保存在MongoDB里的更多相关文章

豆瓣电影信息爬取(json)
豆瓣电影信息爬取(json) # a = "hello world" # 字符串数据类型# b = {"name":"python"} # ...
5分钟掌握智联招聘网站爬取并保存到MongoDB数据库
前言本次主题分两篇文章来介绍: 一.数据采集二.数据分析第一篇先来介绍数据采集,即用python爬取网站数据. 1 运行环境和python库先说下运行环境: python3.5 windows ...
Scrapy教程--豆瓣电影图片爬取
一.先上效果二.安装Scrapy和使用官方网址:https://scrapy.org/. 安装命令:pip install Scrapy 安装完成,使用默认模板新建一个项目,命令:scrapy s ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
利用python2.7正则表达式进行豆瓣电影Top250的网络数据采集及MySQL数据库操作
转载请注明出处利用python2.7正则表达式进行豆瓣电影Top250的网络数据采集 1.任务采集豆瓣电影名称.链接.评分.导演.演员.年份.国家.评论人数.简评等信息将以上数据存入MySQL数 ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
【转】爬取豆瓣电影top250提取电影分类进行数据分析
一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入主题吧! 知道我们需要的内容在哪里了, ...

随机推荐

Rafy中的IOC
Rafy是什么可以通过下面博客来了解 Rafy 领域实体框架演示(3) - 快速使用 C/S 架构部署 - BloodyAngel - 博客园以下是看源码中的一点记录,供以后学习使用主要是Rafy ...
有 a - b < c 对Java安全性的思考
软件工程中,不论使用哪种开发语言,安全性一直是一个非常棘手却又重要的问题.安全性是软件开发领域永远的主题之一,而且随着互联网的蜂拥发展而带动的新技术的兴起与革命(比如近几年火起来的node.js,py ...
java:Filter、Listener 自定义拦截器和过滤器应用
一,Filter FilterEncoding 过滤器,统一设置servlet的编码格式. package com.dkt.filter; import java.io.IOException; im ...
call aplly笔记
<script> /*1.每个函数都包含两个非继承而来的方法:apply()和call(). 2.他们的用途相同,都是在特定的作用域中调用函数. 3.接收参数方面不同,apply()接收两 ...
浅谈 JavaScript 中常用数据及其类型转换
在 JavaScript 中有一些 value 会经常碰到: [] (空数组).{} (空对象).'' (空字符串).undefined.null.0.NaN.Infinite 也会经常碰到数据类型转 ...
应用Python处理空间关系数据
from osgeo import ogrimport jsonfrom geojson import loads, dumps, Feature, FeatureCollectionfrom sha ...
激活函数（relu，prelu，elu，+BN）对比on cifar10
激活函数(relu,prelu,elu,+BN)对比on cifar10 可参考上一篇: 激活函数 ReLU.LReLU.PReLU.CReLU.ELU.SELU 的定义和区别一．理论基础 ...
[转]Linux内核最新的连续内存分配器(CMA)——避免预留大块内存
http://blog.csdn.net/21cnbao/article/details/7309757 在我们使用ARM等嵌入式Linux系统的时候,一个头疼的问题是GPU,Camera,HDMI等 ...
在weblogic下部署找不到授权文件的解决方法
很多用户在weblogic上部署的时候,会遇到类似的报错信息,提示授权找不到,解决这个问题的思路如下: 第一步确定授权的没有过期, 客户如果修改了系统时间,会对授权生效产生影响,在进行操作前先将 ...
Android手势密码实现
图二.实现思路: 1. 正上方的提示区域,用一个类(LockIndicator.java)来实现,自定义view来绘制9个提示图标: 2. 手势密码绘制区域,用一个类(GestureContentV ...

豆瓣电影top250爬取并保存在MongoDB里

豆瓣电影top250爬取并保存在MongoDB里的更多相关文章

随机推荐

热门专题