【爬虫】把抓到数据存起来—

【爬虫】把抓到数据存起来——爬虫绝配mongodb

抓取数据的方法，前面的课程该讲的都已经讲了，爬取下来数据只是第一步，第二步就是要先存起来。我们最容易想到的就是存文件里喽，python写文件之前的课程也已经讲过了。存到文件里当然是可以的，但是你是否想过，每次使用都要把整个文件打开，然后读取，实在是有点不geek啊。
所以我们通常会选择存进数据库，方便写入和读取数据，并且对于大部分情况而言，python数据结构中的dict足够我们去结构化抓取的数据，那么能把两者发挥到极致的神器就是——mongodb！

mongodb

分布式
松散数据结构（json）
查询语言强大

文档

你可以看做是一个dict，dict里面还可以嵌套dict，例如：

{"name": "alan", score_list: {"chinese": 90, "english": 80}}

集合

一组文档，就是一堆dict。

数据库

多个集合组成数据库

这么理解：你可以把mongodb看做一个图书馆，图书馆中每本书就是文档，一个书架上的书是个集合，每个图书室的书架加起来就是个数据库。

安装

官方安装方法
学我教程的同学应该都知道，我不会给出具体步骤，鼓励大家按照官方文档去摸索，屏蔽伸手党。

该如何把抓取到的数据存入mongodb

把抓到的数据写成你想要的dict形式
insert到指定的书架上
没了。。。

增删查改例子 python2版本

需要安装pymongo

pip install pymongo

mongo_api.py

# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymongo
import sys
import unittest
reload(sys)
sys.setdefaultencoding('utf-8')
class MongoAPI(object):
def __init__(self, db_ip, db_port, db_name, table_name):
self.db_ip = db_ip
self.db_port = db_port
self.db_name = db_name
self.table_name = table_name
self.conn = pymongo.MongoClient(host=self.db_ip, port=self.db_port)
self.db = self.conn[self.db_name]
self.table = self.db[self.table_name]
def get_one(self, query):
return self.table.find_one(query, projection={"_id": False})
def get_all(self, query):
return self.table.find(query)
def add(self, kv_dict):
return self.table.insert(kv_dict)
def delete(self, query):
return self.table.delete_many(query)
def check_exist(self, query):
ret = self.get(query)
return len(ret) > 0
# 如果没有会新建
def update(self, query, kv_dict):
ret = self.table.update_many(
query,
{
"$set": kv_dict,
}
)
if not ret.matched_count or ret.matched_count == 0:
self.add(kv_dict)
elif ret.matched_count and ret.matched_count > 1:
self.delete(query)
self.add(kv_dict)
class DBAPITest(unittest.TestCase):
def setUp(self):
self.db_api = MongoAPI("127.0.0.1", # 图书馆大楼地址
27017, # 图书馆门牌号
"test", # 一号图书室
"test_table") # 第一排书架
def test(self):
db_api = self.db_api
db_api.add({"url": "test_url", "k": "v"})
self.assertEqual(db_api.get_one({"url": "test_url"})["k"], "v")
db_api.update({"url": "test_url"}, {"url_update": "url_update"})
ob = db_api.get_one({"url": "test_url"})
self.assertEqual(ob["url_update"], "url_update")
db_api.delete({"url": "test_url"})
self.assertEqual(db_api.get_one({"url": "test_url"}), None)
if __name__ == '__main__':
unittest.main()

windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
nutch2.x 在eclipse中实现抓取数据存进mysql步骤最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步. 对nutc ...
NET 5 爬虫框架/抓取数据
爬虫大家或多或少的都应该接触过的,爬虫有风险,抓数需谨慎. 爬虫有的是抓请求,有的是抓网页再解析本着研究学习的目的,记录一下在 .NET Core 下抓取数据的实际案例.爬虫代码一般具有时效性,当 ...
python抓取数据常见反爬虫情况
1.报文头信息: User-Agent Accept-Language 防盗链上referer 随机生成不同的User-Agent构造报头 2.加抓取等待时间每抓取一页都让它随机休息几秒,加入此 ...
Python爬虫处理抓取数据中文乱码问题
乱码原因:因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件.但是windows的本地默认编码是cp936,也就是gbk编码,所以在控制台直接打印utf-8的字符串当然是乱码了. ...
使用python抓取数据之菜鸟爬虫1
''' Created on 2018-5-27 @author: yaoshuangqi ''' #本代码获取百度乐彩网站上的信息,只获取最近100期的双色球 import urllib.reque ...
Python3爬虫（十）数据存储之非关系型数据库MongoDB
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一.非关系型数据库NoSQL全程是Not Only SQL,非关系型数据库.NoSQL是基于键值对的,不需要经过S ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...

随机推荐

Js学习03--数据类型
一.数据类型 1.Js中常用的数据类型简单数据类型 Number 数字类型 String 字符串类型 Boolean 布尔类型 Undefined 变量未初始化 Null 空类型复杂数据 ...
面试6 --- 当List<String> list =new ArrayList<String>(20); 他会扩容多少次
当List<String> list =new ArrayList<String>(20); 他会扩容多少次?A 0 B 1 C 2 D 3答案是A: 因为这个集合 ...
win server 检查是否是ntfs文件系统
fsutil fsinfo volumeinfo c: | findstr /i "文件系统名"
SpringCloud整合过程中jar依赖踩坑经验
今天在搭建SpringCloud Eureka过程中,一直在报pom依赖错误,排查问题总结如下经验. 1.SpringBoot整合SpringCloud两者版本是有严格约束的,详细见SpringBoo ...
python逻辑编程之kanren
https://github.com/logpy/logpy https://pypi.org/project/kanren/ https://www.yiibai.com/ai_with_pytho ...
【洛谷 P3193】 [HNOI2008]GT考试（KMP，dp，矩阵乘法）
题目链接 $f[i][j]$表示准考证号到第$i$位,不吉利数字匹配到第$j$位的方案数. 答案显然是$\sum_{i=0}^{m-1}f[n][i]$ \(f[i][j]=\sum_ ...
canvas教程(三) 绘制曲线
经过 canvas 教程(二) 绘制直线我们知道了 canvas 的直线是怎么绘制的而本次是给大家带来曲线相关的绘制绘制圆形在 canvas 中我们可以使用 arc 方法画一个圆 contex ...
iOS原生与H5交互
一.WKWebView WKWebView 初始化时,有一个参数叫configuration,它是WKWebViewConfiguration类型的参数,而WKWebViewConfiguration ...
某位前辈的Image识图，，有点意思，先留存
import PIL from PIL import Image def get_bin_table(threshold=155): ''' 获取灰度转二值的映射table 0表示黑色,1表示白色 ' ...
防火墙firewall
开放端口 firewall-cmd --zone=public --add-port=80/tcp firewall-cmd --zone=public --add-port=80 ...

【爬虫】把抓到数据存起来——爬虫绝配mongodb

【爬虫】把抓到数据存起来——爬虫绝配mongodb

mongodb

文档

集合

数据库

安装

该如何把抓取到的数据存入mongodb

增删查改例子 python2版本

【爬虫】把抓到数据存起来——爬虫绝配mongodb的更多相关文章

随机推荐

热门专题