将爬取的数据保存到mysql中

为了把数据保存到mysql费了很多周折，早上再来折腾，终于折腾好了

安装数据库

1、pip install pymysql(根据版本来装)

2、创建数据

打开终端键入mysql -u root -p 回车输入密码

create database scrapy (我新建的数据库名称为scrapy)

3、创建表

use scrapy;

create table xiaohua (name varchar(200) ,url varchar(100));

数据库部分就酱紫啦

4、编写pipeline

5、编写setting

6、编写spider文件

7、爬取数据保存到mysql

scrapy crawl xhwang

之前报错为2018-10-18 09:05:50 [scrapy.log] ERROR: (1241, 'Operand should contain 1 column(s)')

因为我的spider代码中是这样

附一张网上找到的答案

错误原因：item中的结果为{'name':[xxx,xxxx,xxxx,xxx,xxxxxxx,xxxxx],'url':[yyy,yyy,yy,y,yy,y,y,y,y,]},这种类型的数据

更正为6下面代码后出现如下会有重复

然后又查了下原因终于解决问题之所在

在图上可以看出，爬取的数据结果是没有错的，但是在保存数据的时候出错了，出现重复数据。那为什么会造成这种结果呢？

其原因是由于spider的速率比较快，scrapy操作数据库相对较慢，导致pipeline中的方法调用较慢，当一个变量正在处理的时候

一个新的变量过来，之前的变量值就会被覆盖了，解决方法是对变量进行保存，在保存的变量进行操作，通过互斥确保变量不被修改。

在pipeline中修改如下代码

完成以上设定再来爬取，OK 大功告成（截取部分）

将爬取的数据保存到mysql中的更多相关文章

1.scrapy爬取的数据保存到es中
先建立es的mapping,也就是建立在es中建立一个空的Index,代码如下:执行后就会在es建lagou 这个index. from datetime import datetime fr ...
使用scrapy爬取的数据保存到CSV文件中，不使用命令
pipelines.py文件中 import codecs import csv # 保存到CSV文件中 class CsvPipeline(object): def __init__(self): ...
顺企网爬取16W数据保存到Mongodb
import requests from bs4 import BeautifulSoup import pymongo from multiprocessing.dummy import Pool ...
Asp.net Session 保存到MySql中
一网站项目引入"mysql.web.dll" 二 web.config配置中添加mysql数据库连接字符串 <connectionStrings> <remov ...
Python scrapy爬虫数据保存到MySQL数据库
除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中.为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 ...
c# 抓取和解析网页，并将table数据保存到datatable中（其他格式也可以，自己去修改）
使用HtmlAgilityPack 基础请参考这篇博客:https://www.cnblogs.com/fishyues/p/10232822.html 下面是根据抓取的页面string 来解析并保存 ...
Excel文件数据保存到SQL中
1.获取DataTable /// <summary> /// 查询Excel文件中的数据 /// </summary> /// <param name="st ...
Redis使用场景一，查询出的数据保存到Redis中，下次查询的时候直接从Redis中拿到数据。不用和数据库进行交互。
maven使用:  <dependency> <groupId>redis.clients</groupId> < ...
python之scrapy爬取数据保存到mysql数据库
1.创建工程 scrapy startproject tencent 2.创建项目 scrapy genspider mahuateng 3.既然保存到数据库,自然要安装pymsql pip inst ...

随机推荐

课程四(Convolutional Neural Networks)，第二周（Deep convolutional models: case studies） —— 1.Practice questions
[解释] 应该是same padding 而不是 valid padding . [解释] 卷积操作用的应该是adding additional layers to the network ,而是应该 ...
3分钟学会git命令的基础使用
前言废话下面我们就来看看gitlab服务器搭建好(http://www.cnblogs.com/JeremyWYL/p/8258368.html) 之后,git命令的基础使用,基本上就能满足我们平时 ...
JVM 监控，调优，调试
JVM监控工具 Java的安装包自带了很多优秀的工具,善用这些工具对于监控和调试Java程序非常有帮助.常用工具如下: jps 用途:jps用来查看JVM里面所有进程的具体状态, 包括进程ID,进程启 ...
spring的摘录
从零开始学 Web 之移动Web（九）微金所案例
大家好,这里是「从零开始学 Web 系列教程」,并在下列地址同步更新...... github:https://github.com/Daotin/Web 微信公众号:Web前端之巅博客园:ht ...
got & plt
got plt类似与Windows PE文件中IAT(Import Address Table). 要使的代码地址无关,基本思想就是把与地址相关的部分放到数据段里面. ELF的做法是在数据段里面建立一 ...
PHP错误解决：Fatal error: Unknown: Failed opening required ...
最近学习PHP,使用XAMPP在Ubuntu下配置完Apache等之后,尝试了一下,但出现如下错误: Warning: Unknown: failed to open stream: 鏉冮檺涓嶅 i ...
git在工作中的用法总结-环境安装篇
使用git有很长一段时间了 ,平时用到的时候都是直接google,经常用到的一些也记录在笔记中,但有时候笔记太多,实在是太乱了(其实是我太懒~ 哈?),找都要半天的时候还不如直接google,今天有空 ...
spring boot整合JMS(ActiveMQ实现)
pom依赖如下: <?xml version="1.0" encoding="UTF-8"?> <project xmlns="ht ...
再会，OI
现在时间是一八年的七月二十一日下午,NOI2018 闭幕式已经结束.嗯,结束了... 谢绝了李总的好意也没有让父母来接,有段路还是要自己一个人走的... 总结一下 NOI ...其实也没有什么好总结的 ...

将爬取的数据保存到mysql中

将爬取的数据保存到mysql中的更多相关文章

随机推荐

热门专题