关于在linux上部署scrapy的爬虫

1.在服务器中安装chrome

 sudo apt-get install libxss1 libappindicator1 libindicator7

 wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb

 sudo dpkg -i google-chrome*.deb

 sudo apt-get install -f

2.安装scrapy

　　sudo apt-get install python3-scrapy

　　可能pip会熟悉一些，但是还是推荐使用这种方法。因为服务器可能并没有内置pip3，而pip是给python2安装的操作

3.一些非常麻烦的操作

关于chrome not reachable的问题

　　可能是在setting.py中关闭了cookie导致

安装chromedriver

 wget https://npm.taobao.org/mirrors/chromedriver/79.0.3945.36/chromedriver_linux64.zip

 unzip chromedriver_linux64.zip

给予chromedriver软连接

　　　　ln -s chromedriver的目录 /usr/bin/chromedriver

　　　　这一步更多是将chromedriver与系统建立联系，类似于windows的添加path（这一步我也不是很明白，如果有谁知道欢迎指正）

不可用root打开的解决方法

　　　　这里需要使用vim：# vim /usr/bin/google-chrome

　　　　并进行如下操作：

 将 exec -a "$0" "$HERE/chrome" "$@"  改为

 exec -a "$0" "$HERE/chrome" "$@" --no-sandbox $HOME

4.设置无界面化的chrome

     def __init__(self, **kwargs):

         super().__init__(**kwargs)

         self.options = webdriver.ChromeOptions()

         self.options.add_argument('--headless')

         self.options.add_argument('--disable-gpu')

         self.options.add_argument('--no-sandbox')

         self.options.add_argument('blink-settings=imagesEnabled=false')

         self.browser = webdriver.Chrome(chrome_options=self.options)

         self.browser.set_page_load_timeout(30)

5.在后台执行的命令：

nohup python -u run.py > test.log 2>&1 &

ps -A 可以查看进程

kill -9 [进程编号]终止后台

6.使用后台执行运行scrapy

首先要新建一个run.py在spider目录里。

 import os

 if __name__ == '__main__':

     os.system("scrapy crawl passage")

运行的时候用nohup执行run.py

nohup python -u run.py > test.log 2>&1 &

关于在linux上部署scrapy的爬虫的更多相关文章

Linux上部署SVN
Linux上部署SVN author:headsen chen 2017-10-16 16:45:04 前提:通过yum来安装,必须是centos6.5的桌面版的.否则会出现某些的安装包不全而导致 ...
在Linux上部署Web项目
You believe it or not there is a feeling, lifetime all not lost to time. 在Linux上部署Web项目这个是普通的web项目, ...
Linux上部署多个tomcat端口设置
在Linux上部署多个tomcat主要是防止端口冲突的问题, tomcat服务器需配置三个端口才能启动,安装时默认启用了这三个端口,当要运行多个tomcat服务时需要修改这三个端口,不能相同.端口一: ...
在linux上部署tomcat服务
在linux上部署tomcat 1.安装JDK 2.下载tomcat http://tomcat.apache.org/download-70.cgi 3.上传到服务器,并解压 4.上传war包或者已 ...
一、netcore跨平台之 Linux上部署netcore和webapi
这几天闲着的时候在linux上部署了一下netcore webapi,下面就纪要一下这个过程. 中间遇到不少的坑,心里都是泪啊. 话不多说,开始干活. ------------------------ ...
Dubbo入门到精通学习笔记（二）：Dubbo管理控制台、使用Maven构建Dubbo的jar包、在Linux上部署Dubbo privider服务（shell脚本）、部署consumer服务
文章目录 Dubbo管理控制台 1.Dubbo管理控制台的主要作用: 2.管理控制台主要包含: 3.管理控制台版本: 安装 Dubbo 管理控制台使用Maven构建Dubbo服务的可执行jar包 D ...
Linux上部署web服务器并发布web项目-转
Linux上部署web服务器并发布web项目近在学习如何在linux上搭建web服务器来发布web项目,由于本人是linux新手,所以中间入了不少坑,搞了好久才搞出点成果.以下是具体的详细步骤以 ...
在linux上部署自己开发的web项目
在linux上部署自己开发的web项目前言:相信有很多做开发的小伙伴和我之前一样,只会在windows环境下,利用开发工具开发运行web项目,但是却不知道怎么把开发好的项目部署到linux服务器上去 ...
linux 上部署 YApi 可视化接口管理平台
linux 上部署 YApi 可视化接口管理平台: YApi 是一个高效.易用.功能强大的可视化接口管理平台,官方地址 : http://yapi.demo.qunar.com/ 环境要求 nodej ...

随机推荐

[MySQL] 为什么要给表加上主键
1.一个没加主键的表,它的数据无序的放置在磁盘存储器上,一行一行的排列的很整齐. 2.一个加了主键的表,并不能被称之为「表」.如果给表上了主键,那么表在磁盘上的存储结构就由整齐排列的结构转变成了树状结 ...
磁盘I/O 监控 iostat
iostat -cdxm 2 5 dm-4 如果没有这个命令,需要安装sysstat 包. Usage: iostat [ options ] [ <interval> [ <cou ...
使用Lambda解决_inbound_nodes错误
Keras出现了下面的错误: AttributeError: 'NoneType' object has no attribute '_inbound_nodes' 原因是使用了Keras backe ...
tar命令-解压和压缩文件
tar命令可以用来压缩打包单文件.多个文件.单个目录.多个目录. Linux打包命令_tar tar命令可以用来压缩打包单文件.多个文件.单个目录.多个目录. 常用格式: 单个文件压缩打包 tar ...
LAMP组合
动,静资源: 静态资源:客户端从服务器获得的资源表现形式与原文件相同动态资源:通常是程序文件,需要在服务器执行之后,将执行的结果返回给客户端. 我们还可以这样理解静态资源:服务器端接入到客户端的请求 ...
shell 之for循环几种写法
参见博客 http://blog.csdn.net/babyfish13/article/details/52981110 ,此博客写的非常清晰明了.
CF1193A Amusement Park
洛谷 CF1193A Amusement Park 洛谷传送门题目翻译有一个游乐场有一个好玩的项目:一些有向滑梯可以将游客从一个景点快速.刺激地传送到另一个景点.现在,你要帮游乐场老板来规划一个造 ...
calc()在less中编译报错
calc()对大家来说,或许很陌生,不太会相信calc()是css中的部分.因为看其外表像个函数,既然是函数为何又出现在CSS中呢? calc() 函数用于动态计算长度值. 需要注意的是,运算符前后都 ...
日常笔记5C/C++快速入门一些基础细节
一.变量数据类型 int大致范围:-210^9~210^9 long long大致范围:-910^18~910^18,对于长整型来说,如果赋值大于2^31-1的初值,就需要在初值后面加上LL,否则会编 ...
WIMBuilder2软件包及精简方案,请把补丁包放到指定位置
WIMBuilder2软件包及精简方案请把补丁包放到指定位置WimBuilder2-20190901\Projects\WIN10XPE\目录下面精简方案测试适用于LTSB2019.17763.316 ...

关于在linux上部署scrapy的爬虫

1.在服务器中安装chrome

2.安装scrapy

3.一些非常麻烦的操作

关于chrome not reachable的问题

安装chromedriver

给予chromedriver软连接

不可用root打开的解决方法

4.设置无界面化的chrome

5.在后台执行的命令：

6.使用后台执行运行scrapy

关于在linux上部署scrapy的爬虫的更多相关文章

随机推荐

热门专题