笔记-爬虫部署及运行工具-scrapydweb 1.      简介 scrapyd是爬虫部署工具,但它的ui比较简单,使用不是很方便. scrapydweb以scrapyd为基础,增加了ui界面和监控,使用非常方便. 2.      部署-scrapyd 使用scrapyd部署. 注意:在windows下无法部署,因为不能执行scrapyd-deploy命令. 2.1.    部署 第一步:修改scrapy.cfg为下列样式: # Automatically created by: scrap…
目录 Kettle学习笔记(一)-环境部署及运行 Kettle学习笔记(二)- 基本操作 kettle学习笔记(三)- 定时任务的脚本执行 Kettle学习笔记(四)- 总结 Kettle简介 Kettle是一款国外开源的ETL工具,纯java编写,可以在Windows.Linux.Unix上运行,s数据抽取高效稳定.Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出.Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提…
笔记-爬虫-js代码解析 1.      js代码解析 1.1.    前言 在爬取网站时经常会有js生成关键信息,而且js代码是混淆过的. 以瓜子二手车为例,直接请求https://www.guazi.com/bj/buy/会返回一个203状态大小为5324的包,核心是js代码. 它负责生成cookie及跳转,想要初始cookie,就需要解决它或绕过它. <!DOCTYPE html> <html lang="en"> <head> <met…
前言 前面国庆节的时候写过一个简易的爬虫. <Python 简易爬虫实战> 还没看过的同学可以先看一下,这只爬虫主要用来爬取各个博客平台的阅读量等数据,一直以来都是每天晚上我自己手动在本地电脑运行,中间也有过几次忘记运行了,导致没有当天的统计数据. 当然最好的办法就是把这只爬虫部署在服务器上,让服务器定时去运行,这样就不需要我每天人工运行了,还有另外一件事就是之前也说了要做一个统计页面,自己挖的坑,要自己填起来. 正好最近各个云服务厂商都在搞双十一的活动,小编一眼看下去,都是新用户才能享受优惠…
<Linux就该这么学>培训笔记_ch01_部署虚拟环境安装Linux系统 文章最后会post上书本的笔记照片. 文章主要内容: 在虚拟机中安装红帽RHEL7系统 在Linux系统中找回root管理员密码的方法 RPM与Yum软件仓库 systemd初始化进程和必须记住的管理服务命令 书本笔记 在虚拟机安装RHEL7系统 随书配套的软件资源请在这里下载:https://www.linuxprobe.com/tools/ ,除了RHEL系统镜像我是通过上述链接下载,其余的虚拟机软件,Win10,…
Centos7上一次War包的部署与运行 前言 由于前段时间第一次部署一个小型的项目,时间一长所以有些步骤有时候时间一长就忘了,在此做个简单的记录 一.原始系统开发环境 操作系统:Windows10: 开发语言:前端:Html,CSS,JavaScript:后台:Java: 开发环境:IntelliJ IDEA 2018,Tomcat8.5: 数据库:MySQL: SDK:JDK1.8 二.当前运行环境 阿里云,Centos7系统 JDK8,MySql5.7,Tomcat8.5. 工具:Xshe…
scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API来部署爬虫项目和控制爬虫运行 scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们 安装扩展 pip install scrapyd pip install scrapyd-client   首先修改项目的 scrapy.cfg 文件 原始内容为 [deploy] #url = http://localhost:6800/ project = funsion   修改为 [deploy:f…
Linux:Ubuntu下部署Web运行环境 本次博客将会从三部分内容详述Ubuntu系统下Web运行环境的配置: 依次是:FTP服务器的搭建.MYSQL数据库的搭建.JDK的安装等. 参考文章如下: FTP服务器的搭建 首先阐述一下,我们为什么要搭建FTP服务器,因为我们在本地开发后,要同步应用到服务器,此时需要发送文件的功能,利用FTP可以解决这个问题,同时也方便以后自己用服务器存储一些文件担任云盘等等. Step1:安装VSFTPD sudo apt-get install vsftpd…
笔记-爬虫-scrapy-srcapy-redis组件 1.      简介 scrapy是一个爬虫框架,但不支持分布式,scrapy-redis是为了更方便的实现scrapy分布式爬虫的组件. 可以在pypi上找到:https://pypi.org/project/scrapy-redis/ 1.1.    安装 可以使用pip安装 pip install scrapy-redis pip show scrapy-redis 目前最新版是0.6.8. 2.      使用 Scrapy-red…
http://f.dataguru.cn/thread-240156-1-1.html 软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7 前面的3篇文章中,Nutch 快速入门(Nutch 1.7),Nutch 快速入门(Nutch 2.2.1),在Eclipse里运行Nutch,Nutch都是跑在单机上,本文把Nutch部署到Hadoop集群上,在真正的分布式Hadoop集群上跑. 前提 学会了搭建一个分布式Hadoop集群,见在CentOS上…