第6章通过CrawlSpider对招聘网站进行整站爬取

通过前几章的2个项目的学习，其实本章的拉钩网项目还是挺容易理解的。

本章主要的还是对CrawlSpider源码的解析，其实我对源码还不是很懂，只是会基本的一些功能而已。

不分小节记录了，直接上知识点，可能比较乱。

1.建立数据表sql语句参考

 CREATE TABLE `lagou_job` (

   `job_id` int(11) NOT NULL DEFAULT '' COMMENT '职位页面的id',

   `title` varchar(255) NOT NULL COMMENT '职位名称',

   `url` varchar(255) NOT NULL COMMENT '职位链接',

   `salary` varchar(255) DEFAULT NULL COMMENT '工资',

   `job_city` varchar(255) DEFAULT NULL COMMENT '城市',

   `work_years` varchar(255) DEFAULT NULL COMMENT '工作经验',

   `degree_need` varchar(255) DEFAULT NULL COMMENT '学历',

   `job_type` varchar(255) DEFAULT NULL COMMENT '工作性质',

   `publish_time` varchar(255) DEFAULT NULL COMMENT '发布时间',

   `job_advantage` varchar(255) DEFAULT '' COMMENT '职位诱惑',

   `job_desc` longtext COMMENT '职位描述',

   `job_addr` varchar(255) DEFAULT NULL COMMENT '工作详细地点',

   `company_url` varchar(255) DEFAULT NULL COMMENT '公司链接',

   `company_name` varchar(255) DEFAULT NULL COMMENT '公司名称',

   PRIMARY KEY (`job_id`)

 ) ENGINE=MyISAM DEFAULT CHARSET=utf8;

2.继承CrawlSpider

scrapy genspider -t crawl lagou www.lagou.com

3.根目录问题

有时候from ... import ...出错的时候，可以看看根目录是不是对的

4.CrawlSpider使用说明

参考scrapy文档： http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html#crawlspider

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6757603.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

第6章通过CrawlSpider对招聘网站进行整站爬取的更多相关文章

通过CrawlSpider对招聘网站进行整站爬取（拉勾网实战）
爬虫首先要明确自己要爬取的网站以及内容进入拉勾网的网站然后看看想要爬取什么内容职位,薪资,城市,经验要求学历要求,全职或者兼职职位诱惑,职位描述提取公司的名称以及在拉勾网的url等等然后在na ...
Scrapy 使用CrawlSpider整站抓取文章内容实现
刚接触Scrapy框架,不是很熟悉,之前用webdriver+selenium实现过头条的抓取,但是感觉对于整站抓取,之前的这种用无GUI的浏览器方式,效率不够高,所以尝试用CrawlSpider来实 ...
写了一个Windows服务，通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG，并提醒我
写了一个Windows服务,通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG,并提醒我 1.HttpUtil工具类,用于模拟用户登录以及爬取网页: using System; using ...
网站seo整站优化有什么优势
http://www.wocaoseo.com/thread-314-1-1.html 现在很多企业找网络公司做网站优化,已经不再像以前那样做目标关键词,而是通过整站优化来达到企业营销目的 ...
8月份Python招聘情况怎么样？Python爬取招聘数据，并进行分析
前言拉勾招聘是专业的互联网求职招聘平台.致力于提供真实可靠的互联网招聘求职找工作信息.今天我们一起使用 python 采集拉钩的 python 招聘信息,分析一下找到高薪工作需要掌握哪些技术开发环 ...
歌曲网站，教你爬取 mp3 和 lyric
从歌曲网站,获取音频和歌词的流程: 1, 输入歌曲名,查找网站中存在的歌曲 id 2, 拿歌曲 id 下载歌词 lyric 简单的 url 拼接 3, 拿歌曲 id 下载音频 mp3 先用一个 POS ...
wget整站抓取、网站抓取功能；下载整个网站；下载网站到本地
wget -r -p -np -k -E http://www.xxx.com 抓取整站 wget -l 1 -p -np -k http://www.xxx.com 抓取第一级 - ...
python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制
CrawlSpider实现的全站数据的爬取新建一个工程 cd 工程创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...
scrapy框架之CrawlSpider全站自动爬取
全站数据爬取的方式 1.通过递归的方式进行深度和广度爬取全站数据,可参考相关博文(全站图片爬取),手动借助scrapy.Request模块发起请求. 2.对于一定规则网站的全站数据爬取,可以使用Cra ...

随机推荐

写了一个Windows服务，通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG，并提醒我
写了一个Windows服务,通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG,并提醒我 1.HttpUtil工具类,用于模拟用户登录以及爬取网页: using System; using ...
Amazon新一代云端关系数据库Aurora（下）
本文由网易云发布. 作者:郭忆本篇文章仅限内部分享,如需转载,请联系网易获取授权. 故障恢复 MySQL基于Check point的机制,周期性的建立redo log与数据页的一致点.一旦数据库 ...
Gogland编译Syncthing！
说明:我仅仅以这个Syncthing工程为例,来说明如何正确使用Goland编译其他人写的工程,应该具有普遍意义,看懂这篇博客,你想用Gogland去编译其他人的工程,应该不是问题!! Syncthi ...
C#上传文件处理
public class FileHelp : System.Web.UI.Page { /// <summary> /// 保存文件 /// 返回:数组:status[0]:文件名称:s ...
【OCP题库-12c】最新CUUG OCP 071考试题库（70题）
70.(31-2)choose the best answer: View the Exhibit and examine the structure of the Book table. The B ...
微信小程序如何转换成分与秒
“全栈2019”Java多线程第十章：Thread.State线程状态详解
难度初级学习时间 10分钟适合人群零基础开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...
OC中NSClassFromString（）与NSStringFromClass（）的用法及应用场景
1.NSClassFromString()利用一个字符串创建一个类,我是在标签控制器中 UITabBarController中创建它的子控制器中使用的 - (void)viewDidLoad { [s ...
[Swift实际操作]八、实用进阶-(3)闭包在定时任务、动画和线程中的使用实际操作
闭包的使用相当广泛,它是可以在代码中被传递和引用的具有独立功能的模块.双击打开之前创建的空白项目.本文将演示闭包在定时任务.动画和线程中的使用.在左侧的项目导航区,打开视图控制器的代码文件:ViewC ...
x == (x = y) 不等于 (x = y) == x ？
简评:不瞒你说,我现在数数都是从 0 开始数的,整数是 1024. 有这么一个 Java 程序: class Quirky { public static void main(String[] arg ...

第6章 通过CrawlSpider对招聘网站进行整站爬取

第6章 通过CrawlSpider对招聘网站进行整站爬取的更多相关文章

随机推荐

热门专题

第6章通过CrawlSpider对招聘网站进行整站爬取

第6章通过CrawlSpider对招聘网站进行整站爬取的更多相关文章