第6章通过CrawlSpider对招聘网站进行整站爬取

通过前几章的2个项目的学习，其实本章的拉钩网项目还是挺容易理解的。

本章主要的还是对CrawlSpider源码的解析，其实我对源码还不是很懂，只是会基本的一些功能而已。

不分小节记录了，直接上知识点，可能比较乱。

1.建立数据表sql语句参考

 CREATE TABLE `lagou_job` (

   `job_id` int(11) NOT NULL DEFAULT '' COMMENT '职位页面的id',

   `title` varchar(255) NOT NULL COMMENT '职位名称',

   `url` varchar(255) NOT NULL COMMENT '职位链接',

   `salary` varchar(255) DEFAULT NULL COMMENT '工资',

   `job_city` varchar(255) DEFAULT NULL COMMENT '城市',

   `work_years` varchar(255) DEFAULT NULL COMMENT '工作经验',

   `degree_need` varchar(255) DEFAULT NULL COMMENT '学历',

   `job_type` varchar(255) DEFAULT NULL COMMENT '工作性质',

   `publish_time` varchar(255) DEFAULT NULL COMMENT '发布时间',

   `job_advantage` varchar(255) DEFAULT '' COMMENT '职位诱惑',

   `job_desc` longtext COMMENT '职位描述',

   `job_addr` varchar(255) DEFAULT NULL COMMENT '工作详细地点',

   `company_url` varchar(255) DEFAULT NULL COMMENT '公司链接',

   `company_name` varchar(255) DEFAULT NULL COMMENT '公司名称',

   PRIMARY KEY (`job_id`)

 ) ENGINE=MyISAM DEFAULT CHARSET=utf8;

2.继承CrawlSpider

scrapy genspider -t crawl lagou www.lagou.com

3.根目录问题

有时候from ... import ...出错的时候，可以看看根目录是不是对的

4.CrawlSpider使用说明

参考scrapy文档： http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html#crawlspider

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6757603.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

第6章通过CrawlSpider对招聘网站进行整站爬取的更多相关文章

通过CrawlSpider对招聘网站进行整站爬取（拉勾网实战）
爬虫首先要明确自己要爬取的网站以及内容进入拉勾网的网站然后看看想要爬取什么内容职位,薪资,城市,经验要求学历要求,全职或者兼职职位诱惑,职位描述提取公司的名称以及在拉勾网的url等等然后在na ...
Scrapy 使用CrawlSpider整站抓取文章内容实现
刚接触Scrapy框架,不是很熟悉,之前用webdriver+selenium实现过头条的抓取,但是感觉对于整站抓取,之前的这种用无GUI的浏览器方式,效率不够高,所以尝试用CrawlSpider来实 ...
写了一个Windows服务，通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG，并提醒我
写了一个Windows服务,通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG,并提醒我 1.HttpUtil工具类,用于模拟用户登录以及爬取网页: using System; using ...
网站seo整站优化有什么优势
http://www.wocaoseo.com/thread-314-1-1.html 现在很多企业找网络公司做网站优化,已经不再像以前那样做目标关键词,而是通过整站优化来达到企业营销目的 ...
8月份Python招聘情况怎么样？Python爬取招聘数据，并进行分析
前言拉勾招聘是专业的互联网求职招聘平台.致力于提供真实可靠的互联网招聘求职找工作信息.今天我们一起使用 python 采集拉钩的 python 招聘信息,分析一下找到高薪工作需要掌握哪些技术开发环 ...
歌曲网站，教你爬取 mp3 和 lyric
从歌曲网站,获取音频和歌词的流程: 1, 输入歌曲名,查找网站中存在的歌曲 id 2, 拿歌曲 id 下载歌词 lyric 简单的 url 拼接 3, 拿歌曲 id 下载音频 mp3 先用一个 POS ...
wget整站抓取、网站抓取功能；下载整个网站；下载网站到本地
wget -r -p -np -k -E http://www.xxx.com 抓取整站 wget -l 1 -p -np -k http://www.xxx.com 抓取第一级 - ...
python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制
CrawlSpider实现的全站数据的爬取新建一个工程 cd 工程创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com 连接提取器Link ...
scrapy框架之CrawlSpider全站自动爬取
全站数据爬取的方式 1.通过递归的方式进行深度和广度爬取全站数据,可参考相关博文(全站图片爬取),手动借助scrapy.Request模块发起请求. 2.对于一定规则网站的全站数据爬取,可以使用Cra ...

随机推荐

离线下载解决Nuget程序包及其依赖包的方法
由于使用的一台电脑没有联网,但是需要asp.net core项目时使用到一个package,于是在nuget.org上手动下载.但是最后发现,依赖的包实在太多,手动下载太费时.于是晚上花时间研究了一下 ...
关于StreamReader.ReadToEnd方法
以前写抓取网页的代码喜欢用ReadToEnd,因为简单省事,后来发现,在爬取网页的时候,如果网速很慢,ReadToEnd超时的几率很大.使用Read改写后,超时几率大大减小,完整代码如下: /// & ...
'Install app for SharePoint': Sideloading of apps is not enabled on this site
http://blog.lekman.com/2012/11/sharepoint-2013-sideloading-of-apps-is.html Solution: You need to ena ...
kubectl get componentstatus ERROR：HTTP probe failed with statuscode: 503
通过kubectl命令可以查看k8s各组件的状态: [root@wecloud-test-k8s-1 ~]# kubectl get cs NAME STATUS MESSAGE ERROR cont ...
苹果appID的获取方法
1.登陆 iTunes Connect iTunes Connect 2.选择我的app 3.选择相应的应用 4.查看结果
“全栈2019”Java多线程第十三章：线程组ThreadGroup详解
难度初级学习时间 10分钟适合人群零基础开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...
“全栈2019”Java第一百零六章：匿名内部类与抽象类接口注意事项
难度初级学习时间 10分钟适合人群零基础开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
设置、读取、删除cookie
刚才用虚拟机当服务器,开了两个服务(端口号不同),发现同样的cookie:在别的网站下面没有发现该cookie.说明cookie只是对应相应的网站的(自己得出的结论) ---------------- ...
VS 2010 LINK : fatal error LNK1123: 转换到 COFF 期间失败: 文件无效或损坏
终极解决方案:VS2010在经历一些更新后,建立Win32 Console Project时会出“error LNK1123” 错误,解决方案为将项目|项目属性|配置属性|清单工具|输入和输出|嵌入 ...
Express-及中间件的简单理解
Express Express 是一个基于node平台,保持最小规模的灵活的 Node.js Web 应用程序开发框架,在Node.js基础上扩展对了web应用开发所需要的基础功能为 Web 和移动应 ...

第6章 通过CrawlSpider对招聘网站进行整站爬取

第6章 通过CrawlSpider对招聘网站进行整站爬取的更多相关文章

随机推荐

热门专题

第6章通过CrawlSpider对招聘网站进行整站爬取

第6章通过CrawlSpider对招聘网站进行整站爬取的更多相关文章