爬虫首先要明确自己要爬取的网站以及内容 进入拉勾网的网站然后看看想要爬取什么内容职位,薪资,城市,经验要求学历要求,全职或者兼职职位诱惑,职位描述提取公司的名称 以及 在拉勾网的url等等 然后在navicat中设计表 我是在数据库article_spider中设计的表lagou_job url varchar url_object_id varchar (作为主键) title varchar salary varchar (薪资) (不确定有没有工资,所以可以是空值) job_city va…
通过前几章的2个项目的学习,其实本章的拉钩网项目还是挺容易理解的. 本章主要的还是对CrawlSpider源码的解析,其实我对源码还不是很懂,只是会基本的一些功能而已. 不分小节记录了,直接上知识点,可能比较乱. 1.建立数据表sql语句参考 CREATE TABLE `lagou_job` ( `job_id` ) ' COMMENT '职位页面的id', `title` ) NOT NULL COMMENT '职位名称', `url` ) NOT NULL COMMENT '职位链接', `…
刚接触Scrapy框架,不是很熟悉,之前用webdriver+selenium实现过头条的抓取,但是感觉对于整站抓取,之前的这种用无GUI的浏览器方式,效率不够高,所以尝试用CrawlSpider来实现. 这里通过一个实例加深对Scrapy框架的理解. 本文开发环境: Win7 64位 Python 3.6 Scrapy 1.5.1 VS Code 1.27.2 本文目标:抓取网站https://blog.scrapinghub.com的所有文章标题. 本文目录: 1.首页的布局分析 2.VSC…
http://www.wocaoseo.com/thread-314-1-1.html       现在很多企业找网络公司做网站优化,已经不再像以前那样做目标关键词,而是通过整站优化来达到企业营销目的.整站SEO优化已经不再把所有精力放力目标关键词上,而是靠大量的低指数甚至没有指数的长尾词来获得流量,由于长尾词的的匹配度更高,所以实际在营销中的转化率也更好,而且长尾词上去的非常多,很多竞争对手无法跟踪和分析,不容易被对方模仿,显然整站优化比主关键词优化更有优势. 整站优化的优势,具体来说可以概括…
wget -r   -p -np -k -E  http://www.xxx.com 抓取整站 wget -l 1 -p -np -k       http://www.xxx.com 抓取第一级 -r 递归抓取-k 抓取之后修正链接,适合本地浏览 http://blog.sina.com.cn/s/blog_669fb0c3010137bq.html wget -m -e robots=off -k -E "http://www.abc.net/"可以将全站下载以本地的当前工作目录,…
xlwt 1.3.0 xlwt 文档 xlrd 1.1.0 python操作excel之xlrd 1.Python模块介绍 - xlwt ,什么是xlwt? Python语言中,写入Excel文件的扩展工具. 相应的有扩展包xlrd,专门用于excel读取. 可以实现指定表单.指定单元格的写入. 2.xlwt使用 导入模块 import xlwt 创建workbook,即创建excel,后来要进行保存 workbook = xlwt.Workbook(encoding = 'utf-8') 创建…
写了一个Windows服务,通过C#模拟网站用户登录并爬取BUG列表查询有没有新的BUG,并提醒我 1.HttpUtil工具类,用于模拟用户登录以及爬取网页: using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net; using System.Text; using System.Threading; namespace Utils { /// <su…
但有时候 我们不想要让它打开浏览器去执行 能不能直接在代码里面运行呢 也就是说 有没有一个无形的浏览器呢 恩 phantomJS 就是 它是一个基于 WebKit 的浏览器引擎 可以做到无声无息的操作各种动态网站 比如 js,css选择器,dom操作的 所以对于市面上大多通过 js 渲染的动态网站 难以解析的网站 想要爬取的话 就会使用到 selenium + phantomjs 那么怎么玩呢 在这个页面可以看到 我们需要的数据有 名称 视频地址 描述 观看次数 弹幕数量 发布时间 待会我们就把…
前言 拉勾招聘是专业的互联网求职招聘平台.致力于提供真实可靠的互联网招聘求职找工作信息.今天我们一起使用 python 采集拉钩的 python 招聘信息,分析一下找到高薪工作需要掌握哪些技术 开发环境: 解释器: Python 3.6.5 | Anaconda, Inc. 编辑器: pycharm 社区版 本文知识点: Python 爬虫基础 json 的使用 requests 的使用 PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取 (想要完整源码的话也可以找群管理…
从歌曲网站,获取音频和歌词的流程: 1, 输入歌曲名,查找网站中存在的歌曲 id 2, 拿歌曲 id 下载歌词 lyric 简单的 url 拼接 3, 拿歌曲 id 下载音频 mp3 先用一个 POST 请求,拿 ID 取音频资源路径, 再用 GET 请求,拿到音频资源 4 个网络请求,解决, 搜索歌曲,获取歌词,获取音频资源路径,获取音频资源 注意的是,4 个网络请求,都要模拟正常的浏览器请求, GET 请求,需要配置请求头, POST 请求,需要配置请求头和请求体 1, 查找网站的歌曲 先准…