ms2
#
准备:
robots
UA 池
图片懒加载
cookie
IP
ajax
js 加密(js逆向 字体加密/大众点评/ base64 md5 AES python复写 要不就是第三方库执行js代码)
验证码 云打码/超级鹰/极验缺口操作 模拟浏览器 -- selenium 动作链 -- chrome无头 解析工具 -- xpath bs4 正则 pyquery 抓包工具 -- fiddler mitproxy 测试工具 -- postman ua 手机端
app text/plain scrapy -基础-
scrapy startproject name
cd name
scrapy genspider sname xxx.com
scrapy crawl sname
- 全量数据获取 - 链接提取器/规则解析器
scrapy startproject name
cd name
scrapy genspider -t crawl spi xxx.com # 基于CrawlSpider类
scrapy crawl spi 基于终端指令的 // scrapy crawl first -o qiubai.csv #指定文件类型有要求.json .csv
基于管道的 // 定义管道类 注册管道类 不同管道类之间return item # 爬虫: 发请求,解析数据
#将url封装请求对象,引擎,调度器(过滤器(去重) 队列(容器 过滤后的请求对象)) 先进先出 引擎 下载器 引擎 spider.response 解析数据 引擎 管道 持久化
# 管道: 接收item,
# 调度器:
# 下载器: 去互联网请求
# 下载中间件作用:拦截请求和响应
# -拦截请求:
# 1 篡改请求头UA UA池,随机random.choice()
# 2 设置相关请求对象的代理IP(process_exception中)
# 引擎(核心): 数据流处理,处理事务
# POST请求的发送:
# 重写def start_requests(self):
# yield scrapy.FormRequest(url,callback,formdata)
# scrapy 默认是自己处理cookie的, settings.py里面COOKIES_ENNABLE=False
# # 日志等级
# settings.py 里面 LOG_LEVEL='ERROR'
# # 日志路径
# settings.py 里面 LOG_FILE = 'path'
# # 请求传参的应用场景:
# 爬取和解析的数据不在同一张页面上面
# 在请求方法中使用meta(字典)参数,该字典会传递参数给回调函数
# 回调函数接收meta:response.meta['key']
settings.py 里面
LOG_LEVEL = ERROR
ROBOTSTXT_OBEY = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36'
ITEM_PIPELINES = { }
ms2的更多相关文章
- linux移植简介[MS2]
一:修改Makefile 1添加编译选项,2添加时钟 二:图形化配置(make menuconfig) 此时生成zlmage, 可以跑起来 三:对NandFlash配置,yaffs2 文件系统配置, ...
- ASP.NET MVC 登录验证
好久没写随笔了,这段时间没 什么事情,领导 一直没安排任务,索性 一直在研究代码,说实在的,这个登录都 搞得我云里雾里的,所以这次我可能也讲得不是 特别清楚,但是 我尽力把我知道的讲出来,顺便也对自 ...
- iOS-多线程介绍
一.前言部分 最近在面试,重新温习了一遍多线程,希望加深一遍对于多线程的理解. 1.什么是进程? 1).要了解线程我们必须先了解进程,通俗来讲进程就是在系统中运行的一个应用程序. 2).每个线程之间是 ...
- Erlang--etc结构解析
Erlang中可以用List表达集合数据,但是如果数据量特别大的话在List中访问元素就会变慢了;这种主要是由于List的绝大部分操作都是基于遍历完成的. Erlang的设计目标是软实时(参考:htt ...
- 小菜学习设计模式(三)—工厂方法(Factory Method)模式
前言 设计模式目录: 小菜学习设计模式(一)—模板方法(Template)模式 小菜学习设计模式(二)—单例(Singleton)模式 小菜学习设计模式(三)—工厂方法(Factory Method) ...
- 魔改——MFC SDI 支持 内嵌 EXCEL OLE
==================================声明================================== 本文版权归作者所有 未经作者授权 请勿转载 保留法律追究的 ...
- 【类库】容器对象(List、DataTable、 DataView、Dictionary)
首先申明一下,写此博文的目的是纪录一下,知识都是现成的,只是整理一下,为了让自己更容易看懂,比在其他地方更容易明白.因为它们太常用了,不忍心每次都去用那么长的时间查看MSDN,希望能在这里用理少的时间 ...
- C#中图片与BASE64码互相转换
//保存目录 string dir = "/upload/user/head"; //站点文件目录 string fileDir = HttpContext.Current.Ser ...
- 【转】bind - DNS 設定
http://www.l-penguin.idv.tw/article/dns.htm 參考資訊 DNS 是所有伺服之母,電腦連節時均以 IP 為主,比方說輸入 202.43.195.52 就會到台灣 ...
随机推荐
- formateDate
function formateDate(fmt, date) { let _this = new Date(date) let o = { "M+": _this.getMont ...
- 同一服务器下发布两个不同网站(war包)的方法(这里采用的是二级域名的方法)
这里是在阿里云服务器的上部署 在本地测试好之后,打包,然后发到服务器上的tomcat的webapp目录上(这个可能会有个bug,先启动下服务器,然后关掉,再启动,那个war包对应的文件才会出来) 这里 ...
- HTML5 canvas绘图基础(电子名片生成器源码)
创建canvas <canvas id="myCanvas" class="canvas"> 您的浏览器不支持canvas </canvas& ...
- P3206 [HNOI2010]城市建设 [线段树分治+LCT维护动态MST]
Problem 这题呢 就边权会在某一时刻变掉-众所周知LCT不支持删边的qwq- 所以考虑线段树分治- 直接码一发 如果 R+1 这个时间修改 那就当做 [L,R] 插入了一条边- 然后删的边和加的 ...
- 【学习笔记】BP神经网络
转自 huaweizte123的CSDN博客 链接 https://blog.csdn.net/huaweizte123/article/details/78803045 第一步.向前传播得到预测数 ...
- [PAT] A1018 Public Bike Management
[思路] 题目生词 figure n. 数字 v. 认为,认定:计算:是……重要部分 The stations are represented by vertices and the roads co ...
- bugku-sql注入2(学习到有用的东西)
这道题只能说坑啊,特别是最后找密码参数那里,真的是磕磕碰碰啊... 但是做完题的整个过程还是学到了很多有用的技巧. 直接来吧: 看了下提示,真的是全都过滤了吗,点进去是一个登录页面 哎,又是一个pos ...
- KiKi's K-Number HDU - 2852 树状数组+二分
#include<iostream> #include<cstring> using namespace std; ; int tr[N]; int lowbit(int x) ...
- ROS开发--在订阅话题的回调函数中发布话题
处理激光数据时,需要将处理后的激光数据再发布,需要保持一致的频率,所以必须在回调函数中发布激光数据信息. 代码参考:https://blog.csdn.net/heyijia0327/article/ ...
- vue router的其他属性、 值的传递 、 懒加载
路由的router-link标签有几个其他属性: 路由可以传递值(一般用作条目的id传递,之后用这个id从axios获取页面显示的数据 第一步: 定义路由以及值的属性名称(之后在跳转路由后页面里面获取 ...