HTML的三大概念:标签.元素以及属性 标签:尖括号中的文本       例:<head>……</head> 标签通常成对出现 元素:标签中的所有内容        元素中可包含元素 属性:标签的特殊标注等     例:<a href="http:\\www.baidu.com">……</a>  其中,href部分称为属性 使用XPath选择HTML元素 使用‘/’+标签名定位 例: /html/body        将定位到body部…
windows下安装scrapy 依次执行下列操作: pip install wheel pip install lxml pip install PyOpenssl 安装Microsoft visual c++ build tools pip install twisted 当此处提示错误时,安装Microsoft Visual C++ Compiler for Python 2.7 下载地址:https://www.microsoft.com/en-us/download/confirmat…
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<underscorce>) 项目目录层级如下: 声明Item 声明我们可能用到的所有字段,包括管理字段等.管理字段可以让我们清楚何时(date).何地(url server)及如何(spider)执行爬去,此外,还可以自动完成诸如使item失效.规划新的抓取迭代或是删除来自有问题的爬虫的item. 管理字段 Pytho…
scrapy的最通用的爬虫流程:UR2IM U:URL R2:Request 以及 Response I:Item M:More URL 在scrapy shell中打开服务器一个网页 cmd中执行:scrapy shell http://www.baidu.com    (可以使用exit()退出) 此时,scrapy执行一个默认的GET请求,并得到一个状态码为200的响应 可以使用response.body打印页面源码(或部分字符) 例:response.body[:50] 同时,也可使用r…
<精通Python爬虫框架Scrapy>学习资料 百度网盘:https://pan.baidu.com/s/1ACOYulLLpp9J7Q7src2rVA…
学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳 JERRY_Z. ~ 2020 / 9 / 25 转载请注明出处!️ 目录 学会Git玩转GitHub(第一篇) 入门详解 - 精简归纳 一.使用GitHub (1).目的 (2).基本概念 <1>.仓库(Repository) <2>.收藏(Star) <3>.复制克隆项目(Fork) <4>.发送请求(Pull Request) <5>.关注(Watch) <6>.事务…
1 创建项目scrapy startproject tutorial 2 定义Itemimport scrapyclass DmozItem(scrapy.Item):    title = scrapy.Field()    link = scrapy.Field()    desc = scrapy.Field()paser完后的数据保存到item列表,在传给pipeline使用 3 编写第一个爬虫(Spider), 保存在 tutorial/spiders 目录下的 dmoz_spider…
目的 爬取http://seputu.com/数据并存储csv文件 导入库 lxml用于解析解析网页HTML等源码,提取数据.一些参考:https://www.cnblogs.com/zhangxinqi/p/9210211.html requests请求网页 chardet用于判断网页中的字符编码格式 csv用于存储文本使用. re用于正则表达式 from lxml import etree import requests import chardet import csv import re…
FormData 1. 概述 FormData类型其实是在XMLHttpRequest 2级定义的,它是为序列化表以及创建与表单格式相同的数据(当然是用于XHR传输)提供便利. 2. 构造函数 创建一个formData对象实例有几种方式 1.创建一个空对象实例 var formData = new FormData(); 此时可以调用append()方法来添加数据 2.使用已有的表单来初始化一个对象实例 假如现在页面已经有一个表单 名字 密码 " title="" data-…
原创 2018-02-14 孟船长 自动化测试实战 URL是Uniform Resource Locator的缩写,即统一资源定位符. 一个URL通常由一下几个部分组成: scheme://host:port/path/?query-string=xxx#anchor scheme:代表访问协议,一般为http,或https,ftp等 host:主机名,域名,如www.baidu.com port:端口号,浏览器默认使用80端口 path:查找路径,比如www.jianshu.com/trend…