笔记-爬虫-XPATH

【笔记-爬虫-XPATH】的更多相关文章

笔记-爬虫-XPATH 1. xpath XPath是W3C的一个标准.它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计.目前有XPath1.0和XPath2.0两个版本.其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年 XPath 是一门在 XML 文档中查找信息的语言全称为XML Path Language 一种小型的查询语言 XPath 是一门在 XML 文档中查找信息的语言. XPath 是 XSLT 中的主…

Scrapy:学习笔记(1)——XPath

Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPath来选择元素,比如选中所有的超链接. 1.1.XPath的基本格式 XPath通过"路径表达式"(Path Expression)来选择节点. 在形式上,"路径表达式"与传统的文件系统非常类似. 比如我们依次获得Html节点(即最根节点).Html下的Body节点.Ht…

笔记-爬虫-去重/bloomfilter

笔记-爬虫-去重/bloomfilter 1. 去重为什么要去重? 页面重复:爬的多了,总会有重复的页面,对已爬过的页面肯定不愿意再爬一次. 页面更新:很多页面是会更新的,爬取这种页面时就需要进行判断,是否有更新. 在爬虫中新页面或页面更新称为增量,爬取就叫增量爬取了. 识别增量,有以下几种可能的方法: url识别:适合旧页面不会改变,只会有新页面出现的网站: 解析后内容识别:适合页面内容会更新的网站: 写入前与已存储部分进行匹配:最后一道防线. 目前主要的方法是url过滤,大体上是…

笔记-爬虫-selenium常用方法

笔记-爬虫-selenium常用方法 1. 查找元素常用的查找方法 find_element_by_name find_element_by_xpath find_element_by_link_text find_element_by_partial_link_text find_element_by_tag_name find_element_by_class_name find_element_by_css_selector 也可以使用通用的方法 from selenium i…

笔记-爬虫-js代码解析

笔记-爬虫-js代码解析 1. js代码解析 1.1. 前言在爬取网站时经常会有js生成关键信息,而且js代码是混淆过的. 以瓜子二手车为例,直接请求https://www.guazi.com/bj/buy/会返回一个203状态大小为5324的包,核心是js代码. 它负责生成cookie及跳转,想要初始cookie,就需要解决它或绕过它. <!DOCTYPE html> <html lang="en"> <head> <met…

笔记-爬虫-scrapy-srcapy-redis组件

笔记-爬虫-scrapy-srcapy-redis组件 1. 简介 scrapy是一个爬虫框架,但不支持分布式,scrapy-redis是为了更方便的实现scrapy分布式爬虫的组件. 可以在pypi上找到:https://pypi.org/project/scrapy-redis/ 1.1. 安装可以使用pip安装 pip install scrapy-redis pip show scrapy-redis 目前最新版是0.6.8. 2. 使用 Scrapy-red…

笔记-爬虫-robots.txt

笔记-爬虫-robots.txt 1. robots.txt文件简介 1.1. 是什么 robots.txt是用来告诉搜索引擎网站上哪些内容可以被访问.哪些不能被访问.当搜索引擎访问一个网站的时候,它首先会检查网站是否存在robots.txt,如果有则会根据文件命令访问有权限的文件. 每个网站需要根据自身的要求写好robots.txt文件,以CSDN为例: 访问https://www.csdn.net/robots.txt User-agent: * Disallow: /scr…

笔记-爬虫部署及运行工具-scrapydweb

笔记-爬虫部署及运行工具-scrapydweb 1. 简介 scrapyd是爬虫部署工具,但它的ui比较简单,使用不是很方便. scrapydweb以scrapyd为基础,增加了ui界面和监控,使用非常方便. 2. 部署-scrapyd 使用scrapyd部署. 注意:在windows下无法部署,因为不能执行scrapyd-deploy命令. 2.1. 部署第一步:修改scrapy.cfg为下列样式: # Automatically created by: scrap…

XML学习笔记6——XPath语言

在上一篇笔记的结尾,我们接触到了两个用于选择XML文档中特定范围的元素<selector>和<field>,这两个元素的取值都是XPath表达式,那么,什么是XPath呢?简单的说,XPath是用于在XML文档中查找信息的语言,可用来在XML文档中遍历元素和属性,很多XML的相关技术比如XSLT.XQuery.XPointer等都是构建于XPath的基础之上,在这一篇笔记中,就来学习一下XPath语言. 1.相关术语 (1)节点(Node):格式良好的XML文档都可以转换为一个树型…

python爬虫xpath

又是一个大晴天,因为马上要召开十九大,北京地铁就额外的拥挤,人贴人到爆炸,还好我常年挤地铁早已练成了轻功水上漂,挤地铁早已经不在话下. 励志成为一名高级测试工程师的我,目前还只是个菜鸟,难得有机会,公司辞职的爬虫大佬教了我下爬虫,故借此机会分享给那些小白, 此篇只是简单爬取了小说的标题,没有涉及到框架,还望各位大佬海涵!! 环境准备: pycharm(撩妹神器,人手一个) lxml(python的三方库) 如果电脑里没有安装lxml的伙伴,可以安装一下,在控制台输入pip intall ht…