Python爬虫知识点一

一。入门知识：

1.1.HTTP简介
HTTP = HyperText Transfer Protocol
URI = Uniform Resource Identifier
URL = Uniform Resource Locator
URI和URL的区别：URI强调的是资源，而URL强调的是资源的位置。
1.2常用请求类型
OPTIONS: 返回服务器针对特定资源所支持的http请求方法。
HEAD: 向服务器索要与get请求相一致的响应，只不过响应体将不会被返回。
GET: 向特定资源发出请求
PUT: 向指定资源位置上传其最新内容
POST: 向指定资源提交数据进行处理请求
DELETE: 请求服务器删除指定URI所标识的资源
PATCH: 用来将局部修改应用于某一资源
1.3HTTP常见状态码
200/OK：请求成功
201/Created: 请求已被实现，且一个新资源已根据请求被建立，URI跟随Location头信息返回。
202/Accepted: 服务器已接受请求，但尚未处理。
400/Bad Request: 请求无法被服务器理解
401/Unauthorized: 当前请求需要用户验证
403/Forbidden: 服务器已理解请求，但拒绝执行。
404/Not Found

1.4 爬虫框架介绍
第一步：将种子URL放入队列
第二步：从队列中获取URL，抓取内容。
第三步：解析抓取内容，将需要进一步抓取的URL放入工作队列，存储解析后的内容
1.5 抓取策略
深度优先：举例先完成专题一的所有内容，再完成专题二的所有内容。

广度优先
PageRank
大站优先策略举例：根据网站的Pr顺序指定优先级

1.6 如何去重
Hash表
bloom过滤器

1.7 爬虫质量标准

分布式
可伸缩性
性能和有效性
质量
新鲜性
更新
可扩展性

二。代码实施

import requests

import xml.etree.ElementTree as ET

from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):

    def __init__(self, provinces):

        self.provinces = provinces

    # 处理标签开始

    def start_element(self, name, attrs):

        if name != 'map':

            name = attrs['title']

            number = attrs['href']

            self.provinces.append((name, number))

    # 处理标签结束

    def end_element(self, name):

        pass

    # 文本处理

    def char_data(self, text):

        pass

def get_province_entry(url):

    # 获取文本，并用gb2312解码

    content = requests.get(url).content.decode('gb2312')

    # 确定要查找字符串的开始结束位置，并用切片获取内容。

    start = content.find('<map name=\"map_86\" id=\"map_86\">')

    end = content.find('</map>')

    content = content[start:end + len('</map>')].strip()

    print(content)

    provinces = []

    # 生成Sax处理器

    handler = DefaultSaxHandler(provinces)

    # 初始化分析器

    parser = ParserCreate()

    parser.StartElementHandler = handler.start_element

    parser.EndElementHandler = handler.end_element

    parser.CharacterDataHandler = handler.char_data

    # 解析数据

    parser.Parse(content)

    # 结果字典为每一页的入口代码

    return provinces

provinces = get_province_entry('http://www.ip138.com/post')

print(provinces)

结果如下：

Ps: start方法中判断不等于map标签的即为area标签然后选取href title属性对应的值即可

持续更新中。。。。，欢迎大家关注我的公众号LHWorld.

Python爬虫知识点一的更多相关文章

python爬虫知识点详解
python爬虫知识点总结(一)库的安装 python爬虫知识点总结(二)爬虫的基本原理 python爬虫知识点总结(三)urllib库详解 python爬虫知识点总结(四)Requests库的基本使 ...
Python爬虫知识点四--scrapy框架
一.scrapy结构数据解释: 1.名词解析: o 引擎(Scrapy Engine)o 调度器(Scheduler)o 下载器(Downloader)o 蜘蛛(Spiders)o 项目管 ...
Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续一）
通过前一节得出地址可能的构建规律,如下: https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksT ...
python爬虫知识点总结（八）Selenium库详解
官方学习文档:http://selenium-python.readthedocs.io/api.html 一.什么是Selenium? 答:自动化测试工具,支持多种浏览器.用来驱动浏览器,发出指令让 ...
python爬虫知识点总结(一)库的安装
环境要求: 1.编程语言版本python3: 2.系统:win10; 3.浏览器:Chrome68.0.3440.75:(如果不是最新版有可能影响到程序执行) 4.chromedriver2.41 注 ...
Python 爬虫知识点 - 淘宝商品检索结果抓包分析（续二）
一.URL分析通过对“Python机器学习”结果抓包分析,有两个无规律的参数:_ksTS和callback.通过构建如下URL可以获得目标关键词的检索结果,如下所示: https://s.taoba ...
Python 爬虫知识点 - 淘宝商品检索结果抓包分析
一.抓包基础在淘宝上搜索“Python机器学习”之后,试图抓取书名.作者.图片.价格.地址.出版社.书店等信息,查看源码发现html-body中没有这些信息,分析脚本发现,数据存储在了g_page_ ...
Python 爬虫知识点
一.基础知识 1.HTML分析 2.urllib爬取导入urilib包(Python3.5.2) 3.urllib保存网页 import urllib.requesturl = "http ...
python爬虫知识点总结（六）BeautifulSoup库详解
官方学习文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 一.什么时BeautifulSoup? 答:灵活又方便的网页解析库,处 ...

随机推荐

PHP之外观模式
外观(Facade)模式当使用子系统的代码时,你也许会发现自己过于深入地调用子系统的逻辑代码.如果子系统代码总是在不断变化,而你的代码却又在许多不同地方与子系统代码交互,那么随着子系统的发展,你也许 ...
extjs 关于dom操作的几个库
经过几天的学习研究,发现ext与jquery的设计思路完全是来自两个方向. jquery是内聚,把所有东西都放在$的下面,而ext是采用分模块的设计思路,每个功能封装一个库.这样就形成了各自的实用风格 ...
命令行保存指定目录文件的名字（可包含文件夹文字）到txt文本文件
Microsoft Visual Studio中配置OpenCV解决方案属性的时候, 需要将OpenCV的lib扩展名的库文件添加到属性的依赖列表里面,网上的有些人博客里面直接给出的会有问题(但大多数 ...
《3》CentOS7.0+OpenStack+kvm云平台部署—配置Glance
感谢朋友支持本博客,欢迎共同探讨交流.因为能力和时间有限,错误之处在所难免,欢迎指正. 假设转载.请保留作者信息. 博客地址:http://blog.csdn.net/qq_21398167 原博文地 ...
刚在在win8.1下装了ubuntu12.04
这是一个開始. 開始我想在win7下,由于我本来是7和win8.1双系统,想直接把win7覆盖了. 可是不知道怎么回事,比較复杂.于是在win8.1下装了. 先把win7的系统盘格式化了. 把下的is ...
Linux 高速操作IOport
在嵌入式设备中对GPIO的操作是最主要的操作. 一般的做法是写一个单独驱动程序,网上大多数的样例都是这种.事实上linux以下有一个通用的GPIO操作接口.那就是我要介绍的 "/sys/cl ...
【Java入门提高篇】Day11 Java代理——JDK动态代理
今天来看看Java的另一种代理方式--JDK动态代理我们之前所介绍的代理方式叫静态代理,也就是静态的生成代理对象,而动态代理则是在运行时创建代理对象.动态代理有更强大的拦截请求功能,因为可以获得类的 ...
Python编程和 Lua编程的比较
Python编程和 Lua编程的比较 2016.4.21 定义函数: python: def functionname( parameters ): "函数_文档字符串" func ...
《程序设计语言——实践之路(英文第三版)》【PDF】下载
<程序设计语言--实践之路(英文第三版)>[PDF]下载链接: https://u253469.pipipan.com/fs/253469-230382234 内容简介 <程序设计语 ...
小白的Python之路 day4 装饰器前奏
装饰器前奏: 一.定义: 1.装饰器本质是函数,语法都是用def去定义的 (函数的目的:他需要完成特定的功能) 2.装饰器的功能:就是装饰其他函数(就是为其他函数添加附加功能) 二.原则: 1. 不能 ...

Python爬虫知识点一

Python爬虫知识点一的更多相关文章

随机推荐

热门专题