Python3之网络爬虫<0>初级

一知识域/学习路径

1.1 初级阶段

　　java: net(网络编程)、IO、多线程（含：线程池）、正则表达式、集合、JDBC/数据库等

　　python: urllib.request

　　NodeJs/JavaScript: http

1.2 中级阶段

　　java: Jsoup（优势：HTML DOM解析）、HttpClient（优势：下载/IP代理等）、OKHttp、HTML Parser（优势：解析）、JavaScript/HTML(函数、JSON、Ajax、JacaScript DOM)等

　　NodeJs/JavaScript: express

1.3 进阶

　　java: web自动化测试框架selenium【WebDriver/ChromeDriver】（优势：下载/解析）

　　python: scrapy、web自动化测试框架selenium（WebDriver/ChromeDriver）

　　NodeJs/JavaScript: web自动化测试框架(PhantomJS/ selenium)

1.4 高级阶段

　　java: Heritrix网络爬虫框架

一个由 java 开发的、开源的网络爬虫，用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性，方便用户实现自己的抓取逻辑。

1.5 涉及经验

　　计算机网络(网络编程/ HTTP&TCP协议)

　　　　HTTP报文

　　　　　　报文头:

　　　　　　　　请求方法: GET/POST .etc

　　　　　　　　遵循协议: HTTP / HTTPS .etc

　　　　　　请求体

　　　　网络抓包与调试: Chrome开发者工具、Fiddle、Postman等

　　　　IP代理

　　文件操作　　

　　数据库 / JDBC　　

　　数据结构（栈/队列/List/Set/Map/深度优先/广度优先等）

　　Cookie/Session

　　反爬虫机制、模拟登陆

　　多线程编程

　　　　线程池/多线程爬行

　　分布式爬虫

　　可能涉及技巧：JS注入、模拟鼠标滑动、验证码识别（英文字母/数字/汉字/物品识别等）、延时请求（降低请求频率）等

　　可能涉及语言：Python、Java、JavaScript、HTML、CSS等

　　网页正文提取方法：Jsoup(基于 HTMLO DOM解析树)等、Html2Article(基于行块分布函数的通用正文抽取算法)

二入门级演示

2.1 Python简易Demo

由于Python3合并URLib与URLlib2统一为URLlib，Python3将urlopen方法放在了urllib.request对象下。

官方文档：https://docs.python.org/3/library/urllib.request.html#module-urllib.request

在实现爬取网页过程中，屡次执行以下脚本：

#coding:UTF-8

import random;

import urllib.request;# 不推荐使用 import urllib

rawdata =

urllib.request.urlopen('http://www.111cn.net/phper/python/68713.htm').read();

file = open("testfile","w+");

file.write(str(rawdata));

三参考文档

　　[1] Python3中urllib详细使用方法(header,代理,超时,认证,异常处理)

　　[2] 基于行块分布函数的通用正文抽取算法.陈鑫.哈尔滨工业大学社会计算与信息检索研究中心

　　[3] 网页正文提取——Html2Article

Python3之网络爬虫<0>初级的更多相关文章

python3编写网络爬虫20-pyspider框架的使用
二.pyspider框架的使用简介 pyspider是由国人binux 编写的强大的网络爬虫系统 github地址 : https://github.com/binux/pyspider 官方文档 ...
python3编写网络爬虫18-代理池的维护
一.代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的因为可能此IP被其他人使用 ...
Python3编写网络爬虫11-数据存储方式四-关系型数据库存储
关系型数据库存储关系型数据库是基于关系模型的数据库,而关系模型是通过二维表保存的,所以它的存储方式就是行列组成的表.每一列是一个字段,每一行是一条记录.表可以看作某个实体的集合,而实体之间存在联系, ...
【C++&爬虫】C++实现网络爬虫&socket初级教程
2019年了,发现以前的很多教程都不能用了. 我自己写的socket发给服务器总是返回301错误——资源永久转移.很多教程都是这样,困扰了我很久. 终于我发现了一篇能用的爬虫代码,参考MSDN以及众多 ...
python3编写网络爬虫23-分布式爬虫
一.分布式爬虫前面我们了解Scrapy爬虫框架的基本用法这些框架都是在同一台主机运行的爬取效率有限如果多台主机协同爬取爬取效率必然成倍增长这就是分布式爬虫的优势 1. 分布式爬虫基本原理 1 ...
python3编写网络爬虫22-爬取知乎用户信息
思路选定起始人选一个关注数或者粉丝数多的大V作为爬虫起始点获取粉丝和关注列表通过知乎接口获得该大V的粉丝列表和关注列表获取列表用户信息获取列表每个用户的详细信息获取每个用户的粉丝和关注 ...
python3编写网络爬虫21-scrapy框架的使用
一.scrapy框架的使用前面我们讲了pyspider 它可以快速的完成爬虫的编写不过pyspider也有一些缺点例如可配置化不高异常处理能力有限对于一些反爬虫程度非常强的网站爬取显得力不从 ...
python3编写网络爬虫19-app爬取
一.app爬取前面都是介绍爬取Web网页的内容,随着移动互联网的发展,越来越多的企业并没有提供Web页面端的服务,而是直接开发了App,更多信息都是通过App展示的 App爬取相比Web端更加容易 ...
python3编写网络爬虫15-Splash的使用
Splash是一个JavaScript渲染服务是一个带有HTTP API的轻量级浏览器同时对接了python的Twisted 和QT库利用它可以实现对动态渲染页面的抓取功能介绍 1.异步方式处 ...

随机推荐

ubuntu python apache2 wsgi django框架
在ubuntu上通过apatch2和wsgi部署django (亲手做过!!!) 一,我的python.django.apatch2版本: python:python -V 2.7.3 django: ...
HTML-封装原生Ajax
function ajax(data){ //data{data:"",dataType:"xml/json",type:"get/post" ...
部署AWStats分析系统
介绍 AWStats是使用Prel语言开发的一款开源日志分析系统,它不仅可以用来分析Apache网站服务器的访问日志,也可以用来分析Samba.Vsftpd.IIS等服务的日志信息. AWStats软 ...
Spring事务说明与自实现
要使用Springboot的事务其实非常简单,在启动类上添加@EnableTransactionManagement,在Service的类或者方法上使用@Transactional就可以了. 事务本身 ...
03 Zabbix4.0添加cisco交换机基本监控步骤
点击返回:自学Zabbix之路点击返回:自学Zabbix4.0之路点击返回:自学zabbix集锦 03 Zabbix4.0添加cisco交换机基本监控步骤主题监控一台cisco网络设备的6项内容 ...
09 Zabbix Item类型之Zabbix SNMP类型
点击返回:自学Zabbix之路点击返回:自学Zabbix4.0之路点击返回:自学zabbix集锦 Zabbix Item类型之Zabbix SNMP类型 SNMP是监控服务器以外设备的非常好的方式 ...
自学Linux Shell1.1-Linux初识
点击返回自学Linux命令行与Shell脚本之路 1.1-Linux初识(架构.内核.shell) 1. Linux架构 Linux系统一般有4个主要部分:内核.shell.文件系统和应用程序.(有 ...
linux-shell数据重定向详细分析
在了解重定向之前,我们先来看看linux 的文件描述符.linux文件描述符:可以理解为linux跟踪打开文件,而分配的一个数字,这个数字有点类似c语言操作文件时候的句柄,通过句柄就可以实现文件的读写 ...
Linux中使用Electronic WeChat客户端
微信推出了Windows版和Mac版,一直没有推出也不会推出Linux版本,这就催生了Electronic WeChat(https://github.com/geeeeeeeeek/electron ...
A1015. Reversible Primes
A reversible prime in any number system is a prime whose "reverse" in that number system i ...

Python3之网络爬虫<0>初级

Python3之网络爬虫<0>初级的更多相关文章

随机推荐

热门专题