简单的爬虫架构

调度器

URL管理器

管理待抓取的URL集合和已抓取的URL,防止重复抓取,防止死循环

功能列表

1:判断新添加URL是否在容器中
2:向管理器添加新URL
3:判断容器是否为空
4:将已爬取URL移动到已爬取集合
5:获取待爬取URL

实现方式

1:使用set(自动去除重复项目)
2:使用关系数据库(MySQL)
3:使用缓存数据库(redis):大型公司使用这玩意

网页下载器

功能列表

1:get
2:post
3:伪装头信息
4:HTTPCookieProcessor
5:ProxyHandler
6:HTTPSHandler
7:HTTPRedirectHAndler

实现方法

1:urllib2
2:URLlib3
3:requests

此处使用request实现

#coding=utf-8
import requests,json url = 'http://www.baidu.com'
headers = {'user-agent':'Mozilla/5.0'} #模拟Mozilla浏览器头,此行可以为空
get_data = {'wd':'linux'}
r = requests.get(url,headers=headers,params = get_data) if r.status_code == 200:
'访问成功'
try:
file = open('baidu.com','w')
file.write('本次访问网址是:' + r.url)
print('本次访问网址是:' + r.url)
except IOError as e:
print('文件读取错误:' + str(e)) try:
file = open('baidu.com','a+')
text = r.text
file.write('\n得到数据如下:\n' + text)
print('得到数据长度:' + str(len(r.content)))
except IOError as e:
print('文件读取错误:' + str(e))
else:
print('我是假的404')

解析器

1:正则表达式			传统经典,语法奇葩难懂
2:html.parser python自带
3:BeautifulSoup 可以使用上下两种解析器,集合天地精华
4:lxml 可以解析html和xml #coding=utf-8
from bs4 import BeautifulSoup,re try:
file = open('baidu.com','r')
html_str = file.read()
print(type(html_str))
except IOError as e:
print(str(e))
finally:
if 'file' in locals():
file.close() if 'html_str' in locals():
#根据HTML网页字符串创建BeautifulSoup对象
soup = BeautifulSoup(
html_str, #html文档字符串
'html.parser', #html解析器,可以使用py自带的html_parser
from_encoding='utf-8' #文档编码格式
) #soup.find(name,attrs,string) #只查找第一个匹配对象,支持正则表达式
nodes = soup.find_all('a')
for node in nodes:
print(node.name) #得到节点标签(参数1)
print(node['href']) #得到属性(参数2)
print(node.get_text()) #得到文字(参数3) #正则匹配
nodes2 = soup.find_all('a',href=re.compile(r"map"))
print('\n\n\n\n\n---------------------------百年分割线------------------------\n')
for node in nodes2:
print(node.name) #得到节点标签(参数1)
print(node['href']) #得到属性(参数2)
print(node.get_text()) #得到文字(参数3)

使用python实现简单爬虫的更多相关文章

  1. Python开发简单爬虫 - 慕课网

    课程链接:Python开发简单爬虫 环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程 用Eclipse编写Python程序   课程目录 第1章 课程介绍 ...

  2. python实现简单爬虫抓取图片

    最近在学习python,正如大家所知,python在网络爬虫方面有着广泛的应用,下面是一个利用python程序抓取网络图片的简单程序,可以批量下载一个网站更新的图片,其中使用了代理IP的技术. imp ...

  3. Python开发简单爬虫(一)

    一 .简单爬虫架构: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定 ...

  4. Python开发简单爬虫

    简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...

  5. Python做简单爬虫(urllib.request怎么抓取https以及伪装浏览器访问的方法)

    一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧 首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...

  6. python多线程简单爬虫

    爬虫本质就是将网站或者接口的数据经过筛选后按需求保存 这里实现一个简单爬虫仅供参考 import requests import bs4 import threading import queue i ...

  7. 教你如何入手用python实现简单爬虫微信公众号并下载视频

    主要功能 如何简单爬虫微信公众号 获取信息:标题.摘要.封面.文章地址 自动批量下载公众号内的视频 一.获取公众号信息:标题.摘要.封面.文章URL 操作步骤: 1.先自己申请一个公众号 2.登录自己 ...

  8. python实现简单爬虫功能

    在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...

  9. python scrapy简单爬虫记录(实现简单爬取知乎)

    之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子 使用的环境是python2.7, scrapy1.2.0 首先创建项目 在要建立项目的目 ...

随机推荐

  1. 使用create react app教程

    This project was bootstrapped with Create React App. Below you will find some information on how to ...

  2. Compaq Visual Fortran生成静态库的方法及使用

    Compaq Visual Fortran 6.5生成lib静态库详细方法: 打开Compaq Visual Fortran,新建Fortran Static Library工程,命名为ForLib: ...

  3. 使用visio创建数据库模型

    使用软件:visio 2007 下载地址:https://pan.baidu.com/s/1i4LG1Id 主要参考:http://blog.csdn.net/zhang_xinxiu/article ...

  4. unity中的动画制作方法

    Unity中的动画制作方法 1.DOTween DoTween在5.0版本中已经用到了,到官网下载好插件之后,然后通过在项目中导入头using DG.Tweening;即可. 一些常用的API函数 D ...

  5. 线程池模块thernd

    from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor import time def task(i): print ...

  6. linux下如何实现mysql数据库定时自动备份

    概述   备份是容灾的基础,是指为防止系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程.而对于一些网站.系统来说,数据库就是一切,所以做好 ...

  7. LeetCode Minimum Depth of Binary Tree 找最小深度(返回最小深度)

    题意:找到离根结点最近的叶子结点的那一层(设同一层上的结点与根结点的距离相等),返回它所在的层数. 方法有: 1.递归深度搜索 2.层次搜索 方法一:递归(无优化) /** * Definition ...

  8. ARM实验1 —— 流水灯实验

    实验内容: 编写GPIO模块程序,实现对FS_4412平台的上的led2,led3,led4 ,led5,的流水灯实现. 实验目的: 熟悉开发环境的使用. 掌握Exynos 4412处理器GPIO功能 ...

  9. php之header的不同用法

    1.header()函数的作用是:发送一个原始 HTTP 标头[Http Header]到客户端. header(string,replace,http_response_code) /*string ...

  10. VS打包方法(安装和部署简介)——内含大量图片,密症慎入!

    友情提示:内含大量文字.图片,密集恐惧症者慎入! 主要记述一下利用微软集成开发环境VS打包的方法和详细步骤. 1.新建打包工程 打开VS,文件->添加项目->新建项目(如图1),在添加新项 ...