使用python实现简单爬虫
简单的爬虫架构
调度器
URL管理器
管理待抓取的URL集合和已抓取的URL,防止重复抓取,防止死循环
功能列表
1:判断新添加URL是否在容器中
2:向管理器添加新URL
3:判断容器是否为空
4:将已爬取URL移动到已爬取集合
5:获取待爬取URL
实现方式
1:使用set(自动去除重复项目)
2:使用关系数据库(MySQL)
3:使用缓存数据库(redis):大型公司使用这玩意
网页下载器
功能列表
1:get
2:post
3:伪装头信息
4:HTTPCookieProcessor
5:ProxyHandler
6:HTTPSHandler
7:HTTPRedirectHAndler
实现方法
1:urllib2
2:URLlib3
3:requests
此处使用request实现
#coding=utf-8
import requests,json
url = 'http://www.baidu.com'
headers = {'user-agent':'Mozilla/5.0'} #模拟Mozilla浏览器头,此行可以为空
get_data = {'wd':'linux'}
r = requests.get(url,headers=headers,params = get_data)
if r.status_code == 200:
'访问成功'
try:
file = open('baidu.com','w')
file.write('本次访问网址是:' + r.url)
print('本次访问网址是:' + r.url)
except IOError as e:
print('文件读取错误:' + str(e))
try:
file = open('baidu.com','a+')
text = r.text
file.write('\n得到数据如下:\n' + text)
print('得到数据长度:' + str(len(r.content)))
except IOError as e:
print('文件读取错误:' + str(e))
else:
print('我是假的404')
解析器
1:正则表达式 传统经典,语法奇葩难懂
2:html.parser python自带
3:BeautifulSoup 可以使用上下两种解析器,集合天地精华
4:lxml 可以解析html和xml
#coding=utf-8
from bs4 import BeautifulSoup,re
try:
file = open('baidu.com','r')
html_str = file.read()
print(type(html_str))
except IOError as e:
print(str(e))
finally:
if 'file' in locals():
file.close()
if 'html_str' in locals():
#根据HTML网页字符串创建BeautifulSoup对象
soup = BeautifulSoup(
html_str, #html文档字符串
'html.parser', #html解析器,可以使用py自带的html_parser
from_encoding='utf-8' #文档编码格式
)
#soup.find(name,attrs,string) #只查找第一个匹配对象,支持正则表达式
nodes = soup.find_all('a')
for node in nodes:
print(node.name) #得到节点标签(参数1)
print(node['href']) #得到属性(参数2)
print(node.get_text()) #得到文字(参数3)
#正则匹配
nodes2 = soup.find_all('a',href=re.compile(r"map"))
print('\n\n\n\n\n---------------------------百年分割线------------------------\n')
for node in nodes2:
print(node.name) #得到节点标签(参数1)
print(node['href']) #得到属性(参数2)
print(node.get_text()) #得到文字(参数3)
使用python实现简单爬虫的更多相关文章
- Python开发简单爬虫 - 慕课网
课程链接:Python开发简单爬虫 环境搭建: Eclipse+PyDev配置搭建Python开发环境 Python入门基础教程 用Eclipse编写Python程序 课程目录 第1章 课程介绍 ...
- python实现简单爬虫抓取图片
最近在学习python,正如大家所知,python在网络爬虫方面有着广泛的应用,下面是一个利用python程序抓取网络图片的简单程序,可以批量下载一个网站更新的图片,其中使用了代理IP的技术. imp ...
- Python开发简单爬虫(一)
一 .简单爬虫架构: 爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理:可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定 ...
- Python开发简单爬虫
简单爬虫框架: 爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据 Demo1: # codin ...
- Python做简单爬虫(urllib.request怎么抓取https以及伪装浏览器访问的方法)
一:抓取简单的页面: 用Python来做爬虫抓取网站这个功能很强大,今天试着抓取了一下百度的首页,很成功,来看一下步骤吧 首先需要准备工具: 1.python:自己比较喜欢用新的东西,所以用的是Pyt ...
- python多线程简单爬虫
爬虫本质就是将网站或者接口的数据经过筛选后按需求保存 这里实现一个简单爬虫仅供参考 import requests import bs4 import threading import queue i ...
- 教你如何入手用python实现简单爬虫微信公众号并下载视频
主要功能 如何简单爬虫微信公众号 获取信息:标题.摘要.封面.文章地址 自动批量下载公众号内的视频 一.获取公众号信息:标题.摘要.封面.文章URL 操作步骤: 1.先自己申请一个公众号 2.登录自己 ...
- python实现简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...
- python scrapy简单爬虫记录(实现简单爬取知乎)
之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子 使用的环境是python2.7, scrapy1.2.0 首先创建项目 在要建立项目的目 ...
随机推荐
- jQuery学习笔记(三)
jQuery中的事件 页面加载 原生DOM中的事件具有页面加载的内容onload事件,在jQuery中同样提供了对应的内容ready()函数. ready与onload之间的区别: onload re ...
- 1)实际时间(real time): 从command命令行开始执行到运行终止的消逝时间; 2)用户CPU时间(user CPU time): 命令执行完成花费的用户CPU时间,即命令在用户态中执行时间总和; 3)系统CPU时间(system CPU time): 命令执行完成花费的系统CPU时
1)实际时间(real time): 从command命令行开始执行到运行终止的消逝时间: 2)用户CPU时间(user CPU time): 命令执行完成花费的用户CPU时间,即命令在用户态中执行时 ...
- RStudio Server-0.99.902 (OpenLogic CentOS 7.2)
RStudio Server-0.99.902 (OpenLogic CentOS 7.2) 0 评论 平台: CentOS 类型: 虚拟机镜像 软件包: r-3.2.3 rstudio-server ...
- python 函数学习之sys.argv[1]
一.sys 模块 sys是Python的一个「标准库」,也就是官方出的「模块」,是「System」的简写,封装了一些系统的信息和接口. 官方的文档参考:https://docs.python.org/ ...
- ASP.NET Dev ASPxGridView控件使用 ASP.NET水晶报表打印
1.ASPxGridView控件使用 2.ASP.NET水晶报表客户端打印 3.javascript打印 4.ASPxGridView根据Textbox查询 5. ASPxGridView 列宽 1. ...
- .Net创建Windows服务完成批量导出功能(错误速查)
无法打开计算机“.”上的服务控制管理器.此操作可能需要其他特权. 无法将类型为“Microsoft.Office.Interop.Word.ApplicationClass”的 COM 对象强制转换为 ...
- Java的几种加载驱动的方法
1.Class.forName("com.microsoft.sqlserver.jdbc.SQLServerDriver"); 2.DriverManager.registerD ...
- 使用Eclipse连接SAP云平台上的HANA数据库实例
SAP云平台(Cloud Platform)上的HANA数据库实例有两种方式访问: 1. 通过SAP云平台的基于网页版的Development Tool:SAP HANA Web-Based Deve ...
- JS事件阻止冒泡的写法
$("body").on("click", "#id", function (ev) { ev = ev || event;要写的逻辑代码 ...
- 【洛谷4149】[IOI2011] Race(点分治)
点此看题面 大致题意: 给你一棵树,问长度为\(K\)的路径至少由几条边构成. 点分治 这题应该比较显然是点分治. 主要思路 与常见的点分治套路一样,由于\(K≤1000000\),因此我们可以考虑开 ...