采用requests库构建简单的网络爬虫

Date: 2019-06-09

Author: Sun

我们分析格言网 https://www.geyanw.com/，通过requests网络库和bs4解析库进行爬取此网站内容。

项目操作步骤

创建项目文件夹

--geyanwang

   ---spiders  # 保存我们爬虫代码

      ---- geyan.py # 爬虫的代码

   ---doc   # 操作步骤说明文档

创建虚拟环境

cd   geyanwang/

virtualenv spider  --python=python3  # 创建venv虚拟环境

安装依赖库

$ source venv/bin/activate

(spider) $ pip install requests

(spider) $ pip install lxml

(spider) $ pip install bs4

编写代码 spiders/geyan.py

# -*- coding: utf-8 -*-

__author__ = 'sun'

__date__ = '2019/6/19 下午2:22' 

from bs4 import BeautifulSoup as BSP4

import requests

g_set = set()

def store_file(file_name, r):

	html_doc = r.text

	with open("geyan_%s.html"%file_name, "w") as f:

		f.write(html_doc)

def download(url, filename='index'):

	'''

	:param url: 待下载页面地址

	:return: 页面内容

	'''

	r = requests.get(url)   #发送url请求，得到url网页内容

	store_file(filename, r)

	return r

def parse_tbox(tbox, base_domain):

	'''

	解析某个小说类别

	:param tbox:

	:param base_domain:

	:return:

	'''

	tbox_tag = tbox.select("dt a")[0].text

	print(tbox_tag)

	index = 0

	li_list = tbox.find_all("li")

	for li in li_list:

		link = base_domain + li.a['href']

		print("index:%s, link:%s" % (index, link))

		index += 1

		if link not in g_set:

			g_set.add(link)

			filename = "%s_%s" % (tbox_tag, index)

			sub_html = download(link, filename)

def parse(response):

	'''

	对页面进行解析

	:param response: 页面的返回内容

	:return:

	'''

	base_domin = response.url[:-1]

	g_set.add(base_domin)

	#print(base_domin)

	html_doc = response.content

	soup = BSP4(html_doc, "lxml")

	tbox_list = soup.select("#p_left   dl.tbox")  #小说

	[parse_tbox(tbox, base_domin)  for tbox in tbox_list]

def main():

	base_url = "https://www.geyanw.com/"

	response = download(base_url)

	parse(response)

if __name__ == "__main__":

	main()

运行上述代码，会产生一堆的html文件至本地

作业

上述geyan.py文件中只处理了首页

如何按照类别分页爬取相关内容，采用多线程实现

eg:

https://www.geyanw.com/lizhimingyan/

https://www.geyanw.com/renshenggeyan/

将爬取的网页以文件夹命名不同的方式进行保存至本地

采用requests库构建简单的网络爬虫的更多相关文章

python3.6 urllib.request库实现简单的网络爬虫、下载图片
#更新日志:#0418 爬取页面商品URL#0421 更新添加爬取下载页面图片功能#0423 更新添加发送邮件功能# 优化爬虫异常处理.错误页面及空页面处理# 优化爬虫关键字黑名单.白名单,提 ...
Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）
Python:requests库.BeautifulSoup4库的基本使用(实现简单的网络爬虫) 一.requests库的基本使用 requests是python语言编写的简单易用的HTTP库,使用起 ...
Java实现一个简单的网络爬虫
Java实现一个简单的网络爬虫 import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWri ...
python requests库的简单使用
requests是python的一个HTTP客户端库,跟urllib,urllib2类似,但比urllib,urllib2更加使用简单. 1. requests库的安装在你的终端中运行pip安装命令即 ...
在python3中使用urllib.request编写简单的网络爬虫
转自:http://www.cnblogs.com/ArsenalfanInECNU/p/4780883.html Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要 ...
一只简单的网络爬虫（基于linux C/C++）————开篇
最近学习开发linux下的爬虫,主要是参考了该博客及其他一些网上的资料.网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息 ...
使用scrapy-redis构建简单的分布式爬虫
前言 scrapy是python界出名的一个爬虫框架.Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. 虽然scr ...
一只简单的网络爬虫（基于linux C/C++）————socket相关及HTTP
socket相关建立连接网络通信中少不了socket,该爬虫没有使用现成的一些库,而是自己封装了socket的相关操作,因为爬虫属于客户端,建立套接字和发起连接都封装在build_connect中 ...
一只简单的网络爬虫（基于linux C/C++）————Url处理以及使用libevent进行DNS解析
Url处理爬虫里使用了两个数据结构来管理Url 下面的这个数据结构用来维护原始的Url,同时有一个原始Url的队列 //维护url原始字符串 typedef struct Surl { char * ...

随机推荐

Bootstrap关于排版
1.Bootstrap和普通的HTML页面一样,定义标题都是使用标签<h1>到<h6>,只不过Bootstrap覆盖了其默认的样式 2.使用了<small>标签来制 ...
ro多层的事务处理失败的困惑
现象: 用 :: ::'' 在客户端用上面的语句取得数据,然后修改数据,通过RO的web service提交数据失败: 用 -- ::-- ::'‘ 在客户端用上面的语句取得数据,然后修改数据,通过R ...
NYIST 914 Yougth的最大化
Yougth的最大化时间限制:1000 ms | 内存限制:65535 KB难度:4 描述 Yougth现在有n个物品的重量和价值分别是Wi和Vi,你能帮他从中选出k个物品使得单位重量的价值最大吗? ...
Spring Boot-整合Mybatis(五)
原始的整合方式 1.添加依赖  <dependency> <groupId>org.mybatis.spring.boot< ...
poj 3177&&poj 3352加边构双联通（有重边）用tarjan 模板求的
#include<stdio.h>/* 求边双联通分量和求强连通差不多,先缩点求出叶子节点的个数 */ #include<string.h> #define N 5100 st ...
转载 - Pinyin4j的基本用法
原文:http://blog.csdn.net/pathuang68/article/details/6692882 1. 简单介绍有时候,需要将汉字编程对应的拼音,以方便数据的处理.比如在 ...
Spring中获取Session的方法汇总
Spring: web.xml <listener> <listener-class>org.springframework.web.context.request.Reque ...
Anton and Letters
Anton and Letters time limit per test 2 seconds memory limit per test 256 megabytes input standard i ...
Visual Studio 2013 与 14
Visual Studio 2013 与 14 假设有曾经版本号的 Visual Studio.再想安装 Visual Studio 14 CTP,默认情况下是不行的. 假设一定要装,当然也是能够的. ...
[think in java]第12章通过异常处理错误
异常处理是java中唯一正式的错误报告机制. 而且通过编译器强行运行. 异常參数抛出异常与方法正常返回值的差别:异常返回的"地点"与普通方法调用返回的"地点" ...

采用requests库构建简单的网络爬虫

项目操作步骤

采用requests库构建简单的网络爬虫的更多相关文章

随机推荐

热门专题