学习进度-10 python爬虫

学习爬虫的第一个案例是小说爬虫。

小说爬虫首先是解析小说页面源代码，在页面源代码中可以看到小说每章节的内容链接

爬虫的代码：

import requests

import re

url = 'http://www.92kshu.cc/69509/'

response = requests.get(url)

response.encoding = 'gbk'

html = response.text

title = re.findall(r'<meta property="og:novel:book_name" content="(.*?)"/>', html)[0]

fb = open('%s.txt' % title, 'w', encoding='utf-8')

# 获取每章的内容

# print(html)

dl = re.findall(r'<dl><dt><i class="icon"></i>正文</dt>(.*?)</dl>', html)[0]

print(dl)

chapter_info_list = re.findall(r'<dd><a href="(.*?)">(.*?)</a></dd>', dl)

print(chapter_info_list)

for chapter_info in chapter_info_list:

    chapter_url, chapter_title = chapter_info

    chapter_url = "http://www.92kshu.cc%s" % chapter_url

    # print(chapter_url)

    chapter_response = requests.get(chapter_url)

    chapter_response.encoding = 'gbk'

    chapter_html = chapter_response.text

    chapter_content = re.findall(r'<div class="chapter">(.*?)><br>', chapter_html)[0]

    # print(chapter_content)

    chapter_content = chapter_content.replace('<p>', '')

    chapter_content = chapter_content.replace('</p>', '')

    fb.write(chapter_title)

    fb.write(chapter_content)

    fb.write('\n')

    print(chapter_url)

爬虫结果：

学习进度-10 python爬虫的更多相关文章

学习进度-16 python爬虫
爬虫是一个程序,这个程序的目的就是为了抓取万维网信息资源,比如你日常使用的谷歌等搜索引擎,搜索结果就全都依赖爬虫来定时获取从百度可以看出来爬虫与python关系很紧密, 爬虫的目标对象也很丰富,不 ...
学习笔记之Python爬虫
Python 爬虫介绍 | 菜鸟教程 http://www.runoob.com/w3cnote/python-spider-intro.html https://blog.csdn.net/sina ...
Python学习：10.Python装饰器讲解（一）
情景介绍一天,在你正在努力加班的时候,老板给交给你了一个任务,就是在这段代码里将所有函数开始输出一个‘hello’最后输出当前时间,再输出一个“end”,这段代码里包含了大量的函数,你会怎么做? d ...
学习笔记10—Python 绘图集
ordered_data = np.load('ordered_data_just_TD_mae.npy')results = pd.Series(np.squeeze(np.load('result ...
吴裕雄--天生自然python学习笔记：python爬虫PM2.5 实时监测显示器
PM2.5 对人体的健康影响很大,所以空气中的 PM2.5 实时信息受到越来越多的关注. Python 的 Pandas 套件不但可以自动读取网页中的表格数据 , 还可对数据进行修改.排序等处理,也 ...
吴裕雄--天生自然python学习笔记：python爬虫与网页分析
我们所抓取的网页源代码一般都是 HTML 格式的文件,只要研究明白 HTML 中的标签( Tag )结构,就很容易进行解析并取得所需数据 . HTML 网页结构 HTML 网页是由许多标签( Ta ...
【Python爬虫】入门知识
爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历. 网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打 ...
python爬虫小实例
1.python爬取贴吧壁纸 1.1.获取整个页面数据 #coding=utf-8 import urllib def getHtml(url): page = urllib.urlopen(url) ...
【学习笔记】PYTHON网络爬虫与信息提取(北理工嵩天)
学习目的:掌握定向网络数据爬取和网页解析的基本能力the Website is the API- 1 python ide 文本ide:IDLE,Sublime Text集成ide:Pychar ...

随机推荐

命令关闭tomcat
1.netstat -ano|findstr 8080(默认端口为8080) 2. taskkill /F /PID 17652 关闭后面的进程号(17652),直到输入上面第三个命令查不到占用808 ...
Mapgis地图颜色配置（专题图配置）----对比Arcgis根据属性配置图斑颜色
对于大多数arcgis用户来说,根据属性配置图斑颜色对于大家来说应该并不陌生.本文将就arcgis图斑颜色设置与mapgis做出比对,为大家提供更为绚丽的地图配色. Arcgis颜色配置方案右 ...
druid监控sql完整版
利用Druid实现应用和SQL监控一.关于Druid Druid是一个JDBC组件,它包括三部分: DruidDriver 代理Driver,能够提供基于Filter-Chain模式的插件体系. D ...
固定ip配置
1.打开网络和internet设置 2. 3. 4.查看详细信息 5.记住这几个 6.选择属性开始配置 7. 8.只要把ip地址设置为同一网段下面的你想要的设置的空余ip即可,其他掩码和DNS不要修 ...
spark实验(二)--scala安装(1)
一.实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法: (2)熟悉 HDFS 的基本使用方法: (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法. ...
最大流EK板子
#include <bits/stdc++.h> using namespace std; ; const int INF=0x7fffffff; typedef long long ll ...
【剑指Offer面试编程题】题目1350：二叉树的深度--九度OJ
题目描述: 输入一棵二叉树,求该树的深度.从根结点到叶结点依次经过的结点(含根.叶结点)形成树的一条路径,最长路径的长度为树的深度. 输入: 第一行输入有n,n表示结点数,结点号从1到n.根结点为1. ...
NFS文件服务器
NFS文件服务器 NFS介绍应用场景 NFS安装部署 NFS共享客户端NFS共享挂载一.NFS介绍 NFS(Network File System)即网络文件系统,它允许网络中的计算机之间通过T ...
Spring Boot + MyBatis + PostgreSql
Maven构建项目 1.访问http://start.spring.io/ 2.选择构建工具Maven Project.Spring Boot版本1.3.6以及一些工程基本信息,点击“Switch t ...
「Luogu P2468 [SDOI2010]粟粟的书架」
这道题分为两个部分 Part1 前置芝士前缀和(后缀和,二维前缀和):可以预处理一下数据. 二分查找:可以在较短的时间内找出答案. 具体做法可以发现\(R,C\)不大,只有\(200\),于是可以 ...

学习进度-10 python爬虫

学习进度-10 python爬虫的更多相关文章

随机推荐

热门专题