python 爬取文章

这里我们利用强大的python爬虫来爬取一篇文章。仅仅做一个示范，更高级的用法还要大家自己实践。

好了，这里就不啰嗦了，找到一篇文章的url地址：http://www.duanwenxue.com/article/673911.html

（注意，有一些网站会做一些反爬处理，关于这些网站的爬取会在近期的文章中说明）

这是一篇散文，）

但在解码是要decode（’GB18030‘），

具体说明：http://www.cnblogs.com/jjj-fly/p/6696523.html

下面开始实现代码：

 #coding=GB18030

 import urllib.request

 from bs4 import BeautifulSoup

 import re

 url="http://www.duanwenxue.com/article/673911.html"

 a=urllib.request.urlopen(url)

 htmlstr=a.read().decode('GB18030')

 soup=BeautifulSoup(htmlstr,'html.parser')

 y=re.compile(r'<p>([\s\S]*?)</p>')

 text=y.findall(str(soup))      #第一次正则表达式筛选所有<p></p>中的内容

 x=''

 print(len(text))

 for i in range(0,len(text)):

     x=x+text[i]

 text1=re.sub("</?\w+[^>]*>",'',x)  #去掉html标签

 text2=text1.replace("。",'。\n\n\0\0')  #让文本更好看

 print(text2)

输出结果

over!

参考：http://www.cnblogs.com/jjj-fly/p/6901022.html

python 爬取文章的更多相关文章

用Python爬取文章，并转PDF格式电子书
wkhtmltopdf [软件],这个是必学准备好的,不然这个案例是实现不出来的获取文章内容代码 (https://jq.qq.com/?_wv=1027&k=QgGWqAVF) 发送请求, ...
python 爬取文章后存储excel 以及csv
import requests from bs4 import BeautifulSoup import random import openpyxl xls=openpyxl.Workbook() ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
没有内涵段子可以刷了，利用Python爬取段友之家贴吧图片和小视频(含源码)
由于最新的视频整顿风波,内涵段子APP被迫关闭,广大段友无家可归,但是最近发现了一个"段友"的app,版本更新也挺快,正在号召广大段友回家,如下图,有兴趣的可以下载看看(ps:我不 ...
python爬取微信公众号
爬取策略 1.需要安装python selenium模块包,通过selenium中的webdriver驱动浏览器获取Cookie的方法.来达到登录的效果 pip3 install selenium c ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...

随机推荐

mysql explain分析
通过explain可以知道mysql是如何处理语句,分析出查询或是表结构的性能瓶颈.通过expalin可以得到: 1. 表的读取顺序 2.表的读取操作的操作类型 3.哪些索引可以使用 4. 哪些索引被 ...
[Offer收割]编程练习赛13 B.最大子矩阵[枚举]
#1502 : 最大子矩阵时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述给定一个NxM的矩阵A和一个整数K,小Hi希望你能求出其中最大(元素数目最多)的子矩阵,并且该 ...
检测硬件RDMA卡是否存在
1.检查网卡是否安装成功: # lspci | grep Mellanox 83:00.0 Ethernet controller: Mellanox Technologies MT27710 Fam ...
Unity3D笔记 NUGUI 一
NGUI是严格遵循KISS原则(KISS原则,keep it simple and stupid ,简单的理解这句话就是,要把一个系统做的连白痴都会用.这就是用户体验的高层境界了,好听的说法也是有的, ...
三个Linux权限
Linux有三种不同类型的用户可对文件或目录进行访问,分别是:文件所有者,同组用户.其他用户. 每一文件或目录的访问权限都有三组,每组用三位表示,分别为:1)文件属主的读.写和执行权限:2)和属主同组 ...
从Spring到SpringBoot构建WEB MVC核心配置详解
目录理解Spring WEB MVC架构的演变认识Spring WEB MVC 传统时代的Spring WEB MVC 新时代Spring WEB MVC SpringBoot简化WEB MVC开 ...
cmake practice一文中安装可执行文件的方法
在学习cmake practice第四章中,第四章的任务如下修改 Helloworld 支持安装在本节开头我们定义了本节的任务如下:1,为工程添加一个子目录 src,用来存储源代码;2,添加一个子目 ...
Oracle体系结构之Oracle静态监听配置模板
1.监听程序配置:[oracle@localhost admin]$ vim listener.ora# listener.ora Network Configuration File: /u01/a ...
Python：正则表达式概念
#正则表达式内容非常多,网上的学习资源也是目不暇接,我从中筛选学习并且整理出以下的学习笔记一.正则表达式匹配过程: 1.依次拿出表达式和文本中的字符比较 2.如果每一个字符都能匹配,则匹配成功:一 ...
linux：任务计划crontab
crontab 简介 crontab 命令常见于 Unix 和类 Unix 的操作系统之中(Linux 就属于类 Unix 操作系统),用于设置周期性被执行的指令. crontab 命令从输入设备读取 ...

python 爬取文章

python 爬取文章的更多相关文章

随机推荐

热门专题