Python爬取散文网散文

配置python 2.7

    bs4

    requests

安装用pip进行安装 sudo pip install bs4

sudo pip install requests

简要说明一下bs4的使用因为是爬取网页所以就介绍find 跟find_all

find跟find_all的不同在于返回的东西不同 find返回的是匹配到的第一个标签及标签里的内容

find_all返回的是一个列表

比如我们写一个test.html 用来测试find跟find_all的区别。内容是：

<html>

<head>

</head>

<body>

<div id="one"><a></a></div>

<div id="two"><a href="#">abc</a></div>

<div id="three"><a href="#">three a</a><a href="#">three a</a><a href="#">three a</a></div>

<div id="four"><a href="#">four<p>four p</p><p>four p</p><p>four p</p> a</a></div>

</body>

</html>

然后test.py的代码为：

from bs4 import BeautifulSoup

import lxml

if __name__=='__main__':

  s = BeautifulSoup(open('test.html'),'lxml')

  print s.prettify()

  print "------------------------------"

  print s.find('div')

  print s.find_all('div')

  print "------------------------------"

  print s.find('div',id='one')

  print s.find_all('div',id='one')

  print "------------------------------"

  print s.find('div',id="two")

  print s.find_all('div',id="two")

  print "------------------------------"

  print s.find('div',id="three")

  print s.find_all('div',id="three")

  print "------------------------------"

  print s.find('div',id="four")

  print s.find_all('div',id="four")

  print "------------------------------"

运行以后我们可以看到结果当获取指定标签时候两者区别不大当获取一组标签的时候两者的区别就会显示出来

所以我们在使用时候要注意到底要的是什么，否则会出现报错

接下来就是通过requests 获取网页信息了，我不太懂别人为什么要写heard跟其他的东西

我直接进行网页访问，通过get方式获取散文网几个分类的二级网页然后通过一个组的测试，把所有的网页爬取一遍

def get_html():

  url = "https://www.sanwen.net/"

  two_html = ['sanwen','shige','zawen','suibi','rizhi','novel']

  for doc in two_html:

	  i=1

          if doc=='sanwen':

            print "running sanwen -----------------------------"

          if doc=='shige':

            print "running shige ------------------------------"

          if doc=='zawen':

            print 'running zawen -------------------------------'

          if doc=='suibi':

            print 'running suibi -------------------------------'

          if doc=='rizhi':

            print 'running ruzhi -------------------------------'

          if doc=='nove':

            print 'running xiaoxiaoshuo -------------------------'

	  while(i<10):

	    par = {'p':i}

	    res = requests.get(url+doc+'/',params=par)

	    if res.status_code==200:

	      soup(res.text)

              i+=i

这部分的代码中我没有对res.status_code不是200的进行处理，导致的问题是会不显示错误，爬取的内容会有丢失。然后分析散文网的网页，发现是www.sanwen.net/rizhi/&p=1

p最大值是10这个不太懂，上次爬盘多多是100页，算了算了以后再分析。然后就通过get方法获取每页的内容。

获取每页内容以后就是分析作者跟题目了代码是这样的

def soup(html_text):

  s = BeautifulSoup(html_text,'lxml')

  link = s.find('div',class_='categorylist').find_all('li')

  for i in link:

    if i!=s.find('li',class_='page'):

      title = i.find_all('a')[1]

      author = i.find_all('a')[2].text

      url = title.attrs['href']

      sign = re.compile(r'(//)|/')

      match = sign.search(title.text)

      file_name = title.text

      if match:

        file_name = sign.sub('a',str(title.text))

获取标题的时候出现坑爹的事，请问大佬们写散文你标题加斜杠干嘛，不光加一个还有加两个的，这个问题直接导致我后面写入文件的时候文件名出现错误，于是写正则表达式，我给你改行了吧。

最后就是获取散文内容了，通过每页的分析，获得文章地址，然后直接获取内容，本来还想直接通过改网页地址一个一个的获得呢，这样也省事了。

def get_content(url):

  res = requests.get('https://www.sanwen.net'+url)

  if res.status_code==200:

    soup = BeautifulSoup(res.text,'lxml')

    contents = soup.find('div',class_='content').find_all('p')

    content = ''

    for i in contents:

      content+=i.text+'\n'

    return content

最后就是写入文件保存ok

      f = open(file_name+'.txt','w')

      print 'running w txt'+file_name+'.txt'

      f.write(title.text+'\n')

      f.write(author+'\n')

      content=get_content(url)

      f.write(content)

      f.close()

三个函数获取散文网的散文，不过有问题，问题在于不知道为什么有些散文丢失了我只能获取到大概400多篇文章，这跟散文网的文章是差很多很多的，但是确实是一页一页的获取来的，这个问题希望大佬帮忙看看。可能应该做网页无法访问的处理，当然我觉得跟我宿舍这个破网有关系

      f = open(file_name+'.txt','w')

      print 'running w txt'+file_name+'.txt'

      f.write(title.text+'\n')

      f.write(author+'\n')

      content=get_content(url)

      f.write(content)

      f.close()

差点忘了效果图

能会出现timeout现象吧，只能说上大学一定要选网好的啊！

每天进步一点点，希望坏狗狗能离我远一点。。。。。

Python爬取散文网散文的更多相关文章

python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
[转]使用python爬取东方财富网机构调研数据
最近有一个需求,需要爬取东方财富网的机构调研数据.数据所在的网页地址为: 机构调研网页如下所示: 可见数据共有8464页,此处不能直接使用scrapy爬虫进行爬取,因为点击下一页时,浏览器只是发起了 ...
Python 爬取赶集网租房信息
代码已久,有可能需要调整 #coding:utf-8 from bs4 import BeautifulSoup #有这个bs4不用正则也可以定位要爬取的内容了 from urlparse impor ...
利用python爬取贝壳网租房信息
最近准备换房子,在网站上寻找各种房源信息,看得眼花缭乱,于是想着能否将基本信息汇总起来便于查找,便用python将基本信息爬下来放到excel,这样一来就容易搜索了. 1. 利用lxml中的xpath ...
python爬取返利网中值得买中的数据
先使用以前的方法将返利网的数据爬取下来,scrapy框架还不熟练,明日再战scrapy 查找目标数据使用的是beautifulsoup模块. 1.观察网页,寻找规律打开值得买这块内容 1>分析 ...
Python爬取前程无忧网站上python的招聘信息
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 我姓刘却留不住你的心 PS:如有需要Python学习资料的小伙伴可以 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
Python学习-使用Python爬取陈奕迅新歌《我们》网易云热门评论
<后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中 ...
Python爬取中国天气网
Python爬取中国天气网基于requests库制作的爬虫. 使用方法:打开终端输入 “python3 weather.py 北京(或你所在的城市)" 程序正常运行需要在同文件夹下加入一个 ...

随机推荐

61 (OC)* 代理 block 通知代理 kvo
1.从源头上理解和区别block和delegate delegate运行成本低,block的运行成本高. block出栈需要将使用的数据从栈内存拷贝到堆内存,当然对象的话就是加计数,使用完或者bloc ...
ORA-08102异常重现及恢复
现象: 在表上面新建主键报ORA-08102的异常: SQL> alter table t add primary key(id); alter table t add primary key( ...
JavaScript之JSON&AJAX
今天为大家讲解JavaScript中非常流行的数据传输形式JSON和异步技术AJAX技术. 一 JSON JSON的全称是JavaScript Object Notation(js对象表示法),它是一 ...
Regex分组与Pattern正则表达式对象
1.正则规则: 1.String regex = "[1-9]" 表示单个字符的取值范围是 1~9,注意是单个字符的取值范围 2 ...
性能优化：虚拟列表，如何渲染10万条数据的dom，页面同时不卡顿
列表大概有2万条数据,又不让做成分页,如果页面直接渲染2万条数据,在一些低配电脑上可能会照成页面卡死,基于这个需求,我们来手写一个虚拟列表思路列表中固定只显示少量的数据,比如60条在列表滚动的时 ...
java-不定项参数（可变参数）的作用和使用方式
引言: 我们在编写方法的过程中,可能会遇见一个方法有不确定参数个数的情况.一般我们会用方法重载来解决问题: 1 //方法重载,解决参数个数不确定问题 2 public void method(); 3 ...
站内搜索（ELK）之数据目录
在使用elasticsearch建设站内搜索时,随着数据不断丰富,为了数据管理更加精细化,必须建立并实时维护“数据目录”(在程序设计中对应的叫法“数据字典”). 数据目录需要包含以下几个维度:数据名称 ...
Basic Example using SMTP (for PHPMailer v5.0.0 and up)
sample as below: require_once('../class.phpmailer.php'); //include("class.smtp.php"); // o ...
Kafka0.11之RoundRobinPartitioner/HashPartitioner（Scala）：
RoundRobinPartitioner/HashPartitioner: import java.util import java.util.concurrent.atomic.AtomicLon ...
【Java】生成32位随机字符编号
/** * 生成32位编码 * @return string */ public static String getUUID(){ String uuid = UUID.randomUUID().to ...

Python爬取散文网散文

Python爬取散文网散文的更多相关文章

随机推荐

热门专题