python爬虫：爬取读者某一期内容

学会了怎么使用os模块

#!/usr/bin/python
# -*- encoding:utf-8 -*-

import requests
import os
from bs4 import BeautifulSoup

def urlBS(url):
    response = requests.get(url)
    # print response.encoding     #查看request解析的网页的编码
    response.encoding = 'utf-8'     #requests自动识别的编码有误，强制更改编码方式
    soup = BeautifulSoup(response.text,'lxml')  #前面用的soup = BeautifulSoup(response)一直报错，后面参考用etree的方式，我加了个.text搞定
    # print soup.original_encoding    #查看BeautifulSoup解析的网页的编码
    return soup

def get_article(url):
    #得到文档的链接
    booklist_soup=urlBS(url)
    herf_list=booklist_soup.select('.booklist a')

    path = os.getcwd()+u'/读者文章保存'+time+u'/'  #取得当前目录
    if not os.path.isdir(path):         #如果当前目录不存在读者文章保存这个文件夹，则新建它
        os.mkdir(path)

    for herf in herf_list:
        newurl=baseurl+herf['href']
        # print newurl
        result=urlBS(newurl)

        title=result.find("h1").string  #获得文章标题
        filename = path + title + '.txt'
        #print filename
        author=result.find(id='pub_date').string.strip() #获得作者,strip去除前后空格
        print filename+'   '+author
        #写入文档
        new=open(filename,"w")
        new.write("<<" + title.encode("utf-8") + ">>\n\n")
        new.write(author.encode("utf-8")+"\n\n")
        #文章信息
        text=result.select(".blkContainerSblkCon p")
       # file=open('testfile.text','w')
        for p in text:
            # print p.text
            #content=p.string.strip() #用strip导致不会换行了，写进去后所有的资料都变成了一行
            content=p.text              #直接用.text原文的换行都会存在，保存较完好
            new.write(content.encode("utf-8"))
        new.close()

python爬虫：爬取读者某一期内容的更多相关文章

python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

Session和Cookie对比详解
会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话.常用的会话跟踪技术是Cookie与Session.Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端 ...
mindmanager 2018 中文破解版_注册码_免激活
MindManager 2018是一个可视化的工具,可以用在脑力风暴(brainstorm)和计划(plan)当中.为商务人士提供更有效的.电子化手段捕捉.组织和联系信息(information)和想 ...
javascript （BOM DOM）
BOM对象 window对象所有浏览器都支持 window 对象.概念上讲.一个html文档对应一个window对象.功能上讲: 控制浏览器窗口的.使用上讲: window对象不需要创建对象,直接使 ...
scrapy 动态网页处理——爬取鼠绘海贼王最新漫画
简介 scrapy是基于python的爬虫框架,易于学习与使用.本篇文章主要介绍如何使用scrapy爬取鼠绘漫画网海贼王最新一集的漫画. 源码参见:https://github.com/liudaol ...
gradle springboot打包时忽略某个配置文件
jar { exclude "**/bootstrap.properties" }
nodejs 使用crypto实现sha256\md5加密
var crypto = require('crypto'); var hash = crypto.createHash('sha256');// sha256或者md5 hash.update('1 ...
训练1-B
杭州人称那些傻乎乎粘嗒嗒的人为62(音:laoer). 杭州交通管理局经常会扩充一些的士车牌照,新近出来一个好消息,以后上牌照,不再含有不吉利的数字了,这样一来,就可以消除个别的士司机和乘客的心理障碍 ...
redi通过哨兵sentinel实现主从切换
本次实验主要为了让哨兵监听redis主从复制,当主节点关闭后,哨兵会选举一台从节点成为主节点,并且让其他从节点变成新主节点得从节点本次理论需要三台机器,一主两从,为了方便用一台服务器开启三个实例,一 ...
Python面向对象----封装
1. Python语言不是强类型语言, 公有和私有体现的不是很明显.私有成员可以通过对象._ClassName__私有成员进行访问 2. 使用封装借助了装饰器其实具有类get和set等操作
SSH框架整合截图总结(一)
分页相关属性 --------------------------------------------------------------- 分页思路表单提交(只需传递当前页的值) ->acti ...

python爬虫：爬取读者某一期内容

python爬虫：爬取读者某一期内容的更多相关文章

随机推荐

热门专题