python获取豆瓣日记

最近迷上了看了四个春天，迷上了饭叔的豆瓣日记，想全部抓取下来，简单了写了下面的脚本

import urllib.request

import os

from bs4 import BeautifulSoup

def get_html(url):

    """通用方法，获取整个链接得html·"""

    web = urllib.request.urlopen(url)

    soup = BeautifulSoup(web, "html.parser")

    # print(soup)

    data = soup.find("div", id="content")

    return data

def get_diary(data,path):

    """获取日记链接，并且存储起来"""

    data = data.find_all("div",class_="note-header-container")

    for link in data:

        # print(link)

        diary_url = link.find('div', class_="rr").find('a').get("href")

        with open(path, 'a+', encoding='UTF-8') as f:

            f.write(diary_url+'\n')

def get_num(url):

    #获取最大页数

    html_data = get_html(url)

    paginator_data = html_data.find("div",class_="paginator")

    page_num =[]

    for link in  paginator_data.find_all("a"):

        page_num.append(link.get_text())

    return "".join(page_num[-2:-1])

def get_diary_data(url,path):

    """获取日记内容，保存为txt文件"""

    data = get_html(url)

    title = data.find("h1").get_text()

    file_name = path+"/"+title+".txt"

    with open(file_name,'a+',encoding='UTF-8') as f:

        f.write(title)

    note_data = data.find("div",id="link-report")

    for node_line in note_data.stripped_strings:

        with open(file_name, 'a+', encoding='UTF-8') as f:

            f.write(repr(node_line))

if __name__ == '__main__':

    url = 'https://www.douban.com/people/luqy/notes'

    path = "d://陆导"

    diary_url_path = path + "/"+"diary_url.txt"

    page_num = get_num(url)

    for i in range(14):

        url1 = url + "?start=%d&type=note"%(i*10)

        get_diary(get_html(url1),diary_url_path)

    f = open(diary_url_path,'r',encoding='utf-8')

    for line in f.readlines():

        try:

            get_diary_data(line,path)

        except Exception as e:

            print(e)

    f.close()

目前存在一个问题

1，抓取次数过多会被分IP地址

爬取结果：

python获取豆瓣日记的更多相关文章

爬虫实战【11】Python获取豆瓣热门电影信息
之前我们从猫眼获取过电影信息,而且利用分析ajax技术,获取过今日头条的街拍图片. 今天我们在豆瓣上获取一些热门电影的信息. 页面分析首先,我们先来看一下豆瓣里面选电影的页面,我们默认选择热门电影, ...
Python爬虫个人记录（四）利用Python在豆瓣上写一篇日记
涉及关键词:requests库 requests.post方法 cookies登陆 version 1.5(附录):使用post方法登陆豆瓣,成功! 缺点:无法获得登陆成功后的cookie,要使用js ...
python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
Python 豆瓣日记爬取
无聊写了个豆瓣日记的小爬虫,requests+bs4. cookies_src可填可不填,主要是为了爬取仅自己可见的日记. url填写的是日记页面,即https://www.douban.com/pe ...
python监控tomcat日记文件
最近写了一个用python监控tomcat日记文件的功能实现的功能: 监控日记文件中实时过来的记录,统计每分钟各个接口调用次数,统计结果插入oracle #!/usr/bin/python # -* ...
HTTP协议与使用Python获取数据并写入MySQL
一.Http协议二.Https协议三.使用Python获取数据 (1)urlib (2)GET请求 (3)POST请求四.爬取豆瓣电影实战 1.思路 (1)在浏览器中输入https://movi ...
使用shell/python获取hostname/fqdn释疑
一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了. 一.设置hostname/fqdn 在Li ...
python 获取日期
转载原文:python 获取日期作者:m4774411wang python 获取日期我们需要用到time模块,比如time.strftime方法 time.strftime('%Y-%m-% ...
python获取字母在字母表对应位置的几种方法及性能对比较
python获取字母在字母表对应位置的几种方法及性能对比较某些情况下要求我们查出字母在字母表中的顺序,A = 1,B = 2 , C = 3, 以此类推,比如这道题目 https://project ...

随机推荐

Ubuntu Linux 查看、编辑、比较二进制文件
查看二进制有以下几种方法: 方法一:hexdump apt-get install libdata-hexdumper-perl 安装好之后就可以直接hexdump your_binary_file ...
SAP中MM模块基础数据之Quota Arrangement(配额协议)的解析
有的时候我们的采购部门有这样的需求, 同一颗物料有几个供应商同时供料, 这个时候就涉及到一个问题, 避免出现总是和一家供应商购买物料的情况,我们需求把这些物料按照一定的比列分配给供应商.在SAP系统中 ...
linux发行版及版本号
1991年8月:Linus Torvalds宣布成立Linux 遵行GPL: Kernel:底层监控程序又叫通用程序,即我们所说的操作系统 Kernel的作用: ...
jdbc.properties不能加载到tomcat项目下面
javaweb项目的一个坑,每次重启tomcat都不能将项目中的jdbc.properties文件加载到tomcat项目对应的classes目录下面,得手动粘贴到该目录下.
The Preliminary Contest for ICPC Asia Shenyang 2019 C. Dawn-K's water
题目:https://nanti.jisuanke.com/t/41401思路:完全背包 #include<bits/stdc++.h> using namespace std; int ...
sublime text 前端插件安装
Package Control安装打开sublime编辑器,ctrl + ` 打开安装PackageControl界面: sublime text3: import urllib.request,o ...
盒子模型的overflow属性，border属性，padding与margin属性
今天要写的是CSS布局—盒子模型首先说一下CSS的整体布局: 它包括容器(container),页眉(header),导航条(navbar),页面主要内容(main),菜单(menu),主要内容(c ...
Codeforces 1213G Path Queries
cf题面中文题面给一棵无根树,每条边有边权.然后q个询问,每次询问给个w,求树上有多少对点之间的路径上的最大值小于等于w. 解题思路离线.先把所有边按照边长升序排序,再把所有询问按照w升序排序. ...
【清华集训2016】Alice和Bob又在玩游戏
不难的题目.因为SG性质,所以只需要对一棵树求出. 然后如果发现从上往下DP不太行,所以从下往上DP. 考虑一个点对子树的合并,考虑下一个删的点在哪一个子树,那么剩下的状态实际上就是把一个子树所有能达 ...
Android 属性动画监听事件与一个菜单的例子
简单监听事件 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 3 ...

python获取豆瓣日记

python获取豆瓣日记的更多相关文章

随机推荐

热门专题