提取KIndle中每本书的笔记并单独保存

整体思路

目标：将Kindle中的每本书的笔记标注单独提取出保存为一个Markdown文件

其中检测KIndle是否已经正常插入的判断方法：

思路1：读取媒介挂载记录
思路2：直接判断挂载地址是否存在

实现的时候用的第二个思路，Kindle的挂载路径为/media/当前用户名/Kindle，只需判断这个地址是否存在且能进入正常进行读取操作即可

其中对于信息提取，My Clippings.txt中内容格式如下

书名 作者

标注/笔记所在位置 时间

空行

笔记/标注内容

==========

每一条笔记都由十个=号进行分割。这样就很容易将内容分开了。

代码实现

#!/usr/bin/env python

# encoding: utf-8

import os

import getpass

class KindleExtract():

    def __init__(self):

        pass

    def kindle_check(self):

        """检测Kindle的Clippings文件"""

        username = getpass.getuser()

        kindle_path = ""

        try:

            if 'Kindle' in os.listdir("/media/"+username):

                kindle_path = "/media/"+username+"/Kindle"

                print u"检测到您的Kindle"

            else:

                print u"未检测到您的Kindle设备，请确认插入正确再运行本脚本"

                exit(1)

            if "My Clippings.txt" in os.listdir(kindle_path+"/documents"):

                kindle_path = kindle_path+"/documents/My Clippings.txt"

                print u"检测到标注信息所在文件"

            else:

                print u"未检测到标注信息文件"

                exit(2)

        except Exception, e:

            print e

        return kindle_path

    def get_data(self,kindle_path=None):

        result ={}

        book=[]

        item=[]

        with open(kindle_path) as f:

            for i,cont in enumerate(f.readlines()):

                cont = cont.strip()

                if "==========" == cont:

                    book.append(item)

                    item = []

                    continue

                # if cont != "":

                item.append(cont)

        caption = []

        for i in book:

            caption.append(i[0])

        caption = set(caption)

        tmp ={}

        for i in caption:

            tmp[i] = []

        for i in book:

            tmp[i[0]].append(i[3])

        for i in tmp:

            c = str(i).split(" ")

            title = c[0]

            print title

            author = " ".join(c[1:])

            with open(i.replace("/","·")+".md","w") as out_file:

                out_file.write("# 书名：《《"+title+"》》\n")

                out_file.write("> 作者：《《"+author+"\n")

                for id,item in enumerate(tmp[i]):

                    out_file.write("+ %s%s\n"%(id,item))

if __name__ == "__main__":

    ke = KindleExtract()

    ke.get_data(kindle_path="clip.txt")

诸多不完善

提取KIndle中每本书的笔记并单独保存的更多相关文章

python笔记之提取网页中的超链接
python笔记之提取网页中的超链接对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
python学习笔记——爬虫中提取网页中的信息
1 数据类型网页中的数据类型可分为结构化数据.半结构化数据.非结构化数据三种 1.1 结构化数据常见的是MySQL,表现为二维形式的数据 1.2 半结构化数据是结构化数据的一种形式,并不符合关系 ...
NodeJS写个爬虫，把文章放到kindle中阅读
这两天看了好几篇不错的文章,有的时候想把好的文章 down 下来放到 kindle 上看,便写了个爬虫脚本,因为最近都在搞 node,所以就很自然的选择 node 来爬咯- 本文地址:http://w ...
【前端】提取URL中的各个GET参数
/**************************** * 有这样一个URL:http://item.taobao.com/item.htm?a=1&b=2&c=&d=xx ...
C++ 提取字符串中的数字
C++ 提取字符串中的数字 #include <iostream> using namespace std; int main() { ] = "1ab2cd3ef45g&quo ...
在线提取PDF中图片和文字
无需下载软件,你就可以在线提取PDF中图片和文字,http://www.extractpdf.com/不仅可以获取本地PDF文档的图片和文字,还能获取远程PDF文档的图片和文字.如下图所示:结果本人测 ...
使用Perl提取Excel中的IO_MUX
使用Perl提取Excel中的IO_MUX 关键问题提取数据格式化输出循环嵌套数据结构构建坐标映射,逆向提取关键字描述在IC集成中,我们使用Excel表格规划设计的IC引脚功能映射需要转 ...
java正则表达式提取地址中的ip和端口号
由于我需要用到java正则表达式提取地址中的ip和端口号,所以我就写了一个demo,测试一下,下面是demo public class Test0810_1 { public static void ...
提取DirectShow中视频采集的数据
DirectShow中,数据流(Data Flow)都是依次流过各个Filter的.它对数据的管理也有自己的方法,而且并没有向用户提供一个统一的接口,供用户操作数据流.这里以提取视频采集在的每帧为位图 ...

随机推荐

【译】用jQuery 处理XML--写在前面的话
用jQuery 处理XML--写在前面的话用jQuery 处理XML-- DOM(文本对象模型)简介用jQuery 处理XML--浏览器中的XML与JavaScript 用jQuery 处理XML ...
关于QCon2015感想与反思
QCon2015专场有不少关于架构优化.专项领域调优专题,但能系统性描述产品测试方向只有<携程无线App自动化测试实践>. (一). 携程的无线App自动化 <携程无线A ...
我的c程序
想写一个不同机器通信获取状态的c程序.遇到无数困难.断断续续了3.4周了,得到的结果仍然无法面世. 我想还是把其中遇到的所有困难写下来吧! 下面是结果 #include <stdlib.h> ...
我所了解的chrome
Chrome的隐身模式先来说说隐身模式的启用方法吧 1.键盘快捷:Ctrl + Shift + N. 2.在Windows7下的任务栏处,右击“Chrome”图标,会出一个下拉菜单,点击“新建隐身窗 ...
Asp.net WebApi 项目示例（增删改查）
1.WebApi是什么 ASP.NET Web API 是一种框架,用于轻松构建可以由多种客户端(包括浏览器和移动设备)访问的 HTTP 服务.ASP.NET Web API 是一种用于在 .NET ...
Apache多站点实现原理和配置
Apache多站点实现原理很多人常常看到一台服务器上跑多个站点,不同的域名访问不同的站点,就会有个疑惑:访问的时候并没有在地址栏中加入端口号,多个域名都是解析到这个服务器的IP地址,服务器怎么能够正 ...
Spring Cloud 配置服务
Spring Cloud 配置服务 1. 配置服务简介产生背景: 传统开发中,我们通常是将系统的业务无关配置(数据库,缓存服务器)在properties中配置,在这个文件中不会经常改变,但随着系统规 ...
XML学习笔记5——XSD复杂数据类型
和简单数据类型对应就是复杂数据类型了,XML元素的数据类型可以是简单数据类型,也可以是复杂数据类型,而XML属性的数据类型就只能是简单数据类型.这篇笔记,就来学习一下XSD中的复杂数据类型了. 1.定 ...
ASP.NET MVC TagBuilder使用
ASP.NET MVC在需要进行新建HTML辅助方法时,可以来使用TagBuilder类. TagBuilder类常用方法: 方法名称说明 AddCssClass() 可在卷标中添加一个新的Clas ...
史上最全github使用方法：github入门到精通
[初识Github]首先让我们大家一起喊一句“Hello Github”.YEAH!就是这样. 原文 http://www.eoeandroid.com/thread-274556-1-1.htmlG ...

提取KIndle中每本书的笔记并单独保存

整体思路

代码实现

提取KIndle中每本书的笔记并单独保存的更多相关文章

随机推荐

热门专题