数据存储 csv

# 保存csv格式的数据
import csv

csvFile = open('test.csv','w+',newline='')  #文本方式可读写

try:

    writer = csv.writer(csvFile)

    writer.writerow(('num','num+2','num*2'))

    for i in range(10):

        writer.writerow((i,i+2,i*2))

finally:

    csvFile.close()

# mysql python操作

import pymysql  #导包

conn = pymysql.connect(host='127.0.0.1', port=3306, user='root', password=None, db='mysql',chaset='utf8') #创建连接

cur = conn.cursor() #创建游标

cur.execute("USE scraping") #执行 使用库

cur.execute("SELECT * FROM pages WHERE id=1") #执行语句

print(cur.fetchone())  #获取单条数据

cur.close()  #游标关闭

conn.close() #连接关闭

str = bytes(value=b'', encoding=None)  #指定编码

from urllib.request import urlopen

from io import StringIO  #字符串的缓存

import csv

data = urlopen("http://pythonscraping.com/files/MontyPythonAlbums.csv").read().decode('ascii', 'ignore')

dataFile = StringIO(data)

csvReader = csv.reader(dataFile)

for row in csvReader:

    print("The album \""+row[0]+"\" was released in "+str(row[1]))

#pdfminer3k

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

from io import open

from urllib.request import urlopen

def readPDF(pdfFile):

    rsrcmgr = PDFResourceManager()

    retstr = StringIO()

    laparams = LAParams()

    device = TextConverter(rsrcmgr, retstr, laparams=laparams)

    process_pdf(rsrcmgr, device, pdfFile)

    device.close()

    content = retstr.getvalue()

    retstr.close()

    return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

outputString = readPDF(pdfFile)

print(outputString)

pdfFile.close()

from zipfile import ZipFile  #docx

from urllib.request import urlopen

from io import BytesIO

from bs4 import BeautifulSoup

wordFile = urlopen("http://pythonscraping.com/pages/AWordDocument.docx").read()

wordFile = BytesIO(wordFile)

document = ZipFile(wordFile)

xml_content = document.read('word/document.xml')

wordObj = BeautifulSoup(xml_content.decode('utf-8'), "lxml-xml")

textStrings = wordObj.findAll("w:t")

for textElem in textStrings:

    closeTag = ""

    try:

        style = textElem.parent.previousSibling.find("w:pStyle")

        if style is not None and style["w:val"] == "Title":

            print("<h1>")

            closeTag = "</h1>"

    except AttributeError: #不打印标签

        pass

    print(textElem.text)

    print(closeTag)

数据存储 csv的更多相关文章

python数据存储-- CSV
CSV,其文件以纯文本形式存储表格数据(数字和文本),CSV记录简由某种换行符分隔字段间分隔又其他字符,常见逗号或者制表符, 例如: #coding:utf-8 import csv headers ...
csv格式的数据存储到mysql
python写的,有点冗余,先码出来~~~~ 这是data_stored.py的代码 # -*- coding:utf-8 -*- # 存数据到mysql (只存了时间数字) import pymys ...
Go Web：数据存储(2)——CSV文件
存储到CSV文件中 1.内存存储 2.CSV文件存储 3.gob序列化存储本文接上一篇:内存存储. 关于CSV文件的说明,见csv文件格式当数据存储到了内存中,可以在需要的时候持久化保存到磁盘文件 ...
（完整）爬取数据存储之TXT、JSON、CSV存储
一.文件存储 1. TXT文本存储例:知乎发现页面,获得数据存成TXT文本 import requests from pyquery import PyQuery as pq url="h ...
scrapy抓取拉勾网职位信息（七）——数据存储（MongoDB，Mysql，本地CSV）
上一篇完成了随机UA和随机代理的设置,让爬虫能更稳定的运行,本篇将爬取好的数据进行存储,包括本地文件,关系型数据库(以Mysql为例),非关系型数据库(以MongoDB为例). 实际上我们在编写爬虫r ...
python爬虫#数据存储#JSON/CSV/MYSQL/MongoDB/
Json数据处理 JSON支持数据格式: 对象(字典).使用花括号. 数组(列表).使用方括号. 整形.浮点型.布尔类型还有null类型. 字符串类型(字符串必须要用双引号,不能用单引号). 多个数据 ...
Python3爬虫（八）数据存储之TXT、JSON、CSV
Infi-chu: http://www.cnblogs.com/Infi-chu/ TXT文本存储 TXT文本存储,方便,简单,几乎适用于任何平台.但是不利于检索. 1.举例: 使用requests ...
数据存储之json文件处理和csv文件处理
什么是json: JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式.它基于 ECMAScript (w3c制定的js规范)的一个子集,采用 ...
【Cocos2d-x游戏开发】Cocos2d-x中的数据存储技术
一.引言数据存储和网络功能可以说是一款游戏中必不可少的功能,如果一款游戏不能保存进度那么它的可玩性必然大打折扣(试想一下,玩家辛辛苦苦玩了一整天的游戏,结果退出时告诉人家不能保存关卡信息,你明天还得 ...

随机推荐

Android View框架的draw机制
概述 Android中View框架的工作机制中,主要有三个过程: 1.View树的测量(measure) Android View框架的measure机制 2.View树的布局(layout)Andr ...
Linux vim三种模式的快捷键
1.移动光标数字 + h,j,k,l 上,下,左,右 ctrl-e 移动页面 ctrl-f 上翻一页 ctrl-b 下翻一页 ctrl-u 上翻半页 ctrl-d 下翻半页 w 跳到下一个字首,按标 ...
java - jmm之volatile特性
volatile是什么? volatile是JVM提供的一种轻量级的同步机制,其具有三个特性. 保证可见性不保证原子性禁止指令重排保证可见性 JMM(java memory model)中文翻译 ...
springboot里面的缓存注解
https://blog.csdn.net/u012240455/article/details/80844361 https://lfvepclr.gitbooks.io/spring-framew ...
include=FALSE的作用
每次都会加载很多的包,会显示很多没用的信息,特别是那个spdep. 例如: {r include=FALSE} library(plm) library(tseries) library(zoo) l ...
剖析Javascript中sort()使用方法，以及重写sort()里的排序方法，实现自定义排序
语法:arrayObject.sort([compareFunction]):参数compareFunction可选.规定排序顺序,必须是函数. sort() 方法用于对数组的元素进行排序,并返回数组 ...
2018中国大学生程序设计竞赛 - 网络选拔赛---Find Integer!--hdu6441
问题传送门:https://vjudge.net/contest/320779#problem/D 介绍一个名词:奇偶数列法则 Key part: #include<iostream> # ...
Vue+ESLint+Git钩子函数pre-commit配置教程
一.创建Vue项目eslint-standard vue create eslint-standard 二.创建.eslintrc.* 删除package.json中的eslintConfig配置我 ...
OSI协议
物理层: 网线连接在客户端计算机上,其实是连接在了计算机的一个叫做网卡的设备上,网卡是专门负责与外界通信的.网线一般是双绞线或者光缆,也可以使用无线电波,中间经过交换机,路由器,防火墙等等一堆设备统称 ...
vue 中的路由为什么采用 hash 路由模式，而不是href超链接模式(Hypertext，Reference)？
1. vue中路由模式的种类有两种 1. 一种是 hash 模式. 2. 一种是 h5 的 history 模式. 2. hash 和 history 都是来自 bom 对象 bom 来自 windo ...

数据存储 csv

数据存储 csv的更多相关文章

随机推荐

热门专题