《python网络数据采集》笔记1

第一部分-创建爬虫

1.urllib

1)urllib.request

request.urlopen(url)

request.urlretrieve 可以根据文件的 URL 下载文件

2)urllib.parse

3)urllib.error

2.异常：

try...except...else...

常见异常：HTTPError,AttributeError,

3.BeautifulSoup

from bs4 import BeautifulSoup

bsObj=BeautifulSoup(html,'lxml')

print(bsObj.text)

print(bsObj.html)

print(bsObj.p.a)

...

findAll(tag, attributes, recursive, text, limit, keywords) #返回一个ResultSet

find(tag, attributes, recursive, text, keywords) #返回一个Tag

借助它们,你可以通过标签的不同属性轻松地过滤 HTML 页面，查找需要的标签组或单个标签

例：

.findAll({"h1","h2","h3","h4","h5","h6"})

.findAll("span", {"class":{"green", "red"}})

.findAll(id="text") 同 .findAll("", {"id":"text"})

.findAll(src=True) 有src属性的标签

get_text() 会把你正在处理的 HTML 文档中所有的标签都清除，然后返回一个只包含文字的str

4)返回类型NavigatorString

.children （所有子标签）

.next_sibling（下一个兄弟标签）.next_siblings（所有之后的兄弟标签）

.previous_sibling（上一个兄弟标签）.previous（所有之前的兄弟标签）

.parent （直接父标签）.parents（所有父标签）、

5）

.attrs 获取标签所有属性(dict)

.attrs['src'] 获取src值

6)正则表达式

7)lambda表达式

#获取有两个属性的标签：

bsObj.findAll(lambda tag: len(tag.attrs) == 2)

4.Scrapy

//TODO

5.JSON

把 JSON 转换成字典，

JSON 数组转换成列表，

JSON 字符串转换成 Python 字符串。

常用函数：loads,get

6.存储数据

1)下载

from urllib.request import urlretrieve

urlretrieve(resourceLocation,fileName)

2）CSV（Comma-Separated Values）

import csv

csvFile=open("test.csv","w+")

try:

writer=csv.writer(csvFile)

writer.writerow(('青山隐隐水迢迢秋尽江南草未凋','24桥明月夜'))

for i in range(1,5):

writer.writerow((i,i+2,i*2))

finally:

csvFile.close()

3）MySQL

import pymysql

#获取连接获取光标

conn=pymysql.connect(host='localhost',user='root',passwd=None)

cur=conn.cursor()

#执行SQL语句

cur.execute('use ssm01')

cur.execute('select * from user')

print(cur.fetchone())#获取一条数据

#关闭资源

cur.close()

coon.close()

4）Email

//TODO

7.读取文档

1)读取txt

from urllib.request import urlopen

txt=urlopen('http://www.pythonscraping.com/pages/warandpeace/chapter1.txt')

print(txt.read())

2)读取csv

#从网上直接把文件读成一个字符串，然后转换成一个 StringIO 对象，使它具有文件的属性。

from urllib.request import urlopen

from io import StringIO

import csv

data = urlopen('http://pythonscraping.com/files/MontyPythonAlbums.csv').read().decode('utf-8')

dataFile=StringIO(data)

csvFile=csv.reader(dataFile)

for row in csvFile:

print(row)

3）读取PDF

#PDFMiner3K

#把任意 PDF 读成字符串，然后用 StringIO 转换成文件对象

from urllib.request import urlopen

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from io import StringIO

def readPDF(pdfFile):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

laparams = LAParams()

device = TextConverter(rsrcmgr, retstr, laparams=laparams)

process_pdf(rsrcmgr, device, pdfFile)

device.close()

content = retstr.getvalue()

retstr.close()

return content

pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")

outputString = readPDF(pdfFile)

print(outputString)

pdfFile.close()

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

例

3-1.网络数据采集

#从 http://oreilly.com 开始，然后随机地从一个外链跳到另一个外链。

from urllib.request import urlopen

from bs4 import BeautifulSoup

import re

import datetime

import random

pages = set()

random.seed(datetime.datetime.now())

# 获取页面所有内链的列表

def getInternalLinks(bsObj, includeUrl):

internalLinks = []

# 找出所有以"/"开头的链接

for link in bsObj.findAll("a", href=re.compile("^(/|.*"+includeUrl+")")):

if link.attrs['href'] is not None:

if link.attrs['href'] not in internalLinks:

internalLinks.append(link.attrs['href'])

return internalLinks

# 获取页面所有外链的列表

def getExternalLinks(bsObj, excludeUrl):

externalLinks = []

# 找出所有以"http"或"www"开头且不包含当前URL的链接

for link in bsObj.findAll("a",href=re.compile("^(http|www)((?!"+excludeUrl+").)*$")):

if link.attrs['href'] is not None:

if link.attrs['href'] not in externalLinks:

externalLinks.append(link.attrs['href'])

return externalLinks

def splitAddress(address):

addressParts = address.replace("http://", "").split("/")

return addressParts

def getRandomExternalLink(startingPage):

html = urlopen(startingPage)

bsObj = BeautifulSoup(html,'lxml')

externalLinks = getExternalLinks(bsObj, splitAddress(startingPage)[0])

if len(externalLinks) == 0:

internalLinks = getInternalLinks(startingPage)

return getNextExternalLink(internalLinks[random.randint(0,len(internalLinks)-1)])

else:

return externalLinks[random.randint(0, len(externalLinks)-1)]

def followExternalOnly(startingSite):

externalLink = getRandomExternalLink("http://oreilly.com")

print("随机外链是："+externalLink)

followExternalOnly(externalLink)

followExternalOnly("http://oreilly.com")

5-1.JSON

import json

jsonString='{\

"arrayOfNums":[{"number":0},{"number":1},{"number":2}],\

"arrayOfFruits":[{"fruit":"apple"},{"fruit":"banana"},{"fruit":"pear"}]\

jsonObj=json.loads(jsonString)

print(jsonObj.get("arrayOfFruits")[2].get("fruit"))

6-1.把 http://pythonscraping.com 的所有图片下载下来

from urllib.request import urlretrieve

from urllib.request import urlopen

from bs4 import BeautifulSoup

def pageSrc(url):

html=urlopen(url)

bsObj=BeautifulSoup(html,'lxml')

srcList=bsObj.findAll("img",src=True)

urlList=[]

for i in srcList:

urlList.append(i['src'])

return urlList

def getInternalLinks(bsObj,includeUrl):

internalLinks = []

# 找出所有以"/"开头的链接

for link in bsObj.findAll("a", href=re.compile("^(/|.*"+includeUrl+")")):

if link.attrs['href'] is not None:

if link.attrs['href'] not in internalLinks:

internalLinks.append(link.attrs['href'])

return internalLinks

def allimgs(url):

#找到该页面所有的img src

srcset=set()

for i in pageSrc(url):

if i not in srcset:

print(i)

srcset.add(i)

name=i.split('/').pop()

urlretrieve(i,name)

#找到该页面的所有内链

html=urlopen(url)

bsObj=BeautifulSoup(html,'lxml')

for i in getInternalLinks(bsObj,url):

newUrl=url+i

for j in pageSrc(newUrl):

if j not in srcset:

srcset.add(i)

print(j)

name=j.split('/').pop()

urlretrieve(j,name)

url="http://pythonscraping.com"

allimgs(url)

6-2.存储到CSV

#获取 HTML 表格并写入 CSV 文件

import csv

from urllib.request import urlopen

from bs4 import BeautifulSoup

html = urlopen("http://en.wikipedia.org/wiki/Comparison_of_text_editors")

bsObj = BeautifulSoup(html,'lxml')

# 主对比表格是当前页面上的第一个表格

table = bsObj.findAll("table",{"class":"wikitable"})[0]

rows = table.findAll("tr")

csvFile = open("editors.csv", 'wt', newline='',encoding='utf-8')

writer = csv.writer(csvFile)

try:

for row in rows:

csvRow = []

for cell in row.findAll(['td', 'th']):

csvRow.append(cell.get_text()[:-1])

print(csvRow)

writer.writerow(csvRow)

finally:

csvFile.close()

6-3.存储到mysql

#存储维基百科数据

from urllib.request import urlopen

from bs4 import BeautifulSoup

import re

import datetime

import random

import pymysql

conn = pymysql.connect(host='127.0.0.1',user='root', passwd=None, charset='utf8')

cur = conn.cursor()

cur.execute("USE ssm01")

cur.execute("CREATE TABLE pages(title varchar(200),content varchar(3000))")

random.seed(datetime.datetime.now())

#存储到数据库

def store(title, content):

cur.execute("INSERT INTO pages (title, content) VALUES (\"%s\",\"%s\")", (title, content))

cur.connection.commit()

#找到数据存储到数据库

def getLinks(articleUrl):

html = urlopen("http://en.wikipedia.org"+articleUrl)

bsObj = BeautifulSoup(html,'lxml')

title = bsObj.find("h1").get_text()

content = bsObj.find("div", {"id":"mw-content-text"}).find("p").get_text()

store(title, content)

return bsObj.find("div", {"id":"bodyContent"}).findAll("a",href=re.compile("^(/wiki/)((?!:).)*$"))

links = getLinks("/wiki/Kevin_Bacon")

try:

while len(links) > 0:

newArticle = links[random.randint(0, len(links)-1)].attrs["href"]

print(newArticle)

links = getLinks(newArticle)

finally:

cur.close()

conn.close()

《python网络数据采集》笔记1的更多相关文章

Java内存区域与内存溢出异常——深入理解Java虚拟机笔记一
Java内存区域对比与C和C++,Java程序员不需要时时刻刻在意对象的创建和删除过程造成的内存溢出.内存泄露等问题,Java虚拟机很好地帮助我们解决了内存管理的问题,但深入理解Java内存区域,有 ...
深入理解java虚拟机笔记Chapter12
(本节笔记的线程收录在线程/并发相关的笔记中,未在此处提及) Java内存模型 Java 内存模型主要由以下三部分构成:1 个主内存.n 个线程.n 个工作内存(与线程一一对应) 主内存与工作内存 J ...
深入理解Java虚拟机笔记
1. Java虚拟机所管理的内存 2. 对象创建过程 3. GC收集 4. HotSpot算法的实现 5. 垃圾收集器 6. 对象分配内存与回收细节 7. 类文件结构 8. 虚拟机类加载机制 9.类加 ...
深入理解java虚拟机笔记Chapter7
虚拟机类的加载机制概述虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验.转换解析和初始化,最终形成可以被虚拟机直接使用的Java类型,这就是虚拟机的类的加载机制. 类加载的时机 J ...
深入理解java虚拟机笔记之一
Java的技术体系主要有支撑java程序运行的虚拟机,提供各开发领域接口支持Java API,java编程语言及许多第三方java框架( 如Spring,Structs等)构成. 可以把Java程序设 ...
深入理解Java虚拟机笔记——虚拟机类加载机制
目录概述动态加载和动态连接类加载的时机类的生命周期被动引用例子一(调用子类继承父类的字段) 例子二(数组) 例子三(静态常量) 类加载的过程加载验证准备解析符号引用直接引用初 ...
【转载】深入理解Java虚拟机笔记---运行时栈帧结构
栈帧(Stack Frame)是用于支持虚拟机进行方法调用和方法执行的数据结构,它是虚拟机运行时数据区的虚拟机栈(Virtual Machine Stack)的栈元素.栈帧存储了方法的局部变量表,操作 ...
深入理解java虚拟机笔记Chapter8
运行时栈帧结构栈帧(Stack Frame)是用于支持虚拟机进行方法调用和方法执行的数据结构,它是虚拟机运行时数据区中的虚拟机栈(Virtual Machine Stack)的栈元素.栈帧存储了方法 ...
深入理解java虚拟机笔记Chapter2
java虚拟机运行时数据区首先获取一个直观的认识: 程序计数器线程私有.各条线程之间计数器互不影响,独立存储. 当前线程所执行的字节码行号指示器.字节码解释器工作时通过改变这个计数器值选取下一条需 ...
类文件结构——深入理解Java虚拟机笔记三
在之前的笔记中记录过,Java程序变成可执行文件的步骤是:源代码-->经过编译变成class文件-->经过JVM虚拟机变成可执行的二进制文件.因此,为了对JVM执行程序的过程有一个好的了解 ...

随机推荐

UVA11292杀怪
题意: 一个怪物有N个头,每个头都有半径,然后有M个骑士,每个骑士能砍掉半径小于等于 X[i]的头,花费为X[i],并且一个骑士只能用一次,问砍掉怪物所有头的最小花费. 思路: ...
Windows 2003 Server远程代码执行漏洞集合
目录 MS08-067 CVE-2017-7269 MS08-067 发布日期:2008/10/22 针对端口:139.445 漏洞等级:高危漏洞影响:服务器服务中的漏洞可能允许远程执行代码受影响 ...
Linux系统登录相关
whoami:查看当前用户 who:查看当前登录系统的所有用户 tty指的是主机的图形化界面的面板 pts/x指的是远程ssh连接的窗口 who -b:主机的上一次启动时间 w:显示已经登陆系统的用户 ...
Git解决中文乱码问题
git status 乱码解决方法: git config --global core.quotepath false git commit 乱码解决方法: git config --global ...
在局域网内知道计算机的名字查找计算机的IP
第一步 nbtstat -a 计算机名字第二步 nbtstat -c 可以看到计算机地址
使用FileStream读写数据
这节讲一下使用FileStream读写数据,这是一个比较基础的流. FileStream类只能处理原始字节,所以它可以处理任何类型的文件. 先看一下它的构造方法: FileStream fs = ne ...
【Web前端HTML5&CSS3】03-字符实体与语义标签
笔记来源:尚硅谷Web前端HTML5&CSS3初学者零基础入门全套完整版目录字符实体与语义标签 1. 字符实体 2. meta标签 3. 语义标签 4. 块元素与行内元素块元素(bloc ...
CRM系统全方位管理企业
您在选择一款CRM系统的时候,首先要考虑销售团队的感受和意见.让CRM系统在帮助销售团队优化工作流程的同时,更好地对销售团队进行管理.销售人员每卖出一件商品,要从寻找筛选商机开始,经过沟通客户需求.满 ...
CRM帮助B2B企业持续改善战略决策「下篇」
尽管数据早已深入人心,但依然有相当比率的B2B企业在管理和战略决策时依赖直觉而不是客户数据.不停变化的B2B市场表明了以客户为中心的趋向和格局,CRM客户管理系统能够协助您更好的使用客户数据并最大限度 ...
Kibana常用语法
GET brand201811_v2/_search 方法一:查询数据源,及相关url的文章 { "query": { "bool": { "must ...

《python网络数据采集》笔记1

《python网络数据采集》笔记1的更多相关文章

随机推荐

热门专题