Pythonweb采集

一.访问页面

import webbrowser

webbrowser.open('http://www.baidu.com/')

  

pip3 install requests

import requests

res = requests.get('http://www.gutenberg.org/cache/epub/1112/pg1112.txt')

res.status_code == requests.codes.ok #返回真假

len(res.text) #变量保存

print(res.text[:250])

res.raise_for_status() #下载出错抛出异常，成功则不返回

playFile = open('a.txt', 'wb') #写入二进制文件，保存Unicode编码

for chunk in res.iter_content(100000): #指定字节数

    playFile.write(chunk)

playFile.close()

pip3 install sqlalchemy

import sqlalchemy as sa

conn = sa.create_engine('sqlite://')

meta = sa.MetaData()

zoo = sa.Table('zoo', meta,

    sa.Column('critter', sa.String, primary_key=True),

    sa.Column('count', sa.Integer),

    sa.Column('damages', sa.Float)

    )

meta.create_all(conn)

conn.execute(zoo.insert(('bear', 2, 1000.0)))

conn.execute(zoo.insert(('weasel', 1, 2000.0)))

result = conn.execute(zoo.select()) #类似select *

rows = result.fetchall()

print(rows)

#web

import urllib.request as ur

url = 'http://www.iheartquotes.com/api/v1/random'

conn = ur.urlopen(url)

print(conn)

data = conn.read() #获取网页数据

print(data)

conn.status #状态码

print(conn.getheader('Content-Type')) #数据格式

for key, value in conn.getheaders(): #查看所有http头

    print(key, value)

pip3 install requests

import requests

url = 'http://www.iheartquotes.com/api/v1/random'

resp = requests.get(url)

resp

<Response [200]>

print(resp.text)

二.页面过滤

pip3 install beautifulsoup4

import requests,bs4

res = requests.get('http://nostarch.com')

res.raise_for_status()

noStarchSoup = bs4.BeautifulSoup(res.text)

exampleFile = open('example.html')

exampleSoup = bs4.BeautifulSoup(exampleFile)

soup.select('p #author')

soup.select('p')[0] #只取第一个放里面

xx.get('id') #返回id的值

三.CSS选择器例子

四.实际例子

example.html

<!-- This is the example.html example file. -->

<html><head><title>The Website Title</title></head>

<body>

<p>Download my <strong>Python</strong> book from <a href="http://

inventwithpython.com">my website</a>.</p>

<p class="slogan">Learn Python the easy way!</p>

<p>By <span id="author">Al Sweigart</span></p>

</body></html>

#过滤文件的id

import bs4

exampleFile = open('example.html') #打开到对象

exampleSoup = bs4.BeautifulSoup(exampleFile,features="html.parser")

elems = exampleSoup.select('#author') #找寻id元素，返回列表 tag对象到变量

print(type(elems))

print(type(elems[0]))

print(len(elems)) #看有几个匹配结果

print(elems[0].getText()) #返回第一个结果

print(str(elems[0])) #返回字符串，包含标签和文本

print(elems[0].attrs) #返回字典ID和值

#循环输出

import bs4

exampleFile = open('example.html') #打开到对象

exampleSoup = bs4.BeautifulSoup(exampleFile,features="html.parser")

elems = exampleSoup.select('p')

for i in range(len(elems)):

    print(str(elems[i]))

    print(elems[i].getText())

Pythonweb采集的更多相关文章

C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子)
第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel, ...
再谈C#采集，一个绕过高强度安全验证的采集方案？方案很Low，慎入
说起采集,其实我是个外行,以前拔过阿里巴巴的客户数据,在我博客的文章:C#+HtmlAgilityPack+XPath带你采集数据(以采集天气数据为例子) 中,介绍过采集用的工具,其实很Low的,分析 ...
iOS从零开始学习直播之2.采集
直播的采集由采集的设备(摄像头.话筒)不同分为视频采集和音频采集,本篇文章会分别介绍. 1.采集步骤 1.创建捕捉会话(AVCaptureSession),iOS调用相机和话筒之前都需要创建捕 ...
让OMCS支持更多的视频采集设备
有些OMCS用户在他的系统使用了特殊的视频采集卡作为视频源(如AV-878采集卡),虽然这些采集卡可以虚拟为一个摄像头,但有些视频采集卡需要依赖于自带了sdk才能正常地完成视频采集工作.在这种情况下, ...
NodeJs+http+fs+request+cheerio 采集,保存数据,并在网页上展示(构建web服务器)
目的: 数据采集写入本地文件备份构建web服务器将文件读取到网页中进行展示目录结构: package.json文件中的内容与上一篇一样:NodeJs+Request+Cheerio 采集数据 ...
NodeJs+Request+Cheerio 采集数据
目的:采集网站文章. 两个依赖项: request :https://github.com/request/request cheerio:https://github.com/cheeriojs/c ...
Hawk 3. 网页采集器
1.基本入门 1. 原理(建议阅读) 网页采集器的功能是获取网页中的数据(废话).通常来说,目标可能是列表(如购物车列表),或是一个页面中的固定字段(如JD某商品的价格和介绍,在页面中只有一个).因此 ...
火车头dede采集接口，图片加水印，远程图片本地化，远程无后缀的无图片本地化
<?php /* [LocoySpider] (C)2005-2010 Lewell Inc. 火车采集器 DedeCMS 5.7 UTF8 文章发布接口 Update content: 图片加 ...
STM32F412应用开发笔记之三：SPI总线通讯与AD采集
本次我们在NUCLEO-F412ZG试验模拟量输入采集.我们的模拟量输入采用ADI公司的AD7705,是一片16位两路差分输入的AD采集芯片.具有SPI接口,我们将采用SPI接口与AD7705通讯.两 ...

随机推荐

菜鸡的Java笔记第四 - java 基础运算符
数学运算符,逻辑运算,三目运算,位运算 double d2 = 314e2; //采用科学计数法的写法,表示10的2次方.= 31400.0 代码写的越简单越好简化运算符代码:x＝x+y 可以 ...
[bzoj1082]栅栏
先二分答案,然后搜索暴力判断由于数据范围较大,需要剪枝:1.当前所有可能被用到的木板长度和(长度要不小于最小所需长度)>=所要拼成的所有木板的和:2.对于需求从大到小枚举木板(这样一开始枚举次数 ...
[bzoj1037]生日聚会
dp,用f[i][j][x][y]表示i个男孩,j个女孩,以i+j为结尾的子序列男-女最多为x,女-男最多为y的合法方案数,转移到f[i+1][j][x+1][max(y-1,0)]和f[i][j+1 ...
led汇编点灯
1. 汇编LED原理为什么使用Cortex-A汇编使用汇编初始化soc外设使用汇编初始化DDR,I.MX不需要,因为它内部的96k ROM中存放了自己编写的启动代码,这些代码可以读取DDR配置信 ...
交叉编译环境的linaro-gdb可以用了，结果打开core文件，显示堆栈都是？？
交叉编译环境的linaro-gdb可以用了,结果打开core文件,显示堆栈都是?? aarch64-linux-gun-gdb ./test core warning: /lib/libpthread ...
安装maven配置maven环境变量
在官网下载maven的包我们下载的是:apache-maven-3.5.2-bin.zip 3.解压缩maven的包到某个目录中 4.配置maven的环境变量配置M2_HOME环境变量为maven ...
x86汇编反编译到c语言之——(1)表达式求值及赋值语句
一. 反编译一种可能的实现方式我们的目的是将多种平台的汇编如x86,ARM,6502反编译为c语言,所以实现时先将多种汇编转化为特定虚拟机汇编语言,然后只需要将虚拟机汇编语言反编译为c语言.其中多 ...
LOJ 2353 & 洛谷 P4027 [NOI2007]货币兑换（CDQ 分治维护斜率优化）
题目传送门纪念一下第一道(?)自己 yy 出来的 NOI 题. 考虑 dp,\(dp[i]\) 表示到第 \(i\) 天最多有多少钱. 那么有 \(dp[i]=\max\{\max\limits_{ ...
Codeforces 1461F - Mathematical Expression（分类讨论+找性质+dp）
现场 1 小时 44 分钟过掉此题,祭之大力分类讨论. 如果 \(|s|=1\),那么显然所有位置都只能填上这个字符,因为你只能这么填. scanf("%d",&n);m ...
Linux openssl 升级、降级
Linux openssl 升级.降级最近遇到一些朋友使用微信退款,报openssl版本为问题,需要对openssl进行降级. 现在环境的openssl版本如下: root@c215a2b695ef ...

Pythonweb采集

一.访问页面

二.页面过滤

三.CSS选择器例子

四.实际例子

Pythonweb采集的更多相关文章

随机推荐

热门专题