crawler碎碎念4 关于python requests、Beautiful Soup库、SQLlite的基本操作

Requests

import requests

from PIL import Image

from io improt BytesTO

import jason

url = "..........."

print(dir(requests)) #查看基本的用法

r = requests.get(url)

print(r.text)

print(r.status_code)

print(r.encoding)

传递参数

params = {'k1':'v1','k2':'v2','k3':[1,2,3],'k4':None}　　#key的值是list的话就会一一赋值

r = requests.get('http://httpbin.org/get',params)

print(r.url)

二进制数据

r= requests.get('.........')

image = Image.open(BytesTO(r.content))

image.save('图片.jpg')

json处理

r = requests.get('https://github.com/timeline.jason')

print(type(r.json))

print(r.json)

print(r.text)

原始数据处理

r= requests.get('.........')

with open('图片.jpg','wb+') as f :

　　for chunk in r.iter_content(1024):

　　　　f.write(chunk)

提交表单

form = {‘username’：‘xxx’,'ddddefsc':'dscdsc'}

r = requests.post('http://httpbin.org/post',data = form)

r = requests.post('http://httpbin.org/post',data = jason.dumps(forms))

print(r.text)

cookies

url ='xxxxxxxxxxxx'

r = requests.get(url)

cookies = r.cookies

for k,v in cookies.get_dict().items():　　　　　　标准的获取cookies

　　print(k,,v)

cookies = {'c1':'v1'}

r = requests.get('http://httpbin.org/cookies',cookies= cookies)

print(r.text)

重定向和重定向历史网站跳转的时候跟踪用

r= requests.head('http://www.baidu.com',allow_redirects = True)

print(r.url)

print(r.status_code)

print(r.history)

代理

proxies = {'http':'...','https:'.....'}          #可以用来科学上网嘻嘻

r = requests.get('http://httpbin.org/cookies',proxies= proxies)

Beautiful Soup

from bs4 import BeautifulSoup

#Tag

soup = Beautifulsoup(open('test.html'))

print(soup.prettify())

print(soup.title.name)

print(soup.title)

#String

print(type(soup.title.string))

print(soup.title.string)

#Comment注释

print(type(soup.a.string))

print(soup.a.name)

for items in soup.body.contents:

    print(item.name)

    #只找子元素的

css查询

print(soup.select('.sister'))    #返回到是数组

print(soup.select('a'))

print(soup.select('#link''))     #从id开始找

print(soup.select('head >title''))

Htmlparser

from HTMLParser import HTMLParser

clase MyParser(HTMLParser):
　　def handle_decl(self,decl):
　　　　HTMLParser.handle_decl(self，decl)
　　　　print('decl %s'% decl)

　　def handle_starttag(self,tag,attrs):
　　　　HTMLParser.handle_starttag(self，tag,attrs)
　　　　print('<'+tag+'>')

　　def handle_endtag(self,decl):
　　　　HTMLParser.handle_endtag(self，decl)
　　　　print('<'+tag+'>')

  　def handle_data(self,data):
　　　　HTMLParser.handle_data(self，data)
　　　　print('data %s',data)

　　def handle_startendtag(self,tag,attrs):
　　　　HTMLParser.handle_startendtag(self，tag,attrs)
　　　　print('<'+tag+ '>')

　　def handle_comment(self,data):
　　　　HTMLParser.handle_comment(self，data)
　　　　print('data %s',data)

　　def close(self):
　　　　HTMLParser.close(self)
　　　　print('Close')
demo = MyParser()
demo.feed(open('hello.html')).read()
demo.close

html格式的尽量不要用xml的方式去处理，因为html可能格式不完整

sqlite3

import sqlite3

conn =sqlite3.connect('test.db')

create_sql = 'create table company(id int primary key not null,emp_name text not null );'

conn.execute(create_sql)

insert_sql = 'insert into company values(?,?)'

conn.execute(insert_sql,(100,'LY'))

conn.execute(insert_sql,(200,'July'))

cursors = conn.execute('select id,emp_name from company')

for row in cursors:

    print(row[0],row[1])

conn.close()

mySQL

需要指定mysql:host(ip/port),username,password,

然后在插入数据后要记得使用conn.commit

crawler碎碎念4 关于python requests、Beautiful Soup库、SQLlite的基本操作的更多相关文章

python之Beautiful Soup库
1.简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索 ...
Python Beautiful Soup库
Beautiful Soup库 Beautiful Soup库:https://www.crummy.com/software/BeautifulSoup/ 安装Beautiful Soup: 使用B ...
Python之Beautiful Soup 4使用实例
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航.查找.修改文档的方式.Beautiful Soup 4 官方文档: ...
Python之Beautiful Soup的用法
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...
python beautiful soup库的超详细用法
原文地址https://blog.csdn.net/love666666shen/article/details/77512353 参考文章https://cuiqingcai.com/1319.ht ...
Python的Beautiful Soup简单使用
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能它是一个工具箱, ...
【python】Beautiful Soup的使用
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: Beautiful Soup提供一些简单的.pyt ...
【Python爬虫学习笔记（3）】Beautiful Soup库相关知识点总结
1. Beautiful Soup简介 Beautiful Soup是将数据从HTML和XML文件中解析出来的一个python库,它能够提供一种符合习惯的方法去遍历搜索和修改解析树,这将大大减 ...
python Beautiful Soup库入门
bs4库的HTML内容遍历方法基于bs4库的HTML格式输出显示:友好的显示 <tag>.prettify() 编码:bs4库将任何HTML输入都变成utf-8编码(python 3. ...

随机推荐

解决:javac: 无效的目标发行版: 1.8
原解决:javac: 无效的目标发行版: 1.8 2017年06月14日 16:21:12 代码也文艺阅读数 44795 版权声明:本文为博主原创文章,未经博主允许不得转载. https://bl ...
H3C 链路聚合配置举例
51nod 范德蒙矩阵
思路: 根据矩阵乘法的定义,G中的第i行第j列的元素 ai,j ,对答案的贡献为 ai,j∗ T中第j行的所有元素之和. 因此我们可以将T中根据每行的和进行排序.第i行的和可以通过公式 (ai^n−1 ...
JS事件委托（代理）学习笔记
在开始之前我们先来熟悉一下HTML DOM addEventListener()方法,该方法用于向指定元素添加事件句柄.语法说明如下图所示: 主要想强调一下第三个参数useCapture,默认值为fa ...
移动端H5多页开发拍门砖经验
两年前刚接触移动端开发,刚开始比较疑惑,每次遇到问题都是到社区里提问或者吸取前辈的经验分享,感谢热衷于分享的开发者为前端社区带来欣欣向上的生命力.本文结合先前写的文章和开发经验分享给大家,希望也能帮助 ...
如何设置Linux时间
\(\color{Black}{文/魂皓轩}\) linux系统时钟有两个,一个是硬件时钟,即BIOS时间,就是我们进行CMOS设置时看到的时间,另一个是系统时钟,是linux系统Kernel时间.当 ...
从零开始のcocos2dx生活（七）ParticleSystem
CCParticleSystem是用来设置粒子效果的类 1.粒子分为两种模式:重力模式和半径模式重力模式独占属性: gravity 重力方向,Vec2类型,可以分别指定不同方向的重力大小 spe ...
promethues安装
prometheus 1. 下载安装下载安装:https://github.com/prometheus/prometheus/releases/tag/v2.9.2 wget https://gi ...
leetcode.199二叉树的右视图
给定一棵二叉树,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值. 示例: 输入: [1,2,3,null,5,null,4]输出: [1, 3, 4]解释: 1 <-- ...

crawler碎碎念4 关于python requests、Beautiful Soup库、SQLlite的基本操作

crawler碎碎念4 关于python requests、Beautiful Soup库、SQLlite的基本操作的更多相关文章

随机推荐

热门专题