学习笔记 requests + BeautifulSoup

第一步：requests

get请求

# -*- coding:utf-8  -*-

# 日期：2018/5/15 17:46

# Author:小鼠标

import requests

url = "http://www.baidu.com"

#res = requests.get(url)　　#方法1

res = requests.request('get',url) #方法2

print('响应状态码：',res.status_code) print('响应内容：',res.text)

post请求

# -*- coding:utf-8  -*-

# 日期：2018/5/15 17:46

# Author:小鼠标

import requests

url = "http://www.baidu.com"

data = {

    'username': 'xiaoshubiao',

    'pwd': 'xiaoshubiao'

}

res = requests.post(url,data)

print('响应状态码：',res.status_code)

print('响应内容：',res.text)

第二步：伪装浏览器和伪造cookie

# -*- coding:utf-8  -*-

# 日期：2018/5/15 17:46

# Author:小鼠标

import requests

url = "http://www.baidu.com"

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36'

                         ' (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.39'

                         '64.2 Safari/537.36',

            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0'

                      '.9,image/webp,*/*;q=0.8',

            'Accept-Encoding': 'gzip, deflate, sdch',

            'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6',

            'Cache-Control': 'max-age=0',

            'Connection': 'keep-alive'

          }

cookies = dict(name='xiaoshubiao')

res = requests.get(url,headers = headers,cookies = cookies)

print('响应状态码：',res.status_code)

print('响应内容：',res.text)

第三步：使用代理ip

# -*- coding:utf-8  -*-

# 日期：2018/5/15 17:46

# Author:小鼠标

import requests

url = "http://www.baidu.com"

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36'

                         ' (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.39'

                         '64.2 Safari/537.36',

            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0'

                      '.9,image/webp,*/*;q=0.8',

            'Accept-Encoding': 'gzip, deflate, sdch',

            'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6',

            'Cache-Control': 'max-age=0',

            'Connection': 'keep-alive'

            }

cookies = dict(name='xiaoshubiao')

proxies = {'http':'218.73.134.234:36602'}

res = requests.get(url,headers = headers,cookies = cookies,proxies = proxies)

print('响应状态码：',res.status_code)

print('响应内容：',res.text)

第四步：内容解析

# -*- coding:utf-8  -*-

# 日期：2018/5/15 17:46

# Author:小鼠标

import requests

from bs4 import BeautifulSoup

url = "http://news.sina.com.cn/guide/"

res = requests.get(url)

res.encoding = 'utf-8'

web_data = res.text

#内容解析

soup = BeautifulSoup(web_data,'lxml')

title_list = soup.select('title') #获取标签内容 返回为列表

a_list = soup.select('a')

ul_list = soup.select('ul.list01') #获取类名为list01的ul的内容 返回为列表

div_list = soup.select('div#tab01') #获取id为tab01的内容 返回为列表

for title , a in zip(title_list,a_list):

    title_content = title.get_text()    #获取标签内容的值

    a_href = a.get('href')  #获取标签的属性的值

    print(title_content,a_href)

学习笔记 requests + BeautifulSoup的更多相关文章

Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
吴裕雄--python学习笔记：BeautifulSoup模块
import re import requests from bs4 import BeautifulSoup req_obj = requests.get('https://www.baidu.co ...
吴裕雄--天生自然python学习笔记：beautifulsoup库的使用
Beautiful Soup 库简介 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简 ...
python学习笔记（26）-request模块
python学习笔记 #requests import requests #from class_005.http_resuest import HttpRequest login_url = &qu ...
Requests:Python HTTP Module学习笔记（一）（转）
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
python网络爬虫学习笔记（二）BeautifulSoup库
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...
孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3
孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3 (完整学习过程屏幕记录视频地址在文末) 今天继续学习beautifulsoup对象的属性与方法等内容. 一.今天进一步了 ...
孤荷凌寒自学python第六十九天学习并实践beautifulsoup对象用法2
孤荷凌寒自学python第六十九天学习并实践beautifulsoup对象用法2 (完整学习过程屏幕记录视频地址在文末) 今天继续学习beautifulsoup对象的属性与方法等内容. 一.今天进一步 ...
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1
孤荷凌寒自学python第六十八天学习并实践beautifulsoup模块1 (完整学习过程屏幕记录视频地址在文末) 感觉用requests获取到网页的html源代码后,更重要的工作其实是分析得到的内 ...

随机推荐

unity5.x中的关节和布料
关节布料关节铰链关节(Hinge Joint):将两个物体以链条的形式绑在一起,当力量过大超过链条的固定力矩时,两个物体就会产生相互的拉力. 固定关节(Fixed Joint): ...
Crontab中的除号（slash）到底怎么用？（转载）
转载于:https://www.cnblogs.com/cocowool/p/5865397.html crontab 是Linux中配置定时任务的工具,在各种配置中,我们经常会看到除号(Slash) ...
GitHub入门与实践读书笔记二：Git的导入
1.诞生背景 Linux的创始人Linus Torvalds 在2005年开发了Git的原型程序,后随着众多开发者的共同努力,现在他已经被大量的程序员采用. 2.什么是版本管理版本管理:管理软件在开 ...
nodejs - 1)上传图片 ,并显示 , 2)模块 formidable
1.代码: 1-1: 入口文件: index.js var server = require('./server'); var router = require("./router" ...
Spring Boot笔记之自定义启动banner
控制banner内容 Spring Boot启动的时候默认的banner是spring的字样,看多了觉得挺单调的,Spring Boot为我们提供了自定义banner的功能. 自定义banner只需要 ...
Cordova编译报AAPT错误的解决方法
因为项目中同时使用cordova-hot-code-push-plugin和phonegap-plugin-barcodescanner,编译时报错:AAPT: error: resource and ...
cut语法
cut是一个选取命令,就是将一段数据经过分析,取出我们想要的.一般来说,选取信息通常是针对“行”来进行分析的,并不是整篇信息分析的. (1)其语法格式为:cut [-bn] [file] 或 cut ...
UA池和代理池
scrapy下载中间件 UA池代理池一.下载中间件先祭出框架图: 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件. - 作用: (1)引擎 ...
Mad LIbs小游戏
c1=input('请输入摄氏温度;') c2=float(c1)*9/5+32 print('摄氏温度转换成华氏温度是{}'.format(c2)) name1=input('请输入名字:') na ...
Opensource Licenses
协议列表https://www.gnu.org/licenses/license-list.htmlhttps://opensource.org/licenses/alphabetical 协议选择参 ...

学习笔记 requests + BeautifulSoup

第一步：requests

get请求

post请求

第二步：伪装浏览器和伪造cookie

第三步：使用代理ip

第四步：内容解析

学习笔记 requests + BeautifulSoup的更多相关文章

随机推荐

热门专题