Python 爬虫—— requests BeautifulSoup

本文记录下用来爬虫主要使用的两个库。第一个是requests，用这个库能很方便的下载网页，不用标准库里面各种urllib；第二个BeautifulSoup用来解析网页，不然自己用正则的话很烦。

requests使用，1直接使用库内提供的get、post等函数，在比简单的情况下使用，2利用session，session能保存cookiees信息，方便的自定义request header，可以进行登陆操作。

BeautifulSoup使用，先将requests得到的html生成BeautifulSoup对象，然后进行解析，可以用select进行css选择器操作，然后用get、getText等获取信息。

下面是一个登录博客园发布闪存的例子

#! python

# coding=UTF-8

from requests import session #__version__ = 2.3.0 这里直接使用session，因为要先登陆

from bs4 import BeautifulSoup #__version__ = 4.3.2

s = session() #创建一个session对象

r = s.get('http://passport.cnblogs.com/login.aspx') #该页面进行登录，先获取一些信息

bs = BeautifulSoup(r.text) #解析获取的网页

__VIEWSTATE = bs.select('#__VIEWSTATE')[0].get('value') #

__EVENTVALIDATION = bs.select('#__EVENTVALIDATION')[0].get('value') #

# post登陆时的信息，把用户名和密码改成自己的

data = {'tbUserName':'*', 'tbPassword':'*',\

'chkRemember':'on', 'txtReturnUrl':'http://i.cnblogs.com',\

'__VIEWSTATE':__VIEWSTATE, '__EVENTVALIDATION':__EVENTVALIDATION,\

'btnLogin':u'登录',

}

s.post('http://passport.cnblogs.com/login.aspx', data) #登录

messages = ['hello world', 'hello cnblogs']

for message in messages:

    data = {'content':message, 'publicFlag': ''}

    r = s.post('http://home.cnblogs.com/ajax/ing/Publish', data) # 发送闪存

    print r.json() #返回一个json对象，可以看是否成功

Python 爬虫—— requests BeautifulSoup的更多相关文章

python 爬虫 requests+BeautifulSoup 爬取巨潮资讯公司概况代码实例
第一次写一个算是比较完整的爬虫,自我感觉极差啊,代码low,效率差,也没有保存到本地文件或者数据库,强行使用了一波多线程导致数据顺序发生了变化... 贴在这里,引以为戒吧. # -*- coding: ...
Python爬虫—requests库get和post方法使用
目录 Python爬虫-requests库get和post方法使用 1. 安装requests库 2.requests.get()方法使用 3.requests.post()方法使用-构造formda ...
使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解（新手必学）
为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记: 一.爬 ...
Python爬虫——用BeautifulSoup、python-docx爬取廖雪峰大大的教程为word文档
版权声明:本文为博主原创文章,欢迎转载,并请注明出处.联系方式:460356155@qq.com 廖雪峰大大贡献的教程写的不错,写了个爬虫把教程保存为word文件,供大家方便下载学习:http://p ...
Python爬虫系列-BeautifulSoup详解
安装 pip3 install beautifulsoup4 解析库解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup,'html,parser') Pyth ...
Python爬虫之Beautifulsoup模块的使用
一 Beautifulsoup模块介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Be ...
python 爬虫proxy,BeautifulSoup+requests+mysql 爬取样例
实现思路: 由于反扒机制,所以需要做代理切换,去爬取,内容通过BeautifulSoup去解析,最后入mysql库 1.在西刺免费代理网获取代理ip,并自我检测是否可用 2.根据获取的可用代理ip去发 ...

随机推荐

oracle 解锁表
//查询锁表id select session_id from v$locked_object; //查询该ID的serial# SELECT sid, serial#, username, osus ...
HDU 2176
http://acm.hdu.edu.cn/showproblem.php?pid=2176 nim博弈的模型.要输出先手第一次取的情况,考虑角度是留给对手必败态 #include <iostr ...
iOS-----类和对象,nil/Nil/NULL的区别
iOS中类和对象,nil/Nil/NULL的区别类与对象的概念类是对同一类事物高度的抽象,类中定义了这一类对象所应具有的静态属性(属性)和动态属性(方法). 对象是类的一个实例,是一个具体的事物. ...
修改mysql用户名密码和 PHPmysqlAdmin对应密码修改
本地的mysql运行时,可能会用到修改用户名密码: mysql> SET PASSWORD FOR 'root'@'localhost' = PASSWORD('输入新密码');不存在修改用户啊 ...
PAT (Basic Level) Practise：1031. 查验身份证
[题目链接] 一个合法的身份证号码由17位地区.日期编号和顺序编号加1位校验码组成.校验码的计算规则如下: 首先对前17位数字加权求和,权重分配为:{7,9,10,5,8,4,2,1,6,3,7,9, ...
基于redis的排行榜设计和实现
前言: 最近想实现一个网页闯关游戏的排行榜设计, 相对而言需求比较简单. 秉承前厂长的训导: “做一件事之前, 先看看别人是怎么做的”. 于是乎网上搜索并参考了不少排行榜的实现机制, 很多人都推荐了r ...
ucos3的配置文件
1,配置文件,用于系统的裁剪均有详细的注释为组件的开关 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 ...
Linux下获得系统时间的C语言实现
Linux下获得系统时间的C语言的实现方法 #include<time.h> //C语言的头文件#include<stdio.h> //C语言的I/O int main() ...
uva 11582
#include <iostream> #include <map> #include <cmath> #include <vector> #inclu ...
SQL Server中常用的SQL语句（转）：
SQL Server中常用的SQL语句转自:http://www.cnblogs.com/rainman/archive/2013/05/04/3060428.html 1.概述名词笛卡尔积.主 ...

Python 爬虫—— requests BeautifulSoup

Python 爬虫—— requests BeautifulSoup的更多相关文章

随机推荐

热门专题