python简易爬虫实现

目的：爬取昵称

目标网站：糗事百科

依赖的库文件：request、sys、beautifulSoup4、imp、io

Python使用版本：3.4

说明：参考http://cn.python-requests.org/zh_CN/latest/user/quickstart.html

步骤：

一、熟悉request

Request介绍：

　　Request库是一个python http库，其内部依赖urllib3库。

　　以下是它的功能特性:
　　国际化域名和 URL、Keep-Alive & 连接池、带持久 Cookie 的会话、浏览器式的 SSL 认证、基本/摘要式的身份认证、优雅的 key/value Cookie、自动解压、自动内容解码、Unicode 响应体、文件分块上传、连接超时、流下载、支持 .netrc、分块请求、线程安全。

Request API操作：

　　Request的API对所有HTTP请求类型都是显而易见的，例如对于HTTP的请求类型：

　　GET、POST、PUT、DELETE、HEAD和OPTIONSS

　　对应的request API操作为（例）：

r = requests.get('https://github.com/timeline.json')

　　r = requests.post("http://httpbin.org/post")

　　r = requests.put("http://httpbin.org/put")

　　r = requests.delete("http://httpbin.org/delete")

　　 r = requests.head("http://httpbin.org/get")

　　 r = requests.options("http://httpbin.org/get")

本文主要针对request的获取操作来做说明：

以GitHubHub时间线和服务器响应的内容格式为例：

1、响应内容

import requests

r = requests.get('https://github.com/timeline.json')

r.text

　　Requests可以根据服务器响应的内容自动解码，支持大多数unicode，当然我们也可以以指定的解码格式来解码内容，如r.text前加上r.encoding = 'utf-8'.

2、二进制响应内容和json响应内容

r.content

r.json()

调用该两种方法分别替换上文的r.text，则分别表示字节的方式访问请求的内容，而非文本格式和以json的格式解码内容。

3、原始响应内容

import requests

r = requests.get('https://github.com/timeline.json',stream=True)

r.raw

r.raw.read(10)

#将获取的原始数据写入test.txt文件

with open('test.txt','wb') as fd:

for chunk in r.iter_content(10):

fd.write(chunk)

二、beautifulSoup介绍：

　　这是Python的一个库，在此主要的作用是从爬取到的网页内容中获取数据，Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

三、爬取昵称

　　由于本人初次使用Python，所以就做一个最简单的爬虫吧！代码非常简单，就只是获取糗事百科的首页的昵称：

 # -*- coding: UTF-8 -*-

 from bs4 import BeautifulSoup

 from imp import reload

 import requests

 import sys

 import io

 sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')

 #解决unicode编码与ascll编码不兼容的问题

 #reload(sys)

 #sys.setdefaultencoding("utf-8")

 ############################

 class Crawler(object):

    def __init__(self):

             print("开始爬取数据")

 #getSource获取网页源代码

    def getSource(self,url):

        html = requests.get(url)

        #print(str(html.text))可以在此打印，看是否抓取到内容

        return html.text

 #主函数

 if __name__=='__main__':

    url = 'http://www.qiushibaike.com'

    testCrawler = Crawler()

    content = testCrawler.getSource(url)

    soup = BeautifulSoup(content)

    fd = open("crawler.txt", 'w')

    for i in soup.find_all('h2'):

                 print(i.getText())

                 fd.write(i.getText()+'\n')

    fd.close()

python简易爬虫实现的更多相关文章

python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
爬虫系列1：python简易爬虫分析
决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...
Python简易爬虫
经常需要下载论文,每次都需要去网页上搜索,然后点击下载,实在麻烦,正好最近刚入门Python,心血来潮,想着写一个爬虫经过一天查阅资料,基本算是完成了,但是还是不足,比如对知网和万方暂时还不行,但是 ...
Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
【Python】Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
python简易爬虫，帮助理解re模块
20161203更新: 1.使用了BS4解析html 2.使用了mysql-connector插入了数据库表 pip install mysql-connector import urllib.req ...
day17 python re模块简易爬虫
day17 python 一.re模块 1.re模块的基础方法查找findall() import re #re.findall(pattern,string,flags ...
利用简易爬虫完成一道基础CTF题
利用简易爬虫完成一道基础CTF题声明:本文主要写给新手,侧重于表现使用爬虫爬取页面并提交数据的大致过程,所以没有对一些东西解释的很详细,比如表单,post,get方法,感兴趣的可以私信或评论给我.如 ...
一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接
[一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...

随机推荐

【转】【Android工具】被忽略的UI检视利器：Hierarchy Viewer
原文:http://blog.csdn.net/ddna/article/details/5527072 Hierarchy Viewer是随AndroidSDK发布的工具,位置在tools文件夹下, ...
jquery表格datagrid单元格显示图片及分页使用
要想达到自定义显示表格框的目的比如显示图片,超链接,按钮的形式,只需要给列添加formatter属性即可,比如显示图片: columns: [[ ...
Cygwin 是一个用于 Windows 的类 UNIX shell 环境
cygwin的安装使用 Cygwin 是一个用于 Windows 的类 UNIX shell 环境. 它由两个组件组成:一个 UNIX API 库,它模拟 UNIX 操作系统提供的许多特性:以及 ...
Kraken.js!
Hello Kraken.js! 前言 kraken.js 由paypal 公司开源的一个用于快速开发基于Express.js框架应用的快速开发工具, 因为kraken 并没有在Express.js基 ...
VIJOS1107 求树的最长链
vijos1107环游大同80天学习了一下求树的最长链的方法最简单的思路就是两次dfs 两次dfs分别有什么用呢? 第一次dfs,求出某个任意的点能到达的最远的点第二次dfs,从所搜到的最远的点 ...
formValidator
formValidator输入验证.异步验证实例 + licenseImage验证码插件实例应用实例技术:springmvc 实现功能:完整用户登录流程.输入信息规则校验.验证码异步校验. 功能 ...
[转]How to build a data storage and VM Server using comodity hardware and free software
Source: http://learnandremember.blogspot.jp/2010_01_01_archive.html Requisites: 1) RAID protection f ...
WPF 自定义 MessageBox (相对完善版)
WPF 自定义 MessageBox (相对完善版) 基于WPF的自定义 MessageBox. 众所周知WPF界面美观.大多数WPF元素都可以简单的修改其样式,从而达到程序的风格统一.可是当 ...
为Exchange 2007 SCC 启用 SCR 副本-供需要的人使用！
SCC 已经部署完整,接下来我们必须防范本地站点如果出现了完全的损坏怎么办? Exchange 2007 SP1 提供了另外一种高可用的方式,就是基于我们的SCR 模型,SCR 模型是基于SCC 本地 ...
CDM业务单据，表体单价列赋值所需要注意的问题
需要将销售退回入库单据的单价自动去商品资料里的零售价值. 写了检索方案,然后 select * ............. spkfk.lshj as dj......... ,但是发现定价依 ...

python简易爬虫实现

python简易爬虫实现的更多相关文章

随机推荐

热门专题