scrapy爬虫笔记(二)------交互式爬取

开始网页爬取：(1)交互式爬取

　　首先，我们使用scrapy建立起爬虫的框架。在命令行中输入 scrapy shell “url”

　　如：scrapy shell “http://www.baidu.com”

　　（注意：此处一定要写清楚传输协议，否则将无法链接到对应网站，此例中为http://）

　　scrapy 会自动创建response对象，并自动将爬取下网页的源代码存入response.body中。

　　输入response.body 可看到其中的内容非常庞杂。

　　为了进一步析取网页，更精确地获取到所需要的信息，我们引入BeautifulSoup库

　　　　from bs4 import BeautifulSoup

　　　　soup = BeautifulSoup(response.body)

　　此时将response.body的内容通过BeautifulSoup的进一步解析，存入对象soup中，此时，soup已可以使用BeautifulSoup库中的方法。

　　如: print soup.find('a')打印出第一个<a>标签

　　　　print soup.findAll('p') 打印出所有的<p>标签

　　这里只是简单举例，想要了解更多的BeautifulSoup方法请查看官方文档。

　　附：官方文档

　　　　BeautifulSoup　　http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

　　是不是很好玩呢～？

scrapy爬虫笔记(二)------交互式爬取的更多相关文章

【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
Python爬虫实战二之爬取百度贴吧帖子
大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不 ...
转 Python爬虫实战二之爬取百度贴吧帖子
静觅 » Python爬虫实战二之爬取百度贴吧帖子大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 ...
Scrapy爬虫（5）爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...
Scrapy爬虫（4）爬取豆瓣电影Top250图片
在用Python的urllib和BeautifulSoup写过了很多爬虫之后,本人决定尝试著名的Python爬虫框架--Scrapy. 本次分享将详细讲述如何利用Scrapy来下载豆瓣电影To ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...
python 网路爬虫（二）爬取淘宝里的手机报价并以价格排序
今天要写的是之前写过的一个程序,然后把它整理下,巩固下知识点,并对之前的代码进行一些改进. 今天要爬取的是淘宝里的关于手机的报价的信息,并按照自己想要价格来筛选. 要是有什么问题希望大佬能指出我的错误 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
Scrapy爬虫笔记 - 爬取知乎
cookie是一种本地存储机制,cookie是存储在本地的 session其实就是将用户信息用户名.密码等)加密成一串字符串,返回给浏览器,以后浏览器每次请求都带着这个sessionId 状态码一般是 ...

随机推荐

【06-18】CentOS使用笔记
使用中文输入法搜狗输入法只支持Ubuntu sudo yum install "@Chinese Support" [系统]--->[首选项]--->[输入法]--& ...
关于ajax的提交未完再续！
$.ajax({ cache: true, type: "POST", url:"__URL__/add", data:$('#myform').seriali ...
javascript数据结构与算法---列表
javascript数据结构与算法---列表前言:在日常生活中,人们经常要使用列表,比如我们有时候要去购物时,为了购物时东西要买全,我们可以在去之前,列下要买的东西,这就要用的列表了,或者我们小时候 ...
tyvj1198 最优矩阵连乘
描述一个n*m矩阵由n行m列共n*m个数排列而成.两个矩阵A和B可以相乘当且仅当A的列数等于B的行数.一个N*M的矩阵乘以一个M*P的矩阵等于一个N*P的矩阵,运算量为nmp. 矩阵乘法满 ...
Discuzx系统 CSS 编码规范，CSS属性书写顺序
1. 属性写在一行内,属性之间.属性名和值之间以及属性与“{}”之间须有空格,例如:.class { width: 400px; height: 300px; } 2. 属性的书写顺序: ...
64位操作系统通过ODP.NET 访问ORACLE 11g
摘要:64位操作系统部署.NET 程序访问oracle时,无法连接问题.(注意:客户端是64位系统 ,服务端是否64位还是32位无关.) 1.到oracle 官网搜索相关版本的 ODAC网址: ht ...
java23
1:多线程(理解) (1)多线程:一个应用程序有多条执行路径进程:正在执行的应用程序线程:进程的执行单元,执行路径单线程:一个应用程序只有一条执行 ...
JavaScript高级程序设计学习笔记--DOM
DOM(文档对象模型)是针对HTML和XML文档的一个API(应用程序接口). Document类型文档的子节点虽然DOM标准规定Document节点的子节点可以是DocumentType,Ele ...
Ruby多行字符串，begin/end语句、注释
#!/usr/bin/ruby #puts "Hello ,Ruby!"; print <<EOF #多行字符串以<<开头紧接着为结束字符串标识声明并 ...
iOS 应用数据存储方式（XML属性列表-plist）
iOS 应用数据存储方式(XML属性列表-plist) 一.ios应用常用的数据存储方式 1.plist(XML属性列表归档) 2.偏好设置 3.NSKeydeArchiver归档(存储自定义对象) ...

scrapy爬虫笔记(二)------交互式爬取

scrapy爬虫笔记(二)------交互式爬取的更多相关文章

随机推荐

热门专题