2:url有规律的多页面爬取

举例网站：http://www.luoo.net/music/期刊号

e.g:http://www.luoo.net/music/760

打算爬取其title：Hello World；pic；desc：本期音乐为......《8-bit Love》。

步骤：

1）：建立项目

　　在shell中你对应的目录下：scrapy startproject luoo

　　在pycharm中打开luoo文件夹

2)：编写items.py

 import scrapy

 class LuooItem(scrapy.Item):

     url = scrapy.Field()

     title = scrapy.Field()

     pic = scrapy.Field()

     desc = scrapy.Field()


3)：编写spider
　　在spiders文件夹下建立luoospider.py

 import scrapy

 from luoo.items import LuooItem

 class LuooSpider(scrapy.Spider):

     name = "luoo"

     allowed_domains = ["luoo.net"]

     start_urls = []

     for i in range(750,763):

         url = 'http://www.luoo.net/music/%s'%(str(i))

         start_urls.append(url)

     def parse(self, response):

         item = LuooItem()

         item['url'] = response.url

         item['title'] = response.xpath('//span[@class="vol-title"]/text()').extract()

         item['pic'] = response.xpath('//img[@class="vol-cover"]/@src').extract()

         item['desc'] = response.xpath('//div[@class="vol-desc"]/text()').extract()

         return item

4)pipelines.py不动
5）在command中进入luoo目录
　　scrapy list   列出可用的爬虫（luoo）
　　scrapy crawl luoo -o result.csv(执行爬虫并且以result.csv保存到当前目录下)
6）用notepad++打开result.py并且更改格式为ANSI后保存，再用excel打开就不会有乱码了

*遗留to do：
1）数据考虑后期迁移到mysql数据库
2）单独把图片保存到图片格式的文件夹中

memory：顺便附上两个月前用urllib库实现的此功能代码（python3.4）
　　　　 现在看看用scrapy真的是方便太多了，更别提其牛逼呼呼的可扩展性：

 import urllib.request

 import re

 import time

 def openurl(urls):

     htmls=[]

     for url in urls:

         req=urllib.request.Request(url)

         req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.107 Safari/537.36')

   #      Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0

         response = urllib.request.urlopen(url)

         htmls.append(response.read())

         time.sleep(5)

     return htmls

 def jiexi(htmls):

     pics=[]

     titles=[]

     contents=[]

     for html in htmls:

         html = html.decode('utf-8')

         pics.append(re.findall('<div class="player-wrapper".*?>.*?<img.*?src="(.*?).jp.*?".*?alt=".*"',html,re.S))

         titles.append(re.findall('class="vol-title">(.*?)</span>',html,re.S))

         contents.append(re.findall('<div.*?class="vol-desc">.*?(.*?)</div>',html,re.S))

     i = len(titles)

     with open('C:\\Users\\Administrator\\Desktop\\test.txt', 'w') as f:

         for x in range(i):

             print("正在下载期刊：%d" %(746-x))

             f.write("期刊名："+str(titles[x])[2:-2]+"\n")

             f.write("图片链接："+str(pics[x])[2:-2]+".jpg\n")

             content = str(contents[x])[4:-2]

             content.strip()

             print(content.count("""<br>\n"""))

             content.replace("""<br>\n""","#")

             f.write("配诗："+content+"\n\n\n")

 yur='http://www.luoo.net/music/'

 urls = []

 for i in range(657,659):

     urls.append(yur + str(i))

 htmls = openurl(urls)

 pics = jiexi(htmls)

2:url有规律的多页面爬取的更多相关文章

python3编写网络爬虫14-动态渲染页面爬取
一.动态渲染页面爬取上节课我们了解了Ajax分析和抓取方式,这其实也是JavaScript动态渲染页面的一种情形,通过直接分析Ajax,借助requests和urllib实现数据爬取但是javaS ...
【图文详解】scrapy爬虫与动态页面——爬取拉勾网职位信息（2）
上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能. 之前的内容就不再介绍了,不熟悉的请一定要 ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
爬虫系列4：scrapy技术进阶之多页面爬取
多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规 ...
Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...
scrapy之盗墓笔记三级页面爬取
#今日目标 **scrapy之盗墓笔记三级页面爬取** 今天要爬取的是盗墓笔记小说,由分析该小说的主要内容在三级页面里,故需要我们一一解析 *代码实现* daomu.py ``` import sc ...
python爬爬爬之单网页html页面爬取
python爬爬爬之单网页html页面爬取作者:vpoet mail:vpoet_sir@163.com 注:随意copy 不用告诉我 #coding:utf-8 import urllib2 Re ...
使用requests简单的页面爬取
首先安装requests库和准备User Agent 安装requests直接使用pip安装即可 pip install requests 准备User Agent,直接在百度搜索"UA查询 ...
3:url无规律的多页面爬取
试例网站:豆瓣电影TOP250:http://movie.douban.com/top250 关键点:在审查元素下查看后页即可以看到跳转的url.而且最后一页就此属性就没有了. 由于关键是实现分页,所 ...

随机推荐

带左右箭头切换的自动滚动图片JS特效
效果图按钮 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www. ...
QT5-控件-QDial（表盘控件）
#ifndef MAINWINDOW_H #define MAINWINDOW_H #include <QMainWindow> #include <QDial> class ...
jsp之间url传值出现中文乱码
示例: T1.jsp http://localhost:8080/test/Test.action?site=北京 T2.jsp ..... <%@ page language="ja ...
iBox v2.0 发布，Web化仿iOS7界面/交互的JavaScirpt库
iBox2 是一个仿 iOS 7 界面/交互的 JavaScirpt 库,它运行在 webkit 内核的移动浏览器之上,依赖 iScroll5,帮助开发者构建更接近 iOS 体验的 WebApp. 伴 ...
自己寫的 Loading JS插件
本文為原創文章,轉載請注明出處,謝謝./** * @author samkin.yang * @version 1.0 */var $_yxj = new SamkinLoading(); (func ...
Sicily 1931. 卡片游戏
题目地址:1931. 卡片游戏思路: 纯属数据结构中队列的应用,可以练练手. 具体代码如下: #include <iostream> #include <queue> usi ...
转：memcpy的用法总结
1.memcpy 函数用于把资源内存(src所指向的内存区域) 拷贝到目标内存(dest所指向的内存区域):拷贝多少个?有一个size变量控制拷贝的字节数:函数原型:void *memcpy(voi ...
PHP 中的静态变量的简单使用
静态变量的初始化只能在第一次static 声明的时候进行,这些静态变量只能在声明他的函数中访问到. 例如: <?php function do_something(){ static $firs ...
php preg_match 和preg_match_all
$h3=trim('[我要变强][主流程]整体功能测试点');$matches=array();preg_match_all('/[(.+?)]/', $h3,$matches); print_r($ ...
JQuery 插件 - 弹窗：BlockUI
JQuery的弹窗插件,网上实在有很多做的比较好的,比如artDialog.layer,甚至EasyUI等等.这些在效果上做的非常好.但我觉得一个小小的弹窗提示,没有必要引用这些(其实是有点大材小用了 ...

2:url有规律的多页面爬取

2:url有规律的多页面爬取的更多相关文章

随机推荐

热门专题