爬取字段和图片 spider_getModelInformation

import urllib
import urllib2
import re

class Spider:

def getPage(self,pageIndex):
　　url="http://mm.taobao.com/json/request_top_list.htm?page="+str(pageIndex)
　　request=urllib2.Request(url)
　　response=urllib2.urlopen(request)
　　return response.read().decode('gbk')

def getContents(self,pageIndex):
　　page=self.getPage(pageIndex)
　　pattern=re.compile('<a class="lady-name" href="(.*?)".*?>(.*?)</a>.*?<strong>(.*?)</strong>.*?<span>(.*?)</span>',re.S)
　　items=re.findall(pattern,page)
　　for item in items:
　　print "Personal Address",item[0]
　　print "Name",item[1],"Age",item[2],"city",item[3]

def start(self,start,end):
　　for i in range(start,end+1):
　　print "This is NO.",i,"model"
　　self.getContents(i)

spider=Spider()
spider.start(1,5)

爬取字段和图片 spider_getModelInformation的更多相关文章

用WebCollector爬取站点的图片
用WebCollector爬取整站图片,仅仅须要遍历整站页面.然后将URL为.jpg.gif的页面(文件)保存到本地就可以. 比如我们爬取一个美食站点,获取里面全部的图片: import cn.edu ...
python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
Python-王者荣耀自动刷金币+爬取英雄信息+图片
前提:本文主要功能是 1.用python代刷王者荣耀金币 2.爬取英雄信息 3.爬取王者荣耀图片之类的. (全部免费附加源代码) 思路:第一个功能是在基于去年自动刷跳一跳python代码上面弄的,思路 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
用scrapy爬取搜狗Lofter图片
用scrapy爬取搜狗Lofter图片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http import Reques ...
scrapy爬虫爬取小姐姐图片（不羞涩）
这个爬虫主要学习scrapy的item Pipeline 是时候搬出这张图了: 当我们要使用item Pipeline的时候,要现在settings里面取消这几行的注释我们可以自定义Item Pip ...
爬虫—分析Ajax爬取今日头条图片
以今日头条为例分析Ajax请求抓取网页数据.本次抓取今日头条的街拍关键字对应的图片,并保存到本地一,分析打开今日头条主页,在搜索框中输入街拍二字,打开开发者工具,发现浏览器显示的数据不在其源码里面 ...
[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈
我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点: 1.可以了解Python简单爬取图片的一些思路和方法 ...

随机推荐

如何实现win7系统多用户同时远程登录
使用Win7系统的时候,不同的管理账号远程登录桌面时,会把远程登录的人给记下来.如何设置Win7让两个账号的两会话同时存在,且相互之间不冲突. 方法/步骤第一步:创建需要远程的两个用户账号. ...
Python使用LDAP做用户认证
LDAP(Light Directory Access Portocol)是轻量目录访问协议,基于X.500标准,支持TCP/IP. LDAP目录以树状的层次结构来存储数据.每个目录记录都有标识名(D ...
Bigger-Mai 养成计划，前端基础学习之CSS
在标签上设置style属性: background-color: #2459a2; height: 48px; ... 编写css样式: 1. 标签的style属性 2. 写在head里面 style ...
HTML与CSS的一些知识（四）
续: line-height 用于设置一行文本行高,一般用于文本的垂直居中: display 用于设置元素的显示方式 float 浮动,让元素漂浮起来排列浮动的影响: a.浮动后,行内元素可以支持宽 ...
THUSCH 2017 大魔法师（矩阵乘法+线段树）
题意 https://loj.ac/problem/2980 思路区间修改考虑用线段树维护.由于一段区间的 \(A,B,C\) 可以表示成由原来的 \(A,B,C\) 乘上带上系数再加上某一个某个常 ...
Java 处理word文档后在前端展示
最新新开发的这个项目需要使用word文档并要求能在前端页面上带格式展示,由于项目不是内部使用,所以不考虑插件类的处理模式,都必须要本地处理完成,前端不需要做什么更新或者说安装就能直接访问,类似于百度文 ...
从svn到git开发转变
前言:目前的公司的开发技术还是处于刀耕火种的年代,react,vue已经火到不行了,可是还在用jQuery一遍遍处理着dom.版本控制用的是svn,这里也不是说svn不好,在windows下svn的“ ...
sublime Text 常用插件
1.LocalizedMenu 语言插件 2.SublimeRPEL 这个我主要是用python,设置快捷键后很方便 3.以后用到什么再补充
C++学习建议
C++学习建议 C++缺点之一,是相对许多语言复杂,而且难学难精.许多人说学习C语言只需一本K&R<C程序设计语言>即可,但C++书籍却是多不胜数.我是从C进入C++,皆是靠阅读自 ...
idea 配置git
1.注册https://github.com 2. 3.填入信息完成

爬取字段和图片 spider_getModelInformation

爬取字段和图片 spider_getModelInformation的更多相关文章

随机推荐

热门专题