环境

操作系统：CentOS 6.7 32-bit

Python版本：2.6.6

第三方插件

selenium

PhantomJS

BeautifulSoup

代码

# -*- coding: utf-8 -*-

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

'''

作者：昨夜星辰

'''

import re

import os

import time

import shutil

import requests

import subprocess

from bs4 import BeautifulSoup

from selenium import webdriver

# 拼接url

def joint_url(string):

    return 'https:' + string

# 判断文件夹是否存在，如果存在就删除，否则就创建。

def create_folder(path):

    if os.path.exists(path):

        if os.path.isdir(path):

            shutil.rmtree(path)

        else:

            os.remove(path)

    os.mkdir(path)

root_folder = '淘女郎'

create_folder(root_folder)

url = 'https://mm.taobao.com/json/request_top_list.htm?page=1'

browser = webdriver.PhantomJS()

browser.get(url)

bs = BeautifulSoup(browser.page_source, 'lxml')

for top in bs('p', 'top'):

    mm_url = joint_url(top.find('a')['href'])

    mm_name = top.find('a').text

    mm_age = top.find('em').text

    mm_city = top.find('span').text

    mm_folder = '%s/%s' % (root_folder, mm_name)

    create_folder(mm_folder)

    print '发现一位美眉，她叫做%s，今年%s，住在%s，现在开始爬取她的个人页面……' % (mm_name, mm_age, mm_city)

    browser.get(mm_url)

    bs1 = BeautifulSoup(browser.page_source, 'lxml')

    base_info = bs1.find('ul', 'mm-p-info-cell clearfix')

    info_list = base_info('span')

    result = []

    result.append('昵称：' + info_list[0].text)

    result.append('生日：' + info_list[1].text.strip())

    result.append('所在城市：' + info_list[2].text)

    result.append('职业：' + info_list[3].text)

    result.append('血型：' + info_list[4].text)

    result.append('学校/专业：' + info_list[5].text)

    result.append('风格：' + info_list[6].text)

    result.append('身高：' + base_info.find('li', 'mm-p-small-cell mm-p-height').find('p').text)

    result.append('体重：' + base_info.find('li', 'mm-p-small-cell mm-p-weight').find('p').text)

    result.append('三围：' + base_info.find('li', 'mm-p-small-cell mm-p-size').find('p').text)

    result.append('罩杯：' + base_info.find('li', 'mm-p-small-cell mm-p-bar').find('p').text)

    result.append('鞋码：' + base_info.find('li', 'mm-p-small-cell mm-p-shose').find('p').text)

    print '资料收集完毕，正在保存她的个人资料……'

    filename = '%s/%s.txt' % (mm_folder, mm_name)

    with open(filename, 'w') as f:

        f.write('\r\n'.join(result))

    print '保存完毕！现在开始爬取她的个人相册……'

    album_menu_url = joint_url(bs1.find('ul', 'mm-p-menu').find('a')['href'])

    browser.get(album_menu_url)

    time.sleep(3)

    bs2 = BeautifulSoup(browser.page_source, 'lxml')

    album_number = 1

    for album_info in bs2('div', 'mm-photo-cell-middle'):

        album_url = joint_url(album_info.find('h4').find('a')['href'])

        album_name = album_info.find('h4').find('a').text.strip()

        album_size = album_info.find('span', 'mm-pic-number').text

        print '现在开始爬取她的第%d个相册，相册名为：《%s》%s……' % (album_number, album_name, album_size)

        browser.get(album_url)

        js1 = 'return document.body.scrollHeight'

        js2 = 'window.scrollTo(0, document.body.scrollHeight)'

        old_scroll_height = 0

        while(browser.execute_script(js1) > old_scroll_height):

            old_scroll_height = browser.execute_script(js1)

            browser.execute_script(js2)

            time.sleep(3)

        bs3 = BeautifulSoup(browser.page_source, 'lxml')

        photo_number = 1

        for photo_area in bs3('div', 'mm-photoimg-area'):

            print '现在开始下载她这个相册的第%d张图片……' % photo_number,

            photo_url = joint_url(photo_area.find('a')['href'])

            browser.get(photo_url)

            bs4 = BeautifulSoup(browser.page_source, 'lxml')

            big_img_url = joint_url(bs4.find('img', id='J_MmBigImg')['src'])

            content = requests.get(big_img_url).content

            filename = '%s/%d.jpg' % (mm_folder, photo_number)

            with open(filename, 'wb') as f:

                f.write(content)

            print '下载完毕！'

            photo_number += 1

        album_number += 1

爬虫实例——爬取淘女郎相册（通过selenium、PhantomJS、BeautifulSoup爬取）的更多相关文章

数据抓取的艺术（一）：Selenium+Phantomjs数据抓取环境配置
数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 2013-05-15 15:08:14 分类: Python/Ruby 数据抓取是一门艺术,和其他软件不同,世界上 ...
Selenium&PhantomJS 完成爬取网络代理
Selenium模块是一套完整的Web应用程序测试系统,它包含了测试的录制(SeleniumIDE).编写及运行(Selenium Remote Control)和测试的并行处理(Selenimu G ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
动态网页爬取样例（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)须要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成.如一个html里有<div id="test" ...
selenium+phantomjs+pyquery 爬取淘宝商品信息
from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium ...
Python 之selenium+phantomJS斗鱼抓取案例
from selenium import webdriver from bs4 import BeautifulSoup import time if __name__ == '__main__': ...
scrapy爬虫实例(1)
爬虫实例对象阳光问政平台目标 : 主题,时间,内容爬取思路预先设置好items import scrapy class SuperspiderItem(scrapy.Item): title ...
Selenium+PhantomJS替代方案
问题描述: python3在使用selenium+PhantomJS动态抓取网页时,出现如下报错信息: UserWarning: Selenium support for PhantomJS has ...
Selenium+PhantomJS使用时报错原因及解决方案
问题今天在使用selenium+PhantomJS动态抓取网页时,出现如下报错信息: UserWarning: Selenium support for PhantomJS has been dep ...

随机推荐

jenkins配置git+maven+Publish over SSH
一.配置git 1.新建项目,源码管理选择git 2.Repository URL输入git目录 3.Credentials中选择新增凭据,凭据类型选择SSH,usename输入git,passphr ...
[CF294B]Shaass and Bookshelf
问题描述 Shaass拥有n本书.他想为他的所有书制作一个书架,并想让书架的长宽尽量小.第i本书的厚度是t[i],且这本书的纸张宽度是w[i].书的厚度是1或2,所有书都有同样的高度(即书架的高是均匀 ...
leetcode-组合总数III（回溯）
组合总和 III 找出所有相加之和为 n 的 k 个数的组合.组合中只允许含有 1 - 9 的正整数,并且每种组合中不存在重复的数字. 说明: 所有数字都是正整数. 解集不能包含重复的组合. 示例 ...
Java异常层次结构
1. 如果是不可查异常(unchecked exception),即Error.RuntimeException或它们的子类,那么可以不使用throws关键字来声明要抛出的异常,编译仍能顺利通过,但在 ...
数据库Mysql的学习(六)-子查询和多表操作
)*0.05 WHERE card_id ='20121xxxxxx'; //子查询就是一个嵌套先计算子查询 SELECT * FROM borrow WHERE book_id =(SELECT b ...
ES6 之 let / const
本博文配合阮一峰 <ES6 标准入门(第3版)>一书进行简要概述 ES6 中的 let 与 const. 历史遗留问题由于 JS ES3语法中的 var 提升变量.没有块级作用域,因而 ...
Dask教程
Dask 介绍 Dask是一款用于分析计算的灵活并行计算库. Dask由两部分组成: 针对计算优化的动态任务调度.这与Airflow,Luigi,Celery或Make类似,但针对交互式计算工作负载进 ...
Halcon介绍和下载安装视频教程
------------------------Halcon,Visionpro高清视频教程,点击下载视频--------------------------
KVM存储虚拟化---玩转openstack
KVM 的存储虚拟化是通过存储池(Storage Pool)和卷(Volume)来管理的. Storage Pool 是宿主机上可以看到的一片存储空间,可以是多种类型,后面会详细讨论.Volume 是 ...
js实现滑动器效果
最近公司在做一个项目,页面中要用到滑动器效果,我的第一反应是使用HTML5 input类型中的range类型,但马上我就否定了这个想法,因为range类型存在浏览器的兼容性问题(在主流浏览器中).但又 ...

爬虫实例——爬取淘女郎相册（通过selenium、PhantomJS、BeautifulSoup爬取）

环境

第三方插件

代码

爬虫实例——爬取淘女郎相册（通过selenium、PhantomJS、BeautifulSoup爬取）的更多相关文章

随机推荐

热门专题