python3.4+selenium爬58同城（一）

爬取http://bj.58.com/pbdn/0/pn2/中除转转、推广商品以外的产品信息，因为转转和推广的详情信息不规范，需要另外写一个方法存放，后期补上，详情页如下

这周学习了爬虫，但是遇到一些js，requests方法无法渲染，比如浏览量，所以结合selenium+phantomjs渲染网页，获取信息

上代码，注释中详细解释：

from selenium import webdriver
from bs4 import BeautifulSoup
import re

class GetPageInfo(object):

‘这个类主要是定义爬网页的方法，定义一个规范，以后爬取网页方法就重写这个类就行’
    def index_page(self):
        '获取所有每个网页的url'

        ‘这周暂时只爬取一页的所有记录详细信息，所以该方法暂时不用’
        pass
    def detail_page(self):
        '从每个index_page中,获取每个网页的每条记录的url'
        pass
    def domain_page(self):
        '从每个detail_page中，获取每条记录的详细信息'

class TongChengFirstHomework(GetPageInfo):
    #传入一个浏览器
    def __init__(self,browser=None):
        self.browser= browser  #初始化一个浏览器
    def detail_page(self,whoshell=0,page=1):
        'woshell:0代表个人销售，1代表商家销售；page当前页'
        #http://sz.58.com/pbdn/0/pn1/
        url= 'http://sz.58.com/pbdn/{}/pn{}/'.format(str(whoshell),str(page))

        #此处使用了format函数，详细用法可以找找百度
        browser.get(url) #打开网页
         html = browser.page_source  #获取网页的所有内容
        soup = BeautifulSoup(html,'lxml') #用BeautifulSoup解析网页，转回我们平时熟悉的爬虫方法
        detail_urls = soup.select('#infolist a.t')  #获取某一页下的所有记录
        detail_url_list=[]
        for row in detail_urls:
            detail_url = row.get('href')
            if ('Mzhuanzhuan' not in str(detail_url)) and ('jump' not in detail_url):
                    #获取每一条记录的url
                detail_url_list.append(detail_url)
        print(detail_url_list)
        return detail_url_list

    def domain_page(self,detail_url):
        detail = {} #用来存放详细信息的字典

        browser.get(detail_url) 
         html = browser.page_source 
        soup = BeautifulSoup(html,'lxml') 
        desc_product = soup.select('div.col_sub.sumary > ul > li:nth-of-type(2) > div.su_con > span')
        detail={
            "provice":soup.select('.crb_i > a')[0].get_text(),
            "title":soup.select('#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.mainTitle > h1')[0].get_text(),
            "date":soup.select('.time')[0].get_text(),
            "views":soup.select('#totalcount')[0].get_text(),
            "price":soup.select('span.price.c_f50')[0].get_text(),
            "condition":list(desc_product[0].stripped_strings) if '-' not in str(soup.select('div.col_sub.sumary > ul > li:nth-of-type(2) > div.su_con > span')) else None,
            "area":list(soup.select('.c_25d')[0].stripped_strings) if soup.find_all('span','c_25d') else None,
             #这里是可以直接在字典里使用if函数，类似列表解析式
            "seller":soup.select('#divContacter > ul > ul > li > a')[0].get_text(),
        }
        print(detail)
        return detail #返回所有详细信息

try:
    cap = webdriver.DesiredCapabilities.PHANTOMJS #DesiredCapabilities是一个字典，可以对浏览器进行设置

    cap['phantomjs.page.settings.loadImages']=False #设置浏览器不加载图片
    cap['phantomjs.page.settings.userAgent ']="Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36" #设置useragent
    cap['phantomjs.page.settings.diskCache'] =True #设置浏览器开启缓存
    browser = webdriver.PhantomJS(desired_capabilities=cap)  #使用desired_capabilities初始化浏览器
    tongcheng=TongChengFirstHomework(browser)  #实例一个tongchengfirskhomework对象
    for detail_page in tongcheng.detail_page(page=2):
        tongcheng.domain_page(detail_page)
        print(detail_page)

finally:
    browser.close() #记得要关掉浏览器

python3.4+selenium爬58同城（一）的更多相关文章

python3.4+pyspider爬58同城（二）
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持pyth ...
Python 爬58同城城市租房信息
爬取完会自动生成csv电子表格文件,含有房价.押付.链接等信息环境 py2.7 pip install lxml pip install cssselect #coding:utf-8 impo ...
使用Python3.x抓取58同城（南京站）的演出票的信息
#!/usr/bin/env python #-*-coding: utf-8 -*- import re import urllib.request as request from bs4 impo ...
python3爬虫-爬取58同城上所有城市的租房信息
from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, dat ...
scrapy爬取58同城二手房问题与对策
测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有 ...
用Python写爬虫爬取58同城二手交易数据
爬了14W数据,存入Mongodb,用Charts库展示统计结果,这里展示一个示意模块1 获取分类url列表 from bs4 import BeautifulSoup import request ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...

随机推荐

Google机器学习笔记（七）TF.Learn 手写文字识别
转载请注明作者:梦里风林 Google Machine Learning Recipes 7 官方中文博客 - 视频地址 Github工程地址 https://github.com/ahangchen ...
EF有外键的查询
modelBuilder.Entity<ActionMenu>().ToTable("ActionMenu"); modelBuilder.Entity<Acti ...
Java Web开发及应用软件方向的学习计划
从接触计算机以来,一直抱有很浓厚的兴趣.我并不擅长与人交际,与机器对话可能更有性格方面的优势.虽然我很想做出一些改变,但总得需要时间和历练,暂时也只能这样了~ 一直很向往代码的神秘,在梦之站待过两年时 ...
linux里忘记root密码解决办法
1:打开虚拟机,点‘启动’按钮, 2:出现上面这个界面时,键盘输入’i’,出现grub界面: 3:键盘输入e,出现如下界面: 4:选择第二行(kernel……) 5:键盘输入e,出现如下界面: 6:在 ...
LightOj 1230 Placing Lampposts(树形DP)
题意:给定一个森林.每个节点上安装一个灯可以覆盖与该节点相连的所有边.选择最少的节点数num覆盖所有的边.在num最小的前提下,合理放置num个灯使得被两个灯覆盖的边最多? 思路:F[i][0]代表没 ...
VS2012 快捷键 VS Resharper 设置
原文 http://www.cnblogs.com/skyangell/archive/2013/03/24/2979835.html 一直用Resharper插件,最近发现Ctrl+E,C快捷见被R ...
C++基本要点复习--------coursera程序设计实习（PKU）的lecture notes
因为一些特性复杂,很多时候也用不到一些特性,所以忘记了,算是随笔,也当作一个临时查找的手册.没有什么顺序,很杂. 1.构造函数通过函数重载的机制可以有多个(不同的构造函数,参数个数,或者参数类型不同. ...
【转】Device Tree（二）：基本概念
原文网址:http://www.wowotech.net/linux_kenrel/dt_basic_concept.html 一.前言一些背景知识(例如:为何要引入Device Tree,这个机制 ...
C# 调用外部程序，并获取输出和错误信息
1. 同步模式 public void exec(string exePath, string parameters) { System.Diagnostics.ProcessStartInfo ps ...
JS帮你计算属相
背景:一个人出生在2014年的正月初一,他的生肖到底是属蛇还是属马呢?这就要确定那一天才是一年的开始.是春节还是立春?每年的春节是正月初一,但是生肖必须是从立春日开始计算.春节是1912年孙中 ...

python3.4+selenium爬58同城（一）

爬取http://bj.58.com/pbdn/0/pn2/中除转转、推广商品以外的产品信息，因为转转和推广的详情信息不规范，需要另外写一个方法存放，后期补上，详情页如下

python3.4+selenium爬58同城（一）的更多相关文章

随机推荐

热门专题