用 BeautifulSoup爬取58商品信息

最近对Python爬虫比较迷恋，看了些爬虫相关的教程

于是乎跟着一起爬取了58上面的一些商品信息，并存入到xlsx文件中，并通过xlsxwirter的方法给表格设置了一些格式。好了，直接贴代码吧~

#coding:utf-8

from bs4 import BeautifulSoup

import requests

import sys

import xlsxwriter

import re

reload(sys)

sys.setdefaultencoding('utf8')

def get_links_from(urls,who_sell=0,page=1):

    list_view = 'http://bj.58.com/haidian/pbdn/{}/pn{}/'.format(str(who_sell), str(page))

    web_data = requests.get(list_view)

    soup = BeautifulSoup(web_data.text, "lxml")

    for url in soup.select('td.t a.t'):

        url = url.get('href').split('?')[0]

        if url.find('zhuanzhuan.58.com') != -1:

            urls.append(url)

    is_next = soup.select('.next')

    if is_next:                                             #如果存在下一页，继续获取url并保存到urls

        get_links_from(urls,who_sell,page+1)

    return  urls

def get_views_from(url):

    id = url.split('/')[-1].strip('z.shtml')

    api = 'http://jst1.58.com/counter?infoid={}'.format(id)

    js = requests.get(api)

    view = js.text.split('=')[-1]

    return view

def get_item_info(who_sell):

    datas = []

    urls = []

    urls = get_links_from(urls,who_sell,1)

    workbook = xlsxwriter.Workbook(u'F:/Python27/magua/download/二手平板.xlsx')

    worksheet = workbook.add_worksheet('haidian')

    format = workbook.add_format({'bold':True, 'font_color': 'B452CD', 'font_size': 16, 'align':'center', 'bg_color':'FFA54F'})

    worksheet.set_row(0, 20)            #设置第1行的单元格高度

    worksheet.set_column('A:A', 100)    #设置第A列的单元格长度

    worksheet.set_column('C:C', 15)     #设置第C列的单元格长度

    worksheet.set_column('D:D', 15)     #设置第D列的单元格长度

    worksheet.set_column('E:E', 15)     #设置第E列的单元格长度

    worksheet.write(0, 0, '标题', format)

    worksheet.write(0, 1, '价格', format)

    worksheet.write(0, 2, '区域', format)

    worksheet.write(0, 3, '个人/商家', format)

    worksheet.write(0, 4, '浏览量', format)

    # workbook.close()

    # return

    row_num = 1

    for url in urls:

        web_data = requests.get(url)

        soup = BeautifulSoup(web_data.text, "lxml")

        data = {

            'title':soup.title.text.strip(),    #strip 去掉字符串中的换行、制表符

            'price':soup.select('.price_now i')[0].text,    # #代表id

            'area':soup.select('.palce_li i')[0].text,

            'cate':u'个人' if who_sell ==0 else u'商家',

            'view':soup.select('.look_time')[0].text.split('次')[0],

            # 'views':get_views_from(url),

        }

        # datas.append(data)

        if row_num%2:

            format_ = workbook.add_format({'bg_color': 'FFEC8B', 'font_size': 12})

        else:

            format_ = workbook.add_format({'bg_color': 'FFDAB9', 'font_size': 12})

        #write the data into .xlsx file

        worksheet.write(row_num, 0, data['title'], format_)

        worksheet.write(row_num, 1, data['price'], format_)

        worksheet.write(row_num, 2, data['area'], format_)

        worksheet.write(row_num, 3, data['cate'], format_)

        worksheet.write(row_num, 4, data['view'], format_)

        row_num = row_num + 1

    workbook.close()

    '''

    for item in datas:

        print repr(item).decode("unicode-escape")

        # print item

    print "total: %d" % len(datas)

    '''

get_item_info(0)    #参数 0为个人，1为商家

在这过程中有点不明白的地方就是xlsxwriter.Workbook 方法在创建xlsx文件的时候，必须要绝对路径才能成功，看官方文档也没找到问题的原因

最后抓取信息所生成的表格文件截图

用 BeautifulSoup爬取58商品信息的更多相关文章

selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用打码平台使用 xpath使用爬取京东商品信息 scrapy 介绍和安装内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
爬虫—Selenium爬取JD商品信息
一,抓取分析本次目标是爬取京东商品信息,包括商品的图片,名称,价格,评价人数,店铺名称.抓取入口就是京东的搜索页面,这个链接可以通过直接构造参数访问https://search.jd.com/Sea ...
Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
八个commit让你学会爬取京东商品信息
我发现现在不用标题党的套路还真不好吸引人,最近在做相关的事情,从而稍微总结出了一些文字.我一贯的想法吧,虽然才疏学浅,但是还是希望能帮助需要的人.博客园实在不适合这种章回体的文章.这里,我贴出正文的前 ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
scrapy 爬取天猫商品信息
spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy impo ...
python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...

随机推荐

javaWeb项目（SSH框架+AJAX+百度地图API+Oracle数据库+MyEclipse+Tomcat）之二基础Hibernate框架搭建篇
我们在搭建完Struts框架之后,从前台想后端传送数据就显得非常简单了.Struts的功能不仅仅是一个拦截器,这只是它的核心功能,此外我们也可以自定义拦截器,和通过注解的方式来更加的简化代码. 接下来 ...
python——文件操作
open函数,该函数用于文件处理操作文件时,一般需要经历如下步骤: 打开文件操作文件一.打开文件 1 文件句柄 = open('文件路径', '模式') 打开文件时,需要指定文件路径和以何等方式 ...
@JsonIgnoreProperties注解不起作用的问题解决
最近做的一个东西要调第三方服务接口,要参照接口文档开发,但是第三方服务的接口字段名全部都是大写,本来以为这种应该没有什么问题.但是实际开发中发现大写的字段名字去调后台接口的时候报: org.codeh ...
有些arp请求报文中为什么会有目的mac地址(不使用广播地址)
有些arp请求报文中为什么会有目的mac地址(不使用广播地址) 最近做实验,注意到局域网内大部分的arp包的以太网头部目的mac地址并不是广播地址,并且包内的目的mac地址字段并不是全0,而是目的ip ...
lightoj1281快速幂+数学知识
https://vjudge.net/contest/70017#problem/E 后半部分快速幂就能求出来,要注意03lld不然001是输出错误为1.前半部分用log10() 对于给定的一个数n, ...
从性能角度看react组件拆分的重要性
React是一个UI层面的库,它采用虚拟DOM技术减少Javascript与真正DOM的交互,提升了前端性能:采用单向数据流机制,父组件通过props将数据传递给子组件,这样让数据流向一目了然.一旦组 ...
ListView在异步加载动态图片时，往往最后一项或几项被遮盖（IM场景居多）
如果ListView中得默认图片比较小,新图片加载后,撑大ListView中的对应项,导致最后一项或几项被覆盖. 解决思路: 1.默认图片设定和新图大小一样,换句话说,新图加载后转成和默认图片一样的大 ...
web基础之会话技术
一.会话技术之Cookie Cookie技术是将数据存储到客户端 1．怎样去向客户端写出一个cookie 1)创建Cookie对象 Cookie cookie = new Cookie(name,va ...
Python的join()函数和split()函数
join()方法 ------------------------------------------------------------------------------------------- ...
Mac上面用来录屏的软件（录制gif图片或者mov）
1.如果是录制视频可以使用Mac自带的QuckTime Player,可以录制电脑桌面也可以录制手机界面默认是录制电脑左面, 选择录制iPhone,连接上手机,就可以录制界面的内容了 2.如果有需求 ...

用 BeautifulSoup爬取58商品信息

用 BeautifulSoup爬取58商品信息的更多相关文章

随机推荐

热门专题