用 BeautifulSoup爬取58商品信息
最近对Python爬虫比较迷恋,看了些爬虫相关的教程
于是乎跟着一起爬取了58上面的一些商品信息,并存入到xlsx文件中,并通过xlsxwirter的方法给表格设置了一些格式。好了,直接贴代码吧~
#coding:utf-8
from bs4 import BeautifulSoup
import requests
import sys
import xlsxwriter
import re
reload(sys)
sys.setdefaultencoding('utf8') def get_links_from(urls,who_sell=0,page=1):
list_view = 'http://bj.58.com/haidian/pbdn/{}/pn{}/'.format(str(who_sell), str(page))
web_data = requests.get(list_view)
soup = BeautifulSoup(web_data.text, "lxml")
for url in soup.select('td.t a.t'):
url = url.get('href').split('?')[0]
if url.find('zhuanzhuan.58.com') != -1:
urls.append(url)
is_next = soup.select('.next')
if is_next: #如果存在下一页,继续获取url并保存到urls
get_links_from(urls,who_sell,page+1)
return urls def get_views_from(url):
id = url.split('/')[-1].strip('z.shtml')
api = 'http://jst1.58.com/counter?infoid={}'.format(id)
js = requests.get(api)
view = js.text.split('=')[-1]
return view def get_item_info(who_sell):
datas = []
urls = []
urls = get_links_from(urls,who_sell,1) workbook = xlsxwriter.Workbook(u'F:/Python27/magua/download/二手平板.xlsx')
worksheet = workbook.add_worksheet('haidian')
format = workbook.add_format({'bold':True, 'font_color': 'B452CD', 'font_size': 16, 'align':'center', 'bg_color':'FFA54F'})
worksheet.set_row(0, 20) #设置第1行的单元格高度
worksheet.set_column('A:A', 100) #设置第A列的单元格长度
worksheet.set_column('C:C', 15) #设置第C列的单元格长度
worksheet.set_column('D:D', 15) #设置第D列的单元格长度
worksheet.set_column('E:E', 15) #设置第E列的单元格长度
worksheet.write(0, 0, '标题', format)
worksheet.write(0, 1, '价格', format)
worksheet.write(0, 2, '区域', format)
worksheet.write(0, 3, '个人/商家', format)
worksheet.write(0, 4, '浏览量', format)
# workbook.close()
# return row_num = 1
for url in urls:
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, "lxml")
data = {
'title':soup.title.text.strip(), #strip 去掉字符串中的换行、制表符
'price':soup.select('.price_now i')[0].text, # #代表id
'area':soup.select('.palce_li i')[0].text,
'cate':u'个人' if who_sell ==0 else u'商家',
'view':soup.select('.look_time')[0].text.split('次')[0],
# 'views':get_views_from(url),
}
# datas.append(data) if row_num%2:
format_ = workbook.add_format({'bg_color': 'FFEC8B', 'font_size': 12})
else:
format_ = workbook.add_format({'bg_color': 'FFDAB9', 'font_size': 12})
#write the data into .xlsx file
worksheet.write(row_num, 0, data['title'], format_)
worksheet.write(row_num, 1, data['price'], format_)
worksheet.write(row_num, 2, data['area'], format_)
worksheet.write(row_num, 3, data['cate'], format_)
worksheet.write(row_num, 4, data['view'], format_)
row_num = row_num + 1
workbook.close() '''
for item in datas:
print repr(item).decode("unicode-escape")
# print item
print "total: %d" % len(datas)
''' get_item_info(0) #参数 0为个人,1为商家
在这过程中有点不明白的地方就是xlsxwriter.Workbook 方法在创建xlsx文件的时候,必须要绝对路径才能成功,看官方文档也没找到问题的原因
最后抓取信息所生成的表格文件截图

用 BeautifulSoup爬取58商品信息的更多相关文章
- selenium+phantomjs爬取京东商品信息
selenium+phantomjs爬取京东商品信息 今天自己实战写了个爬取京东商品信息,和上一篇的思路一样,附上链接:https://www.cnblogs.com/cany/p/10897618. ...
- selenium模块使用详解、打码平台使用、xpath使用、使用selenium爬取京东商品信息、scrapy框架介绍与安装
今日内容概要 selenium的使用 打码平台使用 xpath使用 爬取京东商品信息 scrapy 介绍和安装 内容详细 1.selenium模块的使用 # 之前咱们学requests,可以发送htt ...
- Python爬虫-爬取京东商品信息-按给定关键词
目的:按给定关键词爬取京东商品信息,并保存至mongodb. 字段:title.url.store.store_url.item_id.price.comments_count.comments 工具 ...
- 爬虫—Selenium爬取JD商品信息
一,抓取分析 本次目标是爬取京东商品信息,包括商品的图片,名称,价格,评价人数,店铺名称.抓取入口就是京东的搜索页面,这个链接可以通过直接构造参数访问https://search.jd.com/Sea ...
- Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
- 八个commit让你学会爬取京东商品信息
我发现现在不用标题党的套路还真不好吸引人,最近在做相关的事情,从而稍微总结出了一些文字.我一贯的想法吧,虽然才疏学浅,但是还是希望能帮助需要的人.博客园实在不适合这种章回体的文章.这里,我贴出正文的前 ...
- 利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
- scrapy 爬取天猫商品信息
spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy impo ...
- python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
随机推荐
- 【原】Unity Shader VS UDK Material Editor
UDK 的材质编辑器十分好用,毕竟是所见即所得的.虽然unity也有类似第三方插件,但易用性还是差很多,下面主要是,把一些常见表达式概念对应起来. 1. UDK CameraVector (相机位向量 ...
- eharts入门篇一
1.导入文件样式 从官网下载界面选择你需要的版本下载,根据开发者功能和体积上的需求,我们提供了不同打包的下载,如果你在体积上没有要求,可以直接下载完整版本. 2,引入 ECharts 文件 < ...
- Display:table;妙用,使得左右元素高度相同
我们在设计网页的时候,为了左右能够分明一点,我们经常会在左边元素弄一个border-right,但是出现一个问题,如果左边高度比较小,这根线就短了,下面空了一部分,反正如果在右边的元素弄一个borde ...
- OC类的介绍
类的本质 类的本质其实也是一个对象(类对象) 类对象 类对象再程序运行时一直存在 类对象是一种数据结构,存储类的基本信息:类大小,类名称,类的版本以及消息与函数的映射表等 类对象所保存的信息在程序编译 ...
- R语言结合概率统计的体系分析---数字特征
现在有一个人,如何对这个人怎么识别这个人?那么就对其存在的特征进行提取,比如,提取其身高,其相貌,其年龄,分析这些特征,从而确定了,这个人就是这个人,我们绝不会认错. 同理,对数据进行分析,也是提取出 ...
- UI-UIwindow
1.什么是UI? UI (User Interface) : 用户界面,用户看到的各种各样的页面元素: 2.什么是UIWindow ? UIWindow : 一个基础容器,往窗口上放不同的东西,每个 ...
- 【更新WordPress 4.6漏洞利用PoC】PHPMailer曝远程代码执行高危漏洞(CVE-2016-10033)
[2017.5.4更新] 昨天曝出了两个比较热门的漏洞,一个是CVE-2016-10033,另一个则为CVE-2017-8295.从描述来看,前者是WordPress Core 4.6一个未经授权的R ...
- Springboot数据访问,棒棒哒!
Springboot对数据访问部分提供了非常强大的集成,支持mysql,oracle等传统数据库的同时,也支持Redis,MongoDB等非关系型数据库,极大的简化了DAO的代码,尤其是Spring ...
- 9、JcomboBox下拉框事件监听
9.JcomboBox下拉框事件监听 JComboBox()的事件监听类ItemListener.其范例代码如下: import java.awt.*; import java.awt.event.* ...
- Centos5搭建vsftpd服务
更换镜像源 由于centos5已经历史久远,内置的镜像源已经不能用.看: 因此,我手工更换了阿里云的源.(ps:我本来是想用网易的源,但不知为什么,这个源在安装vsftpd时提示http 404错误) ...