python爬取商品信息
老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序。
需求:某网的商品信息,包括商品名,市场价和售价
工具:python2.7.8,urllib2,re
#coding = utf-8 import urllib2
import re path = "aaa.txt"
f = open(path, 'w+') for i in range(4980, 4991):
print i # get webpage content
url = "http://*" + str(i) + "*"
page = urllib2.urlopen(url).read() # Regular matching
matchTitle = re.search(r'<dt>(.*?)</dt>', page)
matchMarketPrice = re.search(r'<del.*?>(.*?)</del>', page)
matchCurrentPrice = re.search(r'<b>(.*?)</b>', page) # save result
if matchTitle and matchMarketPrice and matchCurrentPrice:
f.write(matchTitle.group(1) + '\t' + matchMarketPrice.group(1) + '\t' + matchCurrentPrice.group(1) + '\n')
f.close()
部分结果显示:
欧莱雅奇焕光感粉嫩透亮修颜霜30ml ¥120.00 109.00
欧莱雅复颜洁面乳125ml ¥130.00 105.00
欧莱雅复颜抗皱紧致滋润眼霜15ml ¥210.00 179.00
欧莱雅复颜清漾柔肤水175ml ¥160.00 138.00
python爬取商品信息的更多相关文章
- Python爬取招聘信息,并且存储到MySQL数据库中
		前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ... 
- Python爬取网页信息
		Python爬取网页信息的步骤 以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址 在浏览器中输入初 ... 
- python爬取酒店信息练习
		爬取酒店信息,首先知道要用到那些库.本次使用request库区获取网页,使用bs4来解析网页,使用selenium来进行模拟浏览. 本次要爬取的美团网的蚌埠酒店信息及其评价.爬取的网址为“http:/ ... 
- (转)python爬取拉勾网信息
		学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程 我们在查看拉勾网上的招聘信息的时候 ... 
- 配置scrapy-splash+python爬取医院信息(利用了scrapy-splash)
		北京艾丽斯妇科医院(http://fuke.fuke120.com/) 首先先说一下配置splash 1.利用pip安装scrapy-splash库 pip install scrapy-splash ... 
- python爬取微信信息--显示性别/地域/词云(附代码)
		看到一篇有意思的博客 利用微信开放的接口itchat 可以获取登录的微信好友信息 并且利用图像工具显示分析结果 非常的有意思 记录下实现过程 并提供可执行代码 首先要 import itchat 库 ... 
- [python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
		[python] 常用正则表达式爬取网页信息及分析HTML标签总结 转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ... 
- 常用正则表达式爬取网页信息及HTML分析总结
		Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3 ... 
- Python爬虫之selenium爬虫,模拟浏览器爬取天猫信息
		由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ... 
随机推荐
- 【Unity3D】使用MD5值,确保本地Sqlite数据库内容没有被篡改
			Sqlite的应用场景 在判断是否使用存储格式为Sqlite模式的标准,我们的标准是内容只读.也就是说,除非发布者修改Sqlite内容,玩家只有读取的权限. 换个角度说,Sqlite里面的数据都是游戏 ... 
- Django学习笔记之django-debug-toolbar使用指南
			介绍 django-debug-toolbar 是一组可配置的面板,可显示有关当前请求/响应的各种调试信息,并在单击时显示有关面板内容的更多详细信息. github地址 文档地址 安装 pip3 in ... 
- RabbitMQ学习之(三)_Centos6下RabbitMQ PHP扩展的安装
			安装rabbitmq-c依赖包 yum install libtool autoconf 下载安装rabbitmq-c wget https://github.com/alanxz/rabbitmq- ... 
- Clonal hematopoiesis of indeterminate potential(意义不明的克隆性造血)-CHIP
			意义不明的克隆性造血是指由一个造血干细胞或者其他早期的起始血细胞为了更好的适应环境而发展成一个带有一些基因变异的亚型. 这个亚型带有基因变异一般是非驱动性的,而且该亚型占血细胞的比率跟年龄有很大的相关 ... 
- IoC控制反转与DI依赖输入
			IoC (Inversion of Control)即控制反转,是面向对象编程中的一种设计原则.它把传统上由程序代码直接操控的对象的调用权交给容器,通过外部容器来实现对象组件的装配和管理. 简单来说, ... 
- 20145331 《Java程序设计》第6周学习总结
			20145331 <Java程序设计>第6周学习总结 教材学习内容总结 第十章 输入/输出 10.1.1串流 •Java将输入/输出抽象化为串流,数据有来源及目的地,衔 ... 
- Jquery14 工具函数
			学习要点: 1.字符串操作 2.数组和对象操作 3.测试操作 4.URL 操作 5.浏览器检测 6.其他操作 工具函数是指直接依附于 jQuery 对象,针对 jQuery 对象本身定义的方法,即全局 ... 
- 当新手使用JS库遇到问题怎么办
			见标题,知其意.在做网站时候,其实我们会用很多JS库,网络上流行的和公司自己封装的,这些东西都很好用,但是或多或少的有些bug或者有一些缺陷,即使真的很完善,但也可能达不到自己特定的一些需求.所以遇到 ... 
- Hadoop资源调度器
			hadoop调度器的作用是将系统中空闲的资源按一定策略分配给作业.调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器.Hadoop中常见的调度器有三种,分别为: 1.基于队列的FIFO ... 
- SQL映射文件-----MySQL关系映射【1对1,1对多,多对多】
			SSM框架下,mapper.xml 中 association 标签和 collection 标签的使用 当数据库中表与表之间有关联时,在对数据库进行操作时,就不只是针对某一张表了,需要联表查询 My ... 
