python爬虫基础之一（爬淘宝）

没想到python如此强大，

今天看一会视频学会了一段python爬虫

这就是我今天学到的内容爬去淘宝网关于书包的一些信息，包括价格，

#coding=utf-8

import requests#导入requests模块

import re#导入re模块

#提取网页代码通用表达式

def getHTMLText(url):

    try:

        r = requests.get(url,timeout=30)#获取页面的url链接

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        return r.text

    except:

        return ""

#提取Html中的主要信息

def parseHtml(ilt,html):

    try:#下面是正则表达式处理文字信息

        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)

        flt = re.findall(r'\"raw_title\"\:\".*?\"',html)

        for i in range(len(plt)):

            price =  eval(plt[i].split(":")[1])#eval 可以将前后的”“去掉

            name = eval(flt[i].split(":")[1])#split 可以分割字符串到列表红

            ilt.append([price,name])

    except:

        print("")

#将格式打印出来

def printGoodsPrice(ilt):

    try:#让排版更清晰

        tplt = "{:4}\t{:8}\t{:16}"

        print(tplt.format("序号","价格","商品名称"))

        count = 0;

        for g in ilt:

            count = count+1

            print(tplt.format(count,g[0],g[1]))

    except:

        print("")

def main():

    goods = '书包'#提取的商品

    depth = 2 #提取的深度

    url = 'https://s.taobao.com/search?q='+goods

    ilt = []

    i = 0

    for i in range(depth):

        try:

            irl = url + '&s=' +  str(i*44)#这个地方的改动可以影响提取内容

            html = getHTMLText(irl)

            parseHtml(ilt,html)

        except:

            continue

    printGoodsPrice(ilt)#打印处理

main()

python爬虫基础之一（爬淘宝）的更多相关文章

python爬虫-基础入门-爬取整个网站《3》
python爬虫-基础入门-爬取整个网站<3> 描述: 前两章粗略的讲述了python2.python3爬取整个网站,这章节简单的记录一下python2.python3的区别 python ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python爬虫之定时抢购淘宝商品
Python爬虫之定时抢购淘宝商品 import time from selenium import webdriver import datetime class Spider: def __ini ...
python爬虫基础应用----爬取校花网视频
一.爬虫简单介绍爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...
Python爬虫基础--分布式爬取贝壳网房屋信息(Client)
1. client_code01 2. client_code02 3. 这个时候运行多个client就可以分布式进行数据爬取.
Python爬虫基础--分布式爬取贝壳网房屋信息(Server)
1. server_code01 2. server_code02 3. server_code03
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
python爬虫-基础入门-python爬虫突破封锁
python爬虫-基础入门-python爬虫突破封锁 >> 相关概念 >> request概念:是从客户端向服务器发出请求,包括用户提交的信息及客户端的一些信息.客户端可通过H ...

随机推荐

【nlogn LIS】模板
总结:stl真好用 #include <cstdio> #include <cstring> #include <iostream> #include <al ...
Python 学习笔记（十一）Python语句（二）
For 循环语句基础知识 for循环可以遍历任何序列的项目,如一个列表或者一个字符串. 语法: for 循环规则: do sth >>> for i in "python ...
Spark Streaming编程示例
近期也有开始研究使用spark streaming来实现流式处理.本文以流式计算word count为例,简单描述如何进行spark streaming编程. 1. 依赖的jar包参考<分别用 ...
grid 布局的使用
grid 布局的使用 css 网格布局,是一种二维布局系统. 浏览器支持情况:老旧浏览器不支持, 概念: 网格容器.元素应用dispalay:grid,它是所有网格项的父元素. <div cla ...
chromium之histogram.h
histogram不知道是干啥的 // Histogram is an object that aggregates statistics, and can summarize them in // ...
(Linux学习笔记一:压缩)[20180209]
学习笔记一:压缩 2015年2月5日上午 10:23 压缩命令压缩文件的扩展名大多是*.tar.*.tar.gz.*.tgz.*.gz.*.Z.*.bz2 常见的压缩命令gzip与bzip2,其中 ...
vue 样式渲染，添加删除元素
<template> <div> <ul> <li v-for="(item,index) in cartoon" :key=" ...
Java并发编程：CountDownLatch、CyclicBarrier和 Semaphore[转]
[转载]http://www.cnblogs.com/dolphin0520/p/3920397.html 在java 1.5中,提供了一些非常有用的辅助类来帮助我们进行并发编程,比如CountDow ...
php源码建博客3--区分平台的MVC结构
主要: 模型单例工厂目录结构优化区分平台(前台,后台....) --------------文件结构:-------------------------------------- blog├─Ap ...
yii学习笔记（6），连接数据库，创建活动记录类
创建数据库用于测试配置数据库连接打开yii的配置文件目录下的数据库配置文件config/db.php <?php return [ 'class' => 'yii\db\Connect ...

python爬虫基础之一（爬淘宝）

python爬虫基础之一（爬淘宝）的更多相关文章

随机推荐

热门专题