使用Python3.x抓取58同城（南京站）的演出票的信息

 #!/usr/bin/env python

 #-*-coding: utf-8 -*-

 import re

 import urllib.request as request

 from bs4 import BeautifulSoup as bs

 import csv

 import os

 import sys

 from imp import reload

 reload(sys)

 def GetAllLink():

     num = int(input("爬取多少页:>"))

     if not os.path.exists('./data/'):

         os.mkdir('./data/')

     for i in range(num):

         if i+1 == 1:

             url = 'http://nj.58.com/piao/'

             GetPage(url, i)

         else:

             url = 'http://nj.58.com/piao/pn%s/' %(i+1)

             GetPage(url, i)

 def GetPage(url, num):

     Url = url

     user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:32.0) Gecko/20100101 Firefox/32.0'

     headers = { 'User-Agent' : user_agent }

     req = request.Request(Url, headers = headers)

     page = request.urlopen(req).read().decode('utf-8')

     soup = bs(page, "html.parser")

     table = soup.table

     tag = table.find_all('tr')

     # 提取出所需的那段

     soup2 = bs(str(tag), "html.parser")

     title = soup2.find_all('a','t')         #标题与url

     price = soup2.find_all('b', 'pri')      #价格

     fixedprice = soup2.find_all('del')      #原价

     date = soup2.find_all('span','pr25')    #时间 

     atitle = []

     ahref = []

     aprice = []

     afixedprice = []

     adate = []

     for i in title:

         #print i.get_text(), i.get('href')

         atitle.append(i.get_text())

         ahref.append(i.get('href'))

     for i in price:

         #print i.get_text()

         aprice.append(i.get_text())

     for i in fixedprice:

         #print j.get_text()

         afixedprice.append(i.get_text())

     for i in date:

         #print i.get_text()

         adate.append(i.get_text())

     csvfile = open('./data/ticket_%s.csv'%num, 'w')

     writer = csv.writer(csvfile)

     writer.writerow(['标题','url','售价','原价','演出时间'])

     '''

     每个字段必有title，但是不一定有时间date

     如果没有date日期，我们就设为'---'

     '''

     if len(atitle) > len(adate):

         for i in range(len(atitle) - len(adate)):

             adate.append('---')

         for i in range(len(atitle) - len(afixedprice)):

             afixedprice.append('---')

         for i in range(len(atitle) - len(aprice)):

             aprice.append('---')

     for i in range(len(atitle)):

             message = atitle[i]+'|'+ahref[i]+'|'+aprice[i]+ '|'+afixedprice[i]+'|'+ adate[i]

             writer.writerow([i for i in str(message).split('|')])

     print ("[Result]:> 页面 %s 信息保存完毕!"%(num+1))

     csvfile.close()

 if __name__ == '__main__':

     GetAllLink()

参考地址

使用Python3.x抓取58同城（南京站）的演出票的信息的更多相关文章

python3爬虫-爬取58同城上所有城市的租房信息
from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, dat ...
python3.4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取政府网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
使用python抓取58手机维修信息
之前在ququ的博客上看到说 python 中的BeautifulSoup 挺好玩的,今天下午果断下载下来,看了下api,挺好用的,完了2把,不错. 晚上写了一个使用python抓取58手机维修信息的 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
scrapy爬取58同城二手房问题与对策
测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有 ...
Python开发网络爬虫抓取某同城房价信息
前言: 苦逼的我从某某城市换到另一个稍微大点的某某城市,面临的第一个问题就是买房,奋斗10多年,又回到起点,废话就不多说了,看看如何设计程序把某同城上的房价数据抓取过来. 方案:方案思路很简单,先把网 ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...
python3.4+pyspider爬58同城（二）
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持pyth ...

随机推荐

Zabbix监控Zookeeper健康状况
首先最简单的是监听服务端口,在zabbix界面直接添加监控项 item: zookeeper.status key: net.tcp.listen[2181] ZooKeeper监控要点: 内 ...
9.mysql-存储过程.md
目录创建创建 -- 创建存储过程 DELIMITER $ -- 声明存储过程的结束符 CREATE PROCEDURE pro_test() --存储过程名称(参数列表) BEGIN -- 开始 ...
使用__future__实现从python2.7到python3.x的过渡
参考链接:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386820023 ...
MongoDB用户名和密码
在windows先进入MongoDB安装目录的bin目录下运行mongo.exe文件,会直接进入到MongoDB后台: 然后show dbs可以查看数据库: 比如你需要在admin数据库下面创建用户, ...
微信小程序---模版
微信小程序用的是否娴熟,会灵活使用模版很重要. 新建一个template文件,做一个step模版. <template name="top"> <view cla ...
java NIO 文章
http://tutorials.jenkov.com/java-nio/ 总结nio nio是非阻塞的,一个线程可以管多个Channel,每个channel可以处理bytebuffer 而no是阻塞 ...
Java冒泡具体的原理，以及下标的变化
原理:比较两个相邻的元素,将值大的元素交换至右端. 思路:依次比较相邻的两个数,将小数放在前面,大数放在后面.即在第一趟:首先比较第1个和第2个数,将小数放前,大数放后.然后比较第2个数和第3个数,将 ...
AssetBundle 策略
[AssetBundle 策略] 1.Logical Entity Grouping.按逻辑功能分. Examples Bundling all the textures and layout dat ...
Computed property names
[Computed property names] That allows you to put an expression in brackets [], that will be computed ...
SXSSExcelUtil
package com.numa.util; import org.apache.poi.hssf.usermodel.HSSFCell;import org.apache.poi.hssf.util ...

使用Python3.x抓取58同城（南京站）的演出票的信息

使用Python3.x抓取58同城（南京站）的演出票的信息的更多相关文章

随机推荐

热门专题