使用Python3.x抓取58同城（南京站）的演出票的信息

 #!/usr/bin/env python

 #-*-coding: utf-8 -*-

 import re

 import urllib.request as request

 from bs4 import BeautifulSoup as bs

 import csv

 import os

 import sys

 from imp import reload

 reload(sys)

 def GetAllLink():

     num = int(input("爬取多少页:>"))

     if not os.path.exists('./data/'):

         os.mkdir('./data/')

     for i in range(num):

         if i+1 == 1:

             url = 'http://nj.58.com/piao/'

             GetPage(url, i)

         else:

             url = 'http://nj.58.com/piao/pn%s/' %(i+1)

             GetPage(url, i)

 def GetPage(url, num):

     Url = url

     user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:32.0) Gecko/20100101 Firefox/32.0'

     headers = { 'User-Agent' : user_agent }

     req = request.Request(Url, headers = headers)

     page = request.urlopen(req).read().decode('utf-8')

     soup = bs(page, "html.parser")

     table = soup.table

     tag = table.find_all('tr')

     # 提取出所需的那段

     soup2 = bs(str(tag), "html.parser")

     title = soup2.find_all('a','t')         #标题与url

     price = soup2.find_all('b', 'pri')      #价格

     fixedprice = soup2.find_all('del')      #原价

     date = soup2.find_all('span','pr25')    #时间 

     atitle = []

     ahref = []

     aprice = []

     afixedprice = []

     adate = []

     for i in title:

         #print i.get_text(), i.get('href')

         atitle.append(i.get_text())

         ahref.append(i.get('href'))

     for i in price:

         #print i.get_text()

         aprice.append(i.get_text())

     for i in fixedprice:

         #print j.get_text()

         afixedprice.append(i.get_text())

     for i in date:

         #print i.get_text()

         adate.append(i.get_text())

     csvfile = open('./data/ticket_%s.csv'%num, 'w')

     writer = csv.writer(csvfile)

     writer.writerow(['标题','url','售价','原价','演出时间'])

     '''

     每个字段必有title，但是不一定有时间date

     如果没有date日期，我们就设为'---'

     '''

     if len(atitle) > len(adate):

         for i in range(len(atitle) - len(adate)):

             adate.append('---')

         for i in range(len(atitle) - len(afixedprice)):

             afixedprice.append('---')

         for i in range(len(atitle) - len(aprice)):

             aprice.append('---')

     for i in range(len(atitle)):

             message = atitle[i]+'|'+ahref[i]+'|'+aprice[i]+ '|'+afixedprice[i]+'|'+ adate[i]

             writer.writerow([i for i in str(message).split('|')])

     print ("[Result]:> 页面 %s 信息保存完毕!"%(num+1))

     csvfile.close()

 if __name__ == '__main__':

     GetAllLink()

参考地址

使用Python3.x抓取58同城（南京站）的演出票的信息的更多相关文章

python3爬虫-爬取58同城上所有城市的租房信息
from fake_useragent import UserAgent from lxml import etree import requests, os import time, re, dat ...
python3.4学习笔记(十三) 网络爬虫实例代码，使用pyspider抓取多牛投资吧里面的文章信息，抓取政府网新闻内容
python3.4学习笔记(十三) 网络爬虫实例代码,使用pyspider抓取多牛投资吧里面的文章信息PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI,采用Python语言编写 ...
使用python抓取58手机维修信息
之前在ququ的博客上看到说 python 中的BeautifulSoup 挺好玩的,今天下午果断下载下来,看了下api,挺好用的,完了2把,不错. 晚上写了一个使用python抓取58手机维修信息的 ...
利用python爬取58同城简历数据
利用python爬取58同城简历数据利用python爬取58同城简历数据最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用pyth ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
scrapy爬取58同城二手房问题与对策
测试环境: win10,单机爬取,scrapy1.5.0,python3.6.4,mongodb,Robo 3T 其他准备: 代理池:测试环境就没有用搭建的flask抓代理,因为我找到的几个免费网站有 ...
Python开发网络爬虫抓取某同城房价信息
前言: 苦逼的我从某某城市换到另一个稍微大点的某某城市,面临的第一个问题就是买房,奋斗10多年,又回到起点,废话就不多说了,看看如何设计程序把某同城上的房价数据抓取过来. 方案:方案思路很简单,先把网 ...
养只爬虫当宠物（Node.js爬虫爬取58同城租房信息）
先上一个源代码吧. https://github.com/answershuto/Rental 欢迎指导交流. 效果图搭建Node.js环境及启动服务安装node以及npm,用express模块启 ...
python3.4+pyspider爬58同城（二）
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持pyth ...

随机推荐

git 合并多个commit
1,查看提交历史,git log 首先你要知道自己想合并的是哪几个提交,可以使用git log命令来查看提交历史,假如最近4条历史如下: commit 3ca6ec340edc66df13423f36 ...
NETIF_F_LLTX 的属性
在bond初始化的时候,我们可以看到如下属性: /* don't acquire bond device's netif_tx_lock when transmitting */ bond_d ...
【剑指offer】将字符串中的空格替换成"%20"
#include <iostream> #include <string> using namespace std; char *ReplaceSpace(char *str, ...
[Apache]网站页面静态化与Apache调优（图）
---------------------------------------------------------------------------------------------------- ...
PHP脚本不报错的两点原因
-------------------------------------------------------------------------------------------------- P ...
Hibernate 再接触基础配置续
<property name="show_sql">true</property> 这句话是意思显示sql语句 <property name=&quo ...
ArcGIS案例学习笔记2_1_学校选址适宜性分析
ArcGIS案例学习笔记2_1_学校选址适宜性分析计划时间:第二天上午目的:学校选址,适宜性分析内容:栅格数据分析教程:pdf page=323 数据:chapter8/ex1/教育,生活,土 ...
ArcGIS案例学习笔记-点群密度统计
ArcGIS案例学习笔记-点群密度统计联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 目的:对于点群,统计分布密度数据: 方法: 1. 生成格网 2. 统计个数, ...
C# WCF初识
原文:http://www.cnblogs.com/artech/archive/2007/02/26/656901.html 方式1: 需引用 System.ServiceModel namespa ...
hdu3189-Just Do It-(埃氏筛+唯一分解定理)
Just Do It Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total ...

使用Python3.x抓取58同城（南京站）的演出票的信息

使用Python3.x抓取58同城（南京站）的演出票的信息的更多相关文章

随机推荐

热门专题