pyhton 爬虫爬去吾爱精品软件的信息并写入excel

2018的最后一天了,感觉今年有得有失,这里就不再浪费时间了,愿2019万事如意

之前的爬虫信息下载后只写入txt文档,想到了以后工作加入有特殊需求,趁放假有时间将这写数据写入excel表格

以吾爱精品软件去为例,代码如下:

# -*- coding: utf-8 -*-

import json,xlwt

import os

import requests

from lxml import etree

class Wuai(object):

def __init__(self):

self.url= "https://www.52pojie.cn/forum-16-{}.html"

self.headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.5.0.17997'}

self.files = open("wuai.txt","wb")

self.start=0

def get_data(self,url):

response = requests.get(url)

return response.text

def xml_data(self,data):

html = etree.HTML(data)

mes = html.xpath("//table[@summary='forum_16']")

name=['类型','标题','时间']

f=xlwt.Workbook()

sheet1 = f.add_sheet("无爱",cell_overwrite_ok=True)

for x in range(0,len(name)):

sheet1.write(0,x,name[x])

for i in mes:

type = i.xpath(".//tr/th/em/a/text()")

if type == [] or type==None:

continue

title= i.xpath(".//tr/th/a[@class='s xst']/text()") if len(i.xpath(".//tr/th/a[@class='s xst']/text()"))>0 else None

time = i.xpath(".//tr/td[@class='by']/em/span/text()") if len(i.xpath(".//tr/td[@class='by']/em/span/text()"))>0 else None

for y in range(0,len(type)):

sheet1.write(y+1,0,type[y])

for n in range(0,len(title)):

sheet1.write(n+1,1,title[n])

for n in range(0,len(time)):

sheet1.write(n+1,2,time[n])

f.save("1.xls")

# info = json.dumps(dict,ensure_ascii=False) +"\n"

# info1 = info.encode()

# self.files.write(info1)

# if not len(i.xpath("//a[@class='nxt']")):

# break

# else:

# next_url = "https://www.52pojie.cn/"+i.xpath("//a[@class='nxt]/@href")[0]

# self.get_data(next_url)

def run(self):

while True:

url = self.url.format(self.start)

data = self.get_data(url)

if data == []:

break

else:

self.xml_data(data)

if self.start ==5:

break

else:

self.start+=1

if __name__ == '__main__':

wuai = Wuai()

wuai.run()

pyhton 爬虫爬去吾爱精品软件的信息并写入excel的更多相关文章

利用BeautifulSoup爬去我爱我家的租房数据
因为之前对BeautifulSoup一直不是很熟悉,刚好身边的朋友同事在找房子,就想着能不能自己写个爬虫爬一下数据,因此就写了这个爬虫.基本都是边看书边写的,不过也没什么好讲的.直接粘代码了. # c ...
Python爬虫学习(二) ——————爬取前程无忧招聘信息并写入excel
作为一名Pythoner,相信大家对Python的就业前景或多或少会有一些关注.索性我们就写一个爬虫去获取一些我们需要的信息,今天我们要爬取的是前程无忧!说干就干!进入到前程无忧的官网,输入关键字&q ...
Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
Python网络爬虫 - 爬取中证网银行相关信息
最终版:07_中证网(Plus -Pro).py # coding=utf-8 import requests from bs4 import BeautifulSoup import io impo ...
Python网络爬虫之cookie处理、验证码识别、代理ip、基于线程池的数据爬去
本文概要 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时, ...
利用python的爬虫技术爬去糗事百科的段子
初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页技术实现:基于python的实现, ...
用python爬虫爬取去哪儿4500个热门景点，看看国庆不能去哪儿
前言:本文建议有一定Python基础和前端(html,js)基础的盆友阅读. 金秋九月,丹桂飘香,在这秋高气爽,阳光灿烂的收获季节里,我们送走了一个个暑假余额耗尽哭着走向校园的孩籽们,又即将迎来一年一 ...
Java基础-爬虫实战之爬去校花网网站内容
Java基础-爬虫实战之爬去校花网网站内容作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 爬虫这个实现点我压根就没有把它当做重点,也没打算做网络爬虫工程师,说起爬虫我更喜欢用Pyt ...
Python学习之路（五）爬虫（四）正则表示式爬去名言网
爬虫的四个主要步骤明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 什么是正则表达式 ...

随机推荐

PHP优化——从语言到业务
经常有人说php速度慢,其实语言层面的速度差异和实际的业务相比,不在一个数量级. 业务的瓶颈往往在于io,而不是CPU. 0x0 语言语法单引号和双引号单引号不解析字符串里的变量,而双引号会解析 ...
Spring Security 指定登陆入口
spring security除通过form-login的熟悉指定登陆还可以通过entry-point-ref 指定登陆入口.具体配置如下: <?xml version="1.0&qu ...
SQL 逗号分隔将一行拆成多行
and number<=len(a.KOrderID) and type=)=',')
【代码审计】XYHCMS V3.5任意文件删除漏洞分析
0x00 环境准备 XYHCMS官网:http://www.xyhcms.com/ 网站源码版本:XYHCMS V3.5(2017-12-04 更新) 程序源码下载:http://www.xyhc ...
iOS - UIAlertController三种显示提示框代码
UIAlertView在IOS 8以上版本已经过时了,官方推荐我们使用UIAlertController代替UIAlertView.UIActionSheet 1､UIAlertController显 ...
配置nginx实现windows/iis应用负载均衡
nginx是俄罗斯人开发的一款跨平台的高性能HTTP和反向代理服务器,可以利用它实现web应用服务器的负载均衡. 反向代理是指将用户请求通过代理服务器转发给后端内部网络的应用服务器,典型的应用比如配置 ...
kafka+zookeeper环境配置（linux环境单机版）
版本: CentOS-6.5-x86_64 zookeeper-3.4.6 kafka_2.10-0.10.1.0 一.zookeeper下载与安装 1)下载 $ wget http://mirror ...
[转]Java中一周前一个月前时间计算方法
Java中一周前一个月前时间计算方法在java语言中,用如下方法获取系统时间: Date date = new Date(); String year=new SimpleDateFormat(&q ...
TCP通信粘包问题分析和解决
转载至https://www.cnblogs.com/kex1n/p/6502002.html 在socket网络程序中,TCP和UDP分别是面向连接和非面向连接的.因此TCP的socket编程,收发 ...
js 去掉花括号
"asd {{name}} {{age}}".replace(/{{(.*?)}}/g,'$1'); // "asd name age" "asd { ...

pyhton 爬虫爬去吾爱精品软件的信息并写入excel

pyhton 爬虫爬去吾爱精品软件的信息并写入excel的更多相关文章

随机推荐

热门专题