网络爬虫-python-爬取天涯求职贴

使用urllib请求页面，使用BeautifulSoup解析页面，使用xlwt3写入Excel

import urllib.request

from bs4 import BeautifulSoup

import time

import xlwt3

from xlrd import open_workbook

wExcel=xlwt3.Workbook()

sheet1=wExcel.add_sheet('my',cell_overwrite_ok=True)

num=0

fo=open(r'contents.txt','a',encoding='utf-8')

def getconten(url):

    opener = urllib.request.build_opener()

    try:

        content = opener.open(url).read()

        content2=content.decode('utf-8')

    except:

        try:

            content = opener.open(url).read()

            content2=content.decode('gbk')

        except:

            print('decode fail!')

            return None

        return None

    return content2

def getdetail(url):

    opener = urllib.request.build_opener()

    con=getconten(url)

##    print(url)

    if con:

        soup=BeautifulSoup(con)

        job=soup.find('div','bbs-content clearfix')

        if job:

            jobdetail=job.get_text()

            return jobdetail

    else:

        return None

def getonepage(url):

    global num

    opener = urllib.request.build_opener()

    content=getconten(url)

    if content:

        soup=BeautifulSoup(content)

    for tr in soup.find_all('tr','bg'):

        oneitem=[]

        j=0

        detailurl=tr.td.a['href']

        detailurl='http://bbs.tianya.cn'+detailurl

##        print(detailurl)

        detailcon=getdetail(detailurl)

##        print(detailcon)

        for item in tr.strings:

            item=item.strip()

            if item:

                oneitem.append(item)

                sheet1.write(num,j,item)

                j=j+1

##            print(item.strip())

        sheet1.write(num,j,detailcon)

        num=num+1

##        print('one is ok')

if __name__=='__main__':

    mainpage='http://bbs.tianya.cn/list.jsp?item=763&sub=2'

    getonepage(mainpage)

    wExcel.save('res0.xls')

    i=0

    soup=BeautifulSoup(getconten(mainpage))

    currentpage=soup.find('div','links').a.find_next_sibling('a')

    currentpage='http://bbs.tianya.cn'+currentpage['href']

    nextpage=currentpage

    while i<30:

        print(nextpage)

        getonepage(nextpage)

        print('one page finished!')

        con=getconten(nextpage)

        if con:

            soup=BeautifulSoup(con)

            currentpage=soup.find('div','links').a.find_next_sibling('a').find_next_sibling('a')

            nextpage='http://bbs.tianya.cn'+currentpage['href']

            i=i+1

        else:

            break

    wExcel.save('res.xls')

网络爬虫-python-爬取天涯求职贴的更多相关文章

python网络爬虫《爬取get请求的页面数据》
一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在python3中的为urllib.request和urllib. ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
Python网络爬虫 | Scrapy爬取妹子图网站全站照片
根据现有的知识,写了一个下载妹子图(meizitu.com)Scrapy脚本,把全站两万多张照片下载到了本地. 网站的分析网页的网址分析打开网站,发现网页的网址都是以 http://www.mei ...
python3编写网络爬虫19-app爬取
一.app爬取前面都是介绍爬取Web网页的内容,随着移动互联网的发展,越来越多的企业并没有提供Web页面端的服务,而是直接开发了App,更多信息都是通过App展示的 App爬取相比Web端更加容易 ...
零基础爬虫----python爬取豆瓣电影top250的信息（转）
今天利用xpath写了一个小爬虫,比较适合一些爬虫新手来学习.话不多说,开始今天的正题,我会利用一个案例来介绍下xpath如何对网页进行解析的,以及如何对信息进行提取的. python环境:pytho ...
【Python爬虫案例学习】Python爬取天涯论坛评论
用到的包有requests - BeautSoup 我爬的是天涯论坛的财经论坛:'http://bbs.tianya.cn/list.jsp?item=develop' 它里面的其中的一个帖子的URL ...
复仇者联盟3热映，我用python爬取影评告诉你它都在讲什么
Python(发音:英[?pa?θ?n],美[?pa?θɑ:n]),是一种面向对象.直译式电脑编程语言,也是一种功能强大的通用型语言,已经具有近二十年的发展历史,成熟且稳定.它包含了一组完善而且容易理 ...
python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...

随机推荐

攻防世界杂项 6.pure_color
图片隐写工具使用StegSolve一把梭另一种解法右击图片编辑,画图工具打开,属性设置黑白.
IdentityServer4 负载均衡配置
在不用到负载之前,一切都很好,但是部署多个实例之后,问题挺多的:session问题.令牌签发后的校验问题. 在此之前,先自查官方文档:Deployment - IdentityServer4 1.0. ...
HTML+CSS基础(HTML篇)
引言在日常开发Android中,很多时候会遇到和WebView打交道,对CSS HTML JS不是很清楚的话是完不成一些功能的,本篇开始学习HTML,文章的主要内容是总结了慕课网中,HTML+CSS ...
Bzoj通过5题纪念
我A了五题啦!!!
linux 内核源代码情景分析——linux 内核源代码中的C语言代码
linux 内核的主体是以GNU的C语言编写的,GNU为此提供了编译工具gcc.GNU对C语言本身作了不少扩充. 1) gcc 从 C++ 语言中吸收了"inline"和" ...
Oracle 扩容表空间
system用户登陆oracle https://blog.csdn.net/zyingpei/article/details/88870693 首先查看表空间对应的数据文件位置以及大小 select ...
lumen、laravel问题汇总
框架报500 1.chmod 777 -R storage 将日志目录权限设置下. 2.修改fastcgi,将代码目录包含进去. fastcgi_param PHP_ADMIN_VALUE " ...
【接口】HttpClient 处理get和post请求(二)（2019-07-14 18:41）
一.环境准备 1.导入httpClient依赖包 <dependency> <groupId>org.apache.httpcomponents</groupId> ...
Mac卸载go
1.删除go目录一般目录是 /usr/local/go sudo rm -rf /usr/local/go 2.清除环境变量配置 3. mac安装go后自动创建的问题也需要删除 sudo rm -r ...
聊一聊声明式接口调用与Nacos的结合使用
背景对于公司内部的 API 接口,在引入注册中心之后,免不了会用上服务发现这个东西. 现在比较流行的接口调用方式应该是基于声明式接口的调用,它使得开发变得更加简化和快捷. .NET 在声明式接口调用 ...

网络爬虫-python-爬取天涯求职贴

网络爬虫-python-爬取天涯求职贴的更多相关文章

随机推荐

热门专题