Python爬虫（八）

源码：

 import requests

 import re

 from my_mysql import MysqlConnect

 import time,random

 # 获取招聘详情链接

 def get_urls(page, headers):

     url = 'https://hr.tencent.com/position.php?lid=&tid=&keywords=python&start=page'.format(page)

     response = requests.get(url, headers=headers)

     pat = r'href="(position_detail.*?)">'

     url_list_bytes = re.findall(pat.encode('utf-8'), response.content)

     return url_list_bytes

 # 获取招聘详情

 def get_info(url, headers):

     response = requests.get(url, headers=headers)

     html_bytes = response.content

     # print(html_bytes)

     # title 标题

     pat = r'id="sharetitle">(.*?)</td>'

     res = re.search(pat.encode('utf-8'), html_bytes)

     title = res.group(1).decode('utf-8')

     # address 地点

     pat = r'工作地点：</span>(.*?)</td>'

     res = re.search(pat.encode('utf-8'), html_bytes)

     address = res.group(1).decode('utf-8')

     # types 类别

     pat = r'职位类别：</span>(.*?)</td>'

     res = re.search(pat.encode('utf-8'), html_bytes)

     types = res.group(1).decode('utf-8')

     # counts 人数

     pat = r'招聘人数：</span>(.*?)</td>'

     res = re.search(pat.encode('utf-8'), html_bytes)

     counts = res.group(1).decode('utf-8')

     # duty 职责

     pat = r'工作职责.*?<ul class="squareli">(.*?)</ul>'

     res = re.search(pat.encode('utf-8'), html_bytes)

     duty_str = res.group(1).decode('utf-8')

     pat = r'<li>(.*?)</li>'

     duty = re.findall(pat,duty_str)

     duty = ('\n').join(duty)

     # requires 要求

     pat = r'工作要求.*?<ul class="squareli">(.*?)</ul>'

     res = re.search(pat.encode('utf-8'), html_bytes)

     requires_str = res.group(1).decode('utf-8')

     pat = r'<li>(.*?)</li>'

     requires = re.findall(pat, requires_str)

     requires = ('\n').join(requires)

     return title,address,types,counts,duty,requires

 if __name__ == '__main__':

     mc = MysqlConnect('127.0.0.1','root','','homework')

     sql = "insert into tencentzp(title,address,types,counts,duty,requires) values(%s,%s,%s,%s,%s,%s)"

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

     }

     for page in range(0,200,10):

         url_list_bytes = get_urls(page,headers)

         # print(url_list_bytes)

         for url in url_list_bytes:

             # print(url.decode('utf-8'))

             url = 'https://hr.tencent.com/' + url.decode('utf-8')

             info = get_info(url,headers)

             print(info)

             mc.exec_data(sql,info)

             time.sleep(random.random()*5)

Python爬虫（八）的更多相关文章

Python爬虫(八)_Requests的使用
Requests:让HTTP服务人类虽然Python的标准库中urllib2模块中已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好,而Requests自称"HTTP ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10 (完整学习过程屏幕记录视频地址在文末) 原计划今天应当可以解决读取所有页的目录并转而取出所有新闻的功能,不过由于学习时间不够,只是进 ...
Python爬虫之selenium的使用（八）
Python爬虫之selenium的使用一.简介二.安装三.使用一.简介 Selenium 是自动化测试工具.它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏 ...
Python 爬虫从入门到进阶之路（八）
在之前的文章中我们介绍了一下 requests 模块,今天我们再来看一下 Python 爬虫中的正则表达的使用和 re 模块. 实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网 ...
小白学 Python 爬虫（41）：爬虫框架 Scrapy 入门基础（八）对接 Splash 实战
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
python爬虫Scrapy(一)-我爬了boss数据
一.概述学习python有一段时间了,最近了解了下Python的入门爬虫框架Scrapy,参考了文章Python爬虫框架Scrapy入门.本篇文章属于初学经验记录,比较简单,适合刚学习爬虫的小伙伴. ...
Python爬虫（1）：基础知识
爬虫基础知识一.什么是爬虫? 向网站发起请求,获取资源后分析并提取有用数据的程序. 二.爬虫的基本流程 1.发起请求 2.获取内容 3.解析内容 4.保存数据三.Request和Response ...
Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫与数据分析之模块：内置模块、开源模块、自定义模块
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

随机推荐

OGNL表达式中的#、%和$
$是el表达式 % #是ognl表达式. http://devilkirin.iteye.com/blog/427375 OGNL表达式非常强大-其中#.%.$这三个符号在OGNL表达式中经常出现 ...
一招破解混淆后的JavaScript代码
http://www.cnblogs.com/zjyuan/archive/2011/12/14/2287647.html JavaScript不是很给力,想怎么破解就怎么破解!此文章教你的不仅仅是破 ...
HTML5 学习笔记应用程序缓存
使用html5 通过创建cache manifest文件,可以轻松地创建web应用的离线版本. html5引入了应用程序缓存,这意味着web应用可进行缓存,并可在没有因特网连接时进行访问. 应用程序缓 ...
FFmpeg音视频同步示例
原文地址:https://my.oschina.net/u/555002/blog/79324 前面整个的一段时间,我们有了一个几乎无用的电影播放器.当然,它能播放视频,也能播放音频,但是它还不能被称 ...
ArcGIS 10 安装程序及破解文件
1.下载 ArcGIS 10 安装程序及破解文件后面提供电驴的下载地址(可以使用迅雷.QQ旋风等下载工具下载),下载文件是一个光盘镜像文件:‍ArcGIS_Desktop10_122519.iso. ...
SDK Manager 闪退的解决方式
打开电脑的执行也就是win+R键然后在命令行里面打上android即可了
windows下MongoDB的安装，配置与开机自启动
关于简介不多说百度去吧少年.. MongoDB详细安装: 1.进入官网,点击DOWNLOAD MONGODB,下载所需要的版本.. 我这里把下载的文件放在d\MongoDB文件夹下,点击下载的官方镜像 ...
CentOS 5.5 下修改Apache默认端口80
打开 /etc/httpd/conf/httpd.conf 文件修改两个地方 #Listen 12.34.56.78:80 Listen 80 #把80改为你设置的端口,我设置端 ...
ubuntu更新出错--Could not get lock /var/lib/dpkg/lock
ubuntu在vps上安装好后,通常第一个命令是更新系统软件.然而在运行的过程中,却出现这样的错误: E: Could not get lock /var/lib/dpkg/lock - open ( ...
在编写JSP的时候出现XXX cannot be resolved to a type
今天遇到这个情况,却发现是eclipse抽风,说javax.servlet.http.Cookie找不到定义,但是经过浏览器测试,可以运行,而JSP源文件中eclipse死活要报错.表示无语. 关于e ...

Python爬虫（八）

Python爬虫（八）的更多相关文章

随机推荐

热门专题