python爬虫前程无忧网页抓取

Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门

https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6EmUbbW&id=564564604865

抓取网址：

重医附一院

http://www.hospital-cqmu.com/index.php?file=job&smid=6&page=1

重医附二院
http://www.sahcqmu.com/a/rencaizhaopin/

西南医院
http://web.xnyy.cn/elite/info_list.aspx?type_id=4

大坪医院

http://www.dph-fsi.com/zl/rczp/fl.asp?type_id=6

拜耳
http://jobs.51job.com/all/co100411.html#syzw

gsk
http://jobs.51job.com/all/co2141156.html#syzw

http://jobs.51job.com/all/co2835582.html?#syzw

http://jobs.51job.com/all/co3838952.html?#syzw

http://www.gsk-china.com/cn-cn/careers/hot/

正大天晴
http://jobs.51job.com/all/co198308.html

gilead
https://gilead.avature.net/careers/SearchJobs/China%7C%7CShanghai/

# -*- coding: utf-8 -*-

"""

Created on Sun Mar 20 09:24:28 2016

@author: daxiong

"""

import requests,bs4,openpyxl,time

from openpyxl.cell import get_column_letter,column_index_from_string

charset="gb2312"

site="http://jobs.51job.com/all/co198308.html"

res=requests.get(site)

res.encoding = charset

soup1=bs4.BeautifulSoup(res.text,"lxml")

group=soup1.select('.el')

group2=group[1]

group2.getText()

'''\n孝感医药代表（学术专员）\n大专\n南京-玄武区\n6000-7999/月\n03-18\n'''

text=group2.getText()

text.split('\n')

'''['', '孝感医药代表（学术专员）', '大专', '南京-玄武区', '6000-7999/月', '03-18', '']'''            

group1=group[0]

text1=group1.getText()

text1.split('\n')

'''['', '孝感医药代表（学术专员）', '', '南京-玄武区', '6000-7999/月', '03-18', '']'''

python爬虫前程无忧网页抓取的更多相关文章

如何让Python爬虫一天抓取100万张网页
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 王平源自:猿人学Python PS:如有需要Python学习资料的 ...
python网络爬虫-动态网页抓取（五）
动态抓取的实例在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...
python网络爬虫-静态网页抓取（四）
静态网页抓取在网站设计中,纯HTML格式的网页通常被称之为静态网页,在网络爬虫中静态网页的数据比较容易抓取,因为说有的数据都呈现在网页的HTML代码中.相对而言使用Ajax动态加载的玩个的数据不一定 ...
Python selenium自动化网页抓取器
(开开心心每一天~ ---虫瘾师) 直接入正题---Python selenium自动控制浏览器对网页的数据进行抓取,其中包含按钮点击.跳转页面.搜索框的输入.页面的价值数据存储.mongodb自动i ...
芝麻HTTP：Python爬虫实战之抓取爱问知识人问题并保存至数据库
本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表达式的简 ...
【Python爬虫基础】抓取知乎页面所有图片
抓取地址所有图片 #! /usr/bin/env python from urlparse import urlsplit from os.path import basename import ur ...
Python爬虫之一 PySpider 抓取淘宝MM的个人信息和图片
ySpider 是一个非常方便并且功能强大的爬虫框架,支持多线程爬取.JS动态解析,提供了可操作界面.出错重试.定时爬取等等的功能,使用非常人性化. 本篇通过做一个PySpider 项目,来理解 Py ...
芝麻HTTP：Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL ...
【Python爬虫程序】抓取MM131美女图片，并将这些图片下载到本地指定文件夹。
一.项目名称抓取MM131美女写真图片,并将这些图片下载到本地指定文件夹. 共有6种类型的美女图片: 性感美女清纯美眉美女校花性感车模旗袍美女明星写真抓取后的效果图如下,每个图集是一个独 ...

随机推荐

Xcode自动选择证书
从xcode3时代习惯了手动选择证书,即 Provisioning Profile和 Code Signing Identify. 而随着团队扩大,应用量增多,需要管理的证书也越来越多,每次从长长的l ...
ThinkCMF项目部署出现无法加载数据库驱动解决方案
最近有个TP项目刚从从本地部署到阿里云服务器上,出现了无法加载数据库驱动的错误,提示 :( 无法加载数据库驱动: Think\Db\Driver 这里分享一下出现该错误的解决步骤: 首先记得项目部署到 ...
SpringMvc配置扫包之后，访问路径404问题解决
场景: 1. 配置了Spring和SpringMvc, Spring管理非Controller类的Bean, SpringMvc管理涉及的Controller类 2. web.xml已经配置了Spri ...
CentOS7 截图
https://blog.csdn.net/downing114/article/details/51433862 https://blog.csdn.net/lotluck/article/deta ...
开源的CAS实现SSO
https://www.ibm.com/developerworks/cn/opensource/os-cn-cas/index.html ISC是基于CAS定制的,使用的高级的代理模式. https ...
MySql绿色版安装配置
首先从官网下载MySQL的安装文件:http://dev.mysql.com/downloads/file.php?id=456318(直接选择No thanks, just start my dow ...
使用DataContext和ItemsSource将数据源绑定到ListView上的区别
在最近的一个项目中,将DataView类型的数据源绑定到ListView控件时,发现当DataView的内容发生变化时,前台的ListView控件的内容并没有发生改变,在这里我先贴出前台要绑定数据源的 ...
Codeforces 1103 E. Radix sum
题目链接神题. 题意:给定一个长度为\(10^5\)的幂级数\(a\),将卷积的下标运算定义为十进制下的不进位加法,求\(a^k\)模\(2^{58}\)的结果.\(k\leq 10^9\). 题解 ...
BZOJ1299[LLH邀请赛]巧克力棒——Nim游戏+搜索
题目描述 TBL和X用巧克力棒玩游戏.每次一人可以从盒子里取出若干条巧克力棒,或是将一根取出的巧克力棒吃掉正整数长度.TBL先手两人轮流,无法操作的人输. 他们以最佳策略一共进行了10轮(每次一盒). ...
BZOJ4555 HEOI2016/TJOI2016求和（NTT+斯特林数）
S(i,j)=Σ(-1)j-k(1/j!)·C(j,k)·ki=Σ(-1)j-k·ki/k!/(j-k)!.原式=ΣΣ(-1)j-k·ki·2j·j!/k!/(j-k)! (i,j=0~n).可以发现 ...

python爬虫 前程无忧网页抓取

python爬虫 前程无忧网页抓取的更多相关文章

随机推荐

热门专题

python爬虫前程无忧网页抓取

python爬虫前程无忧网页抓取的更多相关文章