伯乐在线资讯URL
- 伯乐资讯URL
 # encoding: utf-8
import requests
from bs4 import BeautifulSoup
import csv
import time base_url = 'http://top.jobbole.com/page/' session = requests.session()
inum=0 def zhuqu(page):
url_list = []
url = base_url+str(page)+"/"
# print(url)
res = session.get(url=url)
soup = BeautifulSoup(res.text, 'html.parser') post_nodes = soup.select(".list-posts .media .media-body h3 a") for post_node in post_nodes:
post_url = post_node.get("href")
url_list.append([post_url])
# i+=1
# print(i,post_url)
print(url_list)
return url_list
# zhuqu(2) with open("伯乐资讯", 'w', newline="", encoding='utf-8') as csv_out:
writer = csv.writer(csv_out)
for i in range(355):
if i%10==0:
time.sleep(1)
row =zhuqu(i)
if not row:
print("有错误")
continue
else:
writer.writerows(row)
print(inum,"成功")
inum+=1代码如上
- 问题:把广告也抓进来了,不知道怎么用css选择来避免抓取这种情况,懂的朋友给提示下。
 
伯乐在线资讯URL的更多相关文章
- 伯乐在线文章URL
		
一段代码,可以跑出所有文章的url # encoding: utf-8 import requests from bs4 import BeautifulSoup base_url = 'http:/ ...
 - 【伯乐在线】最值得阅读学习的 10 个 C 语言开源项目代码
		
原文出处: 平凡之路的博客 欢迎分享原创到伯乐头条 伯乐在线注:『阅读优秀代码是提高开发人员修为的一种捷径』http://t.cn/S4RGEz .之前@伯乐头条 曾发过一条微博:『C 语言进阶有 ...
 - 爬虫实战——Scrapy爬取伯乐在线所有文章
		
Scrapy简单介绍及爬取伯乐在线所有文章 一.简说安装相关环境及依赖包 1.安装Python(2或3都行,我这里用的是3) 2.虚拟环境搭建: 依赖包:virtualenv,virtualenvwr ...
 - python爬虫scrapy框架——爬取伯乐在线网站文章
		
一.前言 1. scrapy依赖包: 二.创建工程 1. 创建scrapy工程: scrapy staratproject ArticleSpider 2. 开始(创建)新的爬虫: cd Artic ...
 - Scrapy分布式爬虫打造搜索引擎- (二)伯乐在线爬取所有文章
		
二.伯乐在线爬取所有文章 1. 初始化文件目录 基础环境 python 3.6.5 JetBrains PyCharm 2018.1 mysql+navicat 为了便于日后的部署:我们开发使用了虚拟 ...
 - 初识Scrapy——1—scrapy简单学习,伯乐在线实战、json数据保存
		
Scrapy——1 目录 什么是Scrapy框架? Scrapy的安装 Scrapy的运行流程 Scrapy的使用 实战:伯乐在线案例(json文件保存) 什么是Scrapy框架? Scrapy是用纯 ...
 - Scrapy爬取伯乐在线的所有文章
		
本篇文章将从搭建虚拟环境开始,爬取伯乐在线上的所有文章的数据. 搭建虚拟环境之前需要配置环境变量,该环境变量的变量值为虚拟环境的存放目录 1. 配置环境变量 2.创建虚拟环境 用mkvirtualen ...
 - 我常用的 Python 调试工具 - 博客 - 伯乐在线
		
.ckrating_highly_rated {background-color:#FFFFCC !important;} .ckrating_poorly_rated {opacity:0.6;fi ...
 - python爬虫实战(七)--------伯乐在线文章(模版)
		
相关代码已经修改调试成功----2017-4-21 一.说明 1.目标网址:伯乐在线 2.实现:如图字段的爬取 3.数据:存放在百度网盘,有需要的可以拿取 链接:http://pan.baidu.co ...
 
随机推荐
- 我的Android进阶之旅------>HTTP Content-type 对照表
			
HTTP Content-type 对照表 文件扩展名 Content-Type(Mime-Type) 文件扩展名 Content-Type(Mime-Type) .*( 二进制流, 不知道下载文件类 ...
 - samba了解
			
1. samba是一个网络服务器,用于Linux和Windows之间共享文件 2,amba服务的启动.停止.重启 service smb start|stop|restart3. 掌握samba ...
 - unknown encoder libvpx
			
brew install ffmpeg --with-libvpx or brew reinstall ffmpeg --with-libvpx
 - JSP页面传递参数乱码问题整理
			
1.JSP页面之间传递中文参数乱码 (1).a.jsp中正常传递参数,b.jsp 中 <% String projectName = new String(request.getParamete ...
 - Hibernate学习---关联关系映射
			
关联关系是用到的最多的一种关系,非常重要,在内存中反映为实体关系,映射到DB中主键外键关系,实体间的关联,即对外键的维护,关联关系的发生,即对外键数据的改变. 在这里就不赘述什么是外键什么是主键了. ...
 - echarts3.8.4实现城市空气质量(结合百度地图bmap.js,小航哥)
			
(小航哥自己实现的)为了事先地图效果,需要以下准备: 用百度地图作为地图,需要 1.bmap.min.js(下载地址https://github.com/ecomfe/echarts ,GitHub上 ...
 - Python学习进程(9)序列
			
序列是Python中最基本的数据结构. (1)序列简介: 序列中的每个元素都分配一个数字标明它的位置或索引,第一个索引是0,第二个索引是1,依此类推.序列都可以进行的操作包括索引,切片,加,乘 ...
 - 在freescale mx6q平台上添加spi资源
			
1:配置管脚为SPI功能 在board-mx6q_sabresd.h的最后添加,复制被重定义 (以添加SPI2为例) <span style="font-size:18px;" ...
 - 20145231 《Java程序设计》第一次实验
			
实验一 Java开发环境的熟悉(Windows+IDEA) 实验内容 使用JDK编译.运行简单的Java程序: 使用IDEA编辑.编译.运行.调试java程序: 实验知识点 JVM.JRE.JDK的安 ...
 - Android LCD(二):常用接口原理篇【转】
			
本文转载自:http://blog.csdn.net/xubin341719/article/details/9125799 关键词:Android LCD TFT TTL(RGB) LVDS E ...