Python爬虫:爬取自己博客的主页的标题,链接,和发布时间
##代码
# -*- coding: utf-8 -*-
"""
-------------------------------------------------
File Name: getCnblogs
Description :
Author : 神秘藏宝室
date: 2017-09-21
-------------------------------------------------
Change Activity:
2017-09-21:
-------------------------------------------------
"""
import requests
from bs4 import BeautifulSoup
res = requests.get('http://www.cnblogs.com/Mysterious/')
res.encoding = ('utf-8')
soup = BeautifulSoup(res.text,'html.parser')
def getBlogWriteTime(url):
res = requests.get(url)
res.encoding = ('utf-8')
soup = BeautifulSoup(res.text,'html.parser')
return soup.select('#post-date')[0].text
#获取标题和链接
num = 1
for pt in soup.select('.postTitle2'):
print num,'\t',pt.text,'\t',pt['href'],'\t',getBlogWriteTime(pt['href'])
num = num + 1
##结果
1 Python爬虫:获取新浪网新闻 http://www.cnblogs.com/Mysterious/p/7538833.html 2017-09-18 00:10
2 运行jupyter notebook 出错 Error executing Jupyter command 'notebook' http://www.cnblogs.com/Mysterious/p/7538169.html 2017-09-17 22:10
3 安装和使用jupyter http://www.cnblogs.com/Mysterious/p/7533607.html 2017-09-17 00:25
4 windows下python调用c文件流程 http://www.cnblogs.com/Mysterious/p/7529228.html 2017-09-16 00:01
5 python Unable to find vcvarsall.bat 错误 http://www.cnblogs.com/Mysterious/p/7529142.html 2017-09-15 23:30
6 阿里云公网IP不能使用 http://www.cnblogs.com/Mysterious/p/7523618.html 2017-09-14 22:36
7 Python2 socket TCPServer 多线程并发 超时关闭 http://www.cnblogs.com/Mysterious/p/7523559.html 2017-09-14 22:27
8 Python2 socket 多线程并发 ThreadingTCPServer Demo http://www.cnblogs.com/Mysterious/p/7507314.html 2017-09-11 21:50
9 Python2 socket 多线程并发 TCPServer Demo http://www.cnblogs.com/Mysterious/p/7507221.html 2017-09-11 21:28
10 Python socket TCPServer Demo http://www.cnblogs.com/Mysterious/p/7507042.html 2017-09-11 20:59
Python爬虫:爬取自己博客的主页的标题,链接,和发布时间的更多相关文章
- python 爬虫 爬取序列博客文章列表
python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ # 根据URL获取内容并解码为UTF-8 def g ...
- Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够 保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
- windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
- Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取 ...
- python爬虫爬取内容中,-xa0,-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
- python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
- Python爬虫简单实现CSDN博客文章标题列表
Python爬虫简单实现CSDN博客文章标题列表 操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据 封装接口函数,实现函数调用. 1.分析接口 打开Chrome浏览器,开启开发者工具(F1 ...
- 用Python爬虫爬取广州大学教务系统的成绩(内网访问)
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
- Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理 源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
随机推荐
- 分享我们必须知道的高速GTX技术
eSATA接口只有几根线为什么那么快?连上网线显示的1Gbps是不是很令人兴奋!没错他们都用了高速GTX技术,GTX全称为Gigabit Transceiver,是为了满足现代数字处理技术和计算技术庞 ...
- 基于Python3 + OpenCV3.3.1的远程监控程序
基于Python3 + OpenCV3.3.1的远程监控程序 一.环境配置 OpenCV是一个基于(开源)发行的跨平台计算机视觉库,利用OpenCV能够实现视频图像的捕获. 关于python3中Ope ...
- github使用和推送到服务器端。。。
Alan Alan -- :: 第二节:创建一个仓库(Create A Repo Repositories) 直接在自己的登录后进入 github.com 首页就可以看到, 下面一栏有四步.用来创建 ...
- 【Mac + Appium学习(一)】之安装Appium环境前提准备
环境: Appium version :1.9.1 Appium-desktop:1.7.1 Xcode:10.0 IOS:iPhone5S(10.3.3) Android:6.0.1 Mac:10. ...
- 通过Get方式传递数据
1:因为get传参数有个特点就是不能超过256字节.如果数据大的话会溢出. 解决办法: $data=json_encode($data_array); 然后在拼接超链接: <a href=&qu ...
- UFLDL深度学习笔记 (一)反向传播与稀疏自编码
UFLDL深度学习笔记 (一)基本知识与稀疏自编码 前言 近来正在系统研究一下深度学习,作为新入门者,为了更好地理解.交流,准备把学习过程总结记录下来.最开始的规划是先学习理论推导:然后学习一两种开源 ...
- Servlet 发送电子邮件
使用 Servlet 发送一封电子邮件是很简单的,但首先您必须在您的计算机上安装 JavaMail API 和 Java Activation Framework)JAF). 您可以从 Java 网站 ...
- Struts2开发者模式
在Struts2开发中,这应该是第一个学习配置的值.为了启用 Struts 2 的开发模式,可以通过自动配置显著增加Struts2的开发速度和属性文件加载,以及额外的日志和调试功能. 注:自动重新加载 ...
- python多线程爬虫:亚马逊价格
import re import requests import threading import time from time import ctime,sleep from queue impor ...
- 如何通过PHP判断年份是否是闰年----两种方法
1.定义:闰年是对4取余为0,对100取余不等于0,对400取余等于0的年是闰年. 2.代码: 第一种方法:直接函数判断 $day = date('Y'); if ($day%4==0&&am ...