##代码

# -*- coding: utf-8 -*-
"""
-------------------------------------------------
File Name: getCnblogs
Description :
Author : 神秘藏宝室
date: 2017-09-21
-------------------------------------------------
Change Activity:
2017-09-21:
-------------------------------------------------
"""
import requests
from bs4 import BeautifulSoup res = requests.get('http://www.cnblogs.com/Mysterious/')
res.encoding = ('utf-8') soup = BeautifulSoup(res.text,'html.parser') def getBlogWriteTime(url):
res = requests.get(url)
res.encoding = ('utf-8')
soup = BeautifulSoup(res.text,'html.parser')
return soup.select('#post-date')[0].text #获取标题和链接
num = 1
for pt in soup.select('.postTitle2'):
print num,'\t',pt.text,'\t',pt['href'],'\t',getBlogWriteTime(pt['href'])
num = num + 1

##结果

1 	Python爬虫:获取新浪网新闻 	http://www.cnblogs.com/Mysterious/p/7538833.html 	2017-09-18 00:10
2 运行jupyter notebook 出错 Error executing Jupyter command 'notebook' http://www.cnblogs.com/Mysterious/p/7538169.html 2017-09-17 22:10
3 安装和使用jupyter http://www.cnblogs.com/Mysterious/p/7533607.html 2017-09-17 00:25
4 windows下python调用c文件流程 http://www.cnblogs.com/Mysterious/p/7529228.html 2017-09-16 00:01
5 python Unable to find vcvarsall.bat 错误 http://www.cnblogs.com/Mysterious/p/7529142.html 2017-09-15 23:30
6 阿里云公网IP不能使用 http://www.cnblogs.com/Mysterious/p/7523618.html 2017-09-14 22:36
7 Python2 socket TCPServer 多线程并发 超时关闭 http://www.cnblogs.com/Mysterious/p/7523559.html 2017-09-14 22:27
8 Python2 socket 多线程并发 ThreadingTCPServer Demo http://www.cnblogs.com/Mysterious/p/7507314.html 2017-09-11 21:50
9 Python2 socket 多线程并发 TCPServer Demo http://www.cnblogs.com/Mysterious/p/7507221.html 2017-09-11 21:28
10 Python socket TCPServer Demo http://www.cnblogs.com/Mysterious/p/7507042.html 2017-09-11 20:59

Python爬虫:爬取自己博客的主页的标题,链接,和发布时间的更多相关文章

  1. python 爬虫 爬取序列博客文章列表

    python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ # 根据URL获取内容并解码为UTF-8 def g ...

  2. Python爬虫抓取csdn博客

    昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够 保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...

  3. windows下使用python的scrapy爬虫框架,爬取个人博客文章内容信息

    scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...

  4. Python爬虫爬取一篇韩寒新浪博客

    网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取 ...

  5. python爬虫爬取内容中,-xa0,-u3000的含义

    python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310

  6. python爬虫—爬取英文名以及正则表达式的介绍

    python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一.  爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...

  7. Python爬虫简单实现CSDN博客文章标题列表

    Python爬虫简单实现CSDN博客文章标题列表 操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据 封装接口函数,实现函数调用. 1.分析接口 打开Chrome浏览器,开启开发者工具(F1 ...

  8. 用Python爬虫爬取广州大学教务系统的成绩(内网访问)

    用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...

  9. Python爬虫 - 爬取百度html代码前200行

    Python爬虫 - 爬取百度html代码前200行 - 改进版,  增加了对字符串的.strip()处理 源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

随机推荐

  1. Atitit. 二进制数据ascii表示法,与base64编码解码api 设计标准化总结java php c#.net

    Atitit. 二进制数据ascii表示法,与base64编码解码api 设计标准化总结java php c#.net 1. Base64编码,1 1.1. 子模式 urlsafe Or  url u ...

  2. 收集别人的一些第三方(MARK)

    本文是恢复数据,数据丢失前,原文由 @shiren1118 发表于 2012-12-28,对 Ruby 社区对 iOS 开发感兴趣的朋友来说,非常有价值. iosboilerplate这个选项是比较成 ...

  3. Python 2.7 中使用 Print 方法

    print ("test",file=name)类似的方法在python 2中需要先引入 __future__才可使用 import __futhure__ import prin ...

  4. TPM Key相关概念

    1. Storage Keys:存储密钥,用来加密数据和其它密钥的通用非对称密钥,这里的其它密钥可以是另外一个存储密钥,也可以是绑定密钥或签名密钥.它本身是长度2048bit的RSA私钥:它既可以是可 ...

  5. php 、asp、 java、 c#、 delphi之间的语言对照

    PHP是一种跨平台的server端的嵌入式脚本语言.它大量地借用C,Java和Perl语言的语法, 并耦合PHP自己的特性,使WEB开发人员能够高速地写出动态产生页面. 它支持眼下绝大多数数据库. 另 ...

  6. 关于搭建HTTPS服务器服务

    关于 HTTPS 的基本原理大家都已经不再陌生,今天和大家说说如何搭建一个支持 HTTPS 的服务端. 服务端的 HTTPS HTTPS 已经几乎成为了当前互联网推荐的通信方式,它能最大化保证信息传输 ...

  7. 个人博客开发之 xadmin 安装

    项目源码下载:http://download.vhosts.cn xadmin 下载地址:https://github.com/sshwsfc/xadmin或 https://github.com/s ...

  8. git branch merge到master

    使用merge可以合并多个历史记录的流程. 如下图所示,bugfix分支是从master分支分叉出来的. 合并 bugfix分支到master分支时,如果master分支的状态没有被更改过,那么这个合 ...

  9. metadata简介

    元资料(Metadata),又称元数据.诠释资料.中继资料后设资料,为描述资料的资料(data about data),主要是描述资料属性(property)的资讯,用来支持如指示储存位置.历史资料. ...

  10. (phpQuery)对网站产品信息采集代码的优化

    a.要采集的源链接: http://www.prospecbio.com/Recombinant_Proteins/ b.具体要求: