闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想法--用爬虫保存自己的所有文章 在查了一些资料后,慢慢的有了思路. 正文: 有了上面的思路后,编程就不是问题了,就像师傅说的,任何语言,语法只是很小的一部分,主要还是编程思想.于是边看语法,边写程序,照葫芦画瓢,也算实现了既定的功能: 1.现在py文件同目录下创建一个以博主名字为名的文件夹,用来存放…
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultencoding('gb2312') #获取整个页面的数据 def getHtml (url): page = urllib.urlopen(url) html = page.read() return html #保存图片到本地 def getImg(html): reg = r'src="(.+?\.j…
前言 第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --upgrade wechatsogou是一个基于搜狗微信搜索的微信公众号爬虫接口 2.使用方法 使用方法如下所示 import wechatsogou # captcha_break_time为验证码输入错误的重试次数,默认为1 ws_api = wechatsogou.WechatSogouAPI(c…
继续改进上一个项目,上次我们爬取了所有文章,但是保存为TXT文件,查看不方便,而且还无法保存文章中的代码和图片. 所以这次保存为PDF文件,方便查看. 需要的工具: 1.wkhtmltopdf安装包,下载并安装到电脑上,可使用  pip安装  ,注意环境变量的配置.具体参见下面的资料. 2.pdfkit文件(whl文件),下载并安装到pycharm上. 注意安装 whl 文件时:最好吧把 保存 whl文件的文件夹的路径  D:\learning python\Scripts  添加到环境变量里面…
以爬取我自己的博客为例:https://www.cnblogs.com/Mr-choa/ 1.获取所有的文章的链接: 博客文章总共占两页,比如打开第一页:https://www.cnblogs.com/Mr-choa/default.html?page=1的HTML源文件 每篇博客文章的链接都在a标签下,并且具有class属性为"postTitle2",其href属性就指向这篇博文的地址 <a class="postTitle2" href="htt…
1. 引言 在爬取汽车销量数据时需要爬取 html 保存在本地后再做分析,由于一些页面的 gzip 编码格式, 获取后要先解压缩,否则看到的是一片乱码.在网络上仔细搜索了下,终于在这里找到了一个优雅的方案. 2. 使用的开源库 <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-lang3</artifactId> <version>3.4<…
#爬取lol全英雄皮肤 import re import traceback # 异常跟踪 import requests from bs4 import BeautifulSoup #获取html def get_url(url, hander): try: r = requests.get(url, headers=hander, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text e…
主要思路: 1.找到列表页. 2.找到文章页. 3.用一个队列来保存将要爬取的网页,爬取队头的url,如果队列非空,则一直爬取. 4.如果是列表页,则抽取里面所有的文章url进队:如果是文章页,则直接爬取至本地. 一个博客是起始页url是这样的: http://www.cnblogs.com/joyeecheung/ 第n页是这样的: http://www.cnblogs.com/joyeecheung/default.html?page=n 文章的url是这样的: http://www.cnb…
新人一枚,初来乍到,请多关照 来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python3.6.5环境中运行.使用python中的requests模块和BeautifulSoup模块. 通过包管理工具pip3安装requests和BeautifulSoup: pip3 install requests pip3 install bs4 贴代码: import requests from…
上一篇大概写了下lxml的用法,今天我们通过案例来实践,爬取我的博客博客并保存在本地 爬取博客园博客 爬取思路: 1.首先找到需要爬取的博客园地址 2.解析博客园地址 # coding:utf-8 import requests from lxml import etree # 博客园地址 url = 'http://www.cnblogs.com/qican/' headers = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1; W…