利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式

还是设计模式的开卷考试，我想要多准备一点资料，于是写了个爬虫爬取代码与图片，有巧妙地进行格式化进一步处理，最终变为了markdown的格式

import requests

from bs4 import BeautifulSoup

首先获得菜鸟教程-工厂模式这个页面的html，转为soup对象

r = requests.get("https://www.runoob.com/design-pattern/factory-pattern.html")

#获取反馈信息 200为正常

r.status_code

r.encoding = "utf-8"

soup=BeautifulSoup(r.text,'lxml')

print(soup.prettify())

通过观察可知需要爬取的链接都是以‘/design’开头的，所以利用startswith()筛选，得到url列表

html_list=[]

for a in soup.find_all('a'):

    if(a['href'].startswith('/design')):

        print(a['href'])

        html_list.append(a['href'])

写一个爬取每个页面的函数,先将markdown语言放在注释中，注释用三条斜杠，方便格式化。

+def fonepage(add):

    baseurl="https://www.runoob.com"

    url=baseurl+add

    r = requests.get(url)

    #获取反馈信息 200为正常

    r.status_code

    r.encoding = "utf-8"

    soup=BeautifulSoup(r.text,'lxml')

    lis=soup.find_all(attrs={'class':'example'})

    print('///## '+add)

    img=soup.find_all('img')

    print('///![]('+baseurl+img[0]['src']+')')

    print('///```')

    for son in lis:

        for a in son.find_all('span'):

            print(a.string,end=' ')

    print('\n')

    print('///```')

然后逐页爬取即可

for i in range(2,len(html_list)):

    fonepage(html_list[i])

最后进行加工，利用IDEA进行格式化，随后用notepad删除所有的'///'字符串，就转为markdown格式了。

结果如下：https://www.cnblogs.com/Tony100K/p/11741212.html

利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式的更多相关文章

PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
Python使用urllib,urllib3,requests库+beautifulsoup爬取网页
Python使用urllib/urllib3/requests库+beautifulsoup爬取网页 urllib urllib3 requests 笔者在爬取时遇到的问题 1.结果不全 2.'抓取失 ...
利用requestes\pyquery\BeautifulSoup爬取某租房公寓(深圳市)4755条租房信息及总结
为了分析深圳市所有长租.短租公寓的信息,爬取了某租房公寓深圳区域所有在租公寓信息,以下记录了爬取过程以及爬取过程中遇到的问题: 爬取代码: 1 import requests 2 from reque ...
python3.6 利用requests和正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException from multiprocessing import Pool im ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
python3 requests + BeautifulSoup 爬取阳光网投诉贴详情实例代码
用到了requests.BeautifulSoup.urllib等,具体代码如下. # -*- coding: utf-8 -*- """ Created on Sat ...
requests+xpath+map爬取百度贴吧
# requests+xpath+map爬取百度贴吧 # 目标内容:跟帖用户名,跟帖内容,跟帖时间 # 分解: # requests获取网页 # xpath提取内容 # map实现多线程爬虫 impo ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...

随机推荐

Day 13 linux 的输入输出与管道的使用
1.重定向概述 1.什么是重定向将原本要输出到屏幕的数据信息,重新定向到某个指定的文件中.比如:每天凌晨定时备份数据,希望将备份数据的结果保存到某个文件中.这样第二天通过查看文件的内容就知道昨天备份 ...
【Sentinel】sentinel 集成 apollo 最佳实践
[Sentinel]sentinel 集成 apollo 最佳实践前言在 sentinel 的控制台设置的规则信息默认都是存在内存当中的.所以无论你是重启了 sentinel 的客户端还是 s ...
scp建立安全信任关系
1. 在机器Client上root用户执行ssh-keygen命令,生成建立安全信任关系的证书. [root@Client root]# ssh-keygen -b 1024 -t rsa Gener ...
[VB.NET Tips]再谈字符串连接之内置池
CLR自动维护一个称为"内置池"(暂存池)(intern pool)的表,在编译时此表包含程序中声明的每个唯一的字符串常量的单个实例,以及以编程方式创建的String类的任何唯一实 ...
java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200.
报错信息 java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please ...
校园网打开IEEE 显示未登录
校园网访问IEEE 显示未登录,如图解决办法 1.打开网络和共享中心 2.如图 3.把ipv6的钩去掉 4.把host文件(在C:\Windows\System32\drivers\etc)复制到桌 ...
BOM之定时器
JavaScript中的时间是通过定时器控制的,他们分别是window.setInterval和window.setTimeout,我们当然可以省略window,直接使用方法名称调用. 一 s ...
ASP.NET Core 3.0 : 二十四. 配置的Options模式
上一章讲到了配置的用法及内部处理机制,对于配置,ASP.NET Core还提供了一种Options模式.(ASP.NET Core 系列目录) 一.Options的使用上一章有个配置的绑定的例子,可 ...
【面试题】Java常见面试题
集合与数组? 数组:(可以存储基本数据类型)是用来存储对象的一种容器,但是数组的长度固定,不适合在对象数量未知的情况下使用集合:(只能存储对象,对象类型可以不一样)集合的长度可变,可在多数情况下使用 ...
Spring boot 官网学习笔记 - Configuration Class（@import）
推荐使用 Java-based configuration ,也可以使用xml we generally recommend that your primary source be a single ...

利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式

利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式的更多相关文章

随机推荐

热门专题