第一篇 - bsp抓取python中文开发者社区中的所有高级教程

工具：python3.6 pycharm

库：bs4 + urllib

第一步：读取html源码

from bs4 import BeautifulSoup

import urllib.request#导入urllib库

url = 'https://www.p y t hontab.com/html/pythonhexinbiancheng/index.html'#获取网页链接

request = urllib.request.urlopen(url)

html = request.read()#读取网页源代码

第二步：获取内容和标题

soup = BeautifulSoup(html,'html.parser')#解析html

title_links = soup.select('#catlist > li > a')#找到标题与链接

source_list = []#存储标题与链接的字典

for title_link in title_links:

    data = {

        'title' : title_link.get_text(),

        'link' : title_link.get('href')

    }

    source_list.append(data)

第三步：在当前目录下新建一个lesson的文件夹，将文件存储在此文件夹下

for dic in source_list:#遍历每一个字典

    request = urllib.request.urlopen(dic["link"])

    html = request.read()

    soup = BeautifulSoup(html, 'html.parser')

    text_p = soup.select('#Article > div.content > p')#拿到p标签下的数据

    text = []#存储文章内容

    for a in text_p:

        text.append(a.get_text().encode('utf-8'))#取出p标签下的文本部分，即文章的内容

    name = dic["title"]

    with open('lesson/%s.txt' % name, 'wb') as f:#将文章写入文件

        for line in text:

            f.write(line)

数据爬取完毕。

注：以上完成一个页面的抓取，若想多抓取页面的话，可用以下代码：

from bs4 import BeautifulSoup

import urllib.request#导入urllib库

url_list = ['https://www.p y t hontab.com/html/pythonhexinbiancheng/index.html']#获取网页链接

for i in range(2,20):

    url = 'https://www.py tho ntab.com/html/pythonhexinbiancheng/%s.html' % i

    url_list.append(url)

for url in url_list:

    request = urllib.request.urlopen(url)

    html = request.read()#读取网页源代码

    soup = BeautifulSoup(html,'html.parser')#解析html

    title_links = soup.select('#catlist > li > a')#找到标题与链接

    source_list = []#存储标题与链接的字典

    for title_link in title_links:

        data = {

            'title' : title_link.get_text(),

            'link' : title_link.get('href')

        }

        source_list.append(data)

    for dic in source_list:#遍历每一个字典

        request = urllib.request.urlopen(dic["link"])

        html = request.read()

        soup = BeautifulSoup(html, 'html.parser')

        text_p = soup.select('#Article > div.content > p')#拿到p标签下的数据

        text = []#存储文章内容

        for a in text_p:

            text.append(a.get_text().encode('utf-8'))#取出p标签下的文本部分，即文章的内容

        name = dic["title"]

        directory = '%s.txt' % name

        dir = directory.replace('/','_').replace('*','@').replace('"','o').replace('?','w').replace(':','m')

        with open('lesson/'+dir, 'wb') as f:#将文章写入文件

            for line in text:

                f.write(line)

第一篇 - bsp抓取python中文开发者社区中的所有高级教程的更多相关文章

「拉勾网」薪资调查的小爬虫，并将抓取结果保存到excel中
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...
Windows环境中，通过Charles工具，抓取安卓手机、苹果手机中APP应用的http、https请求包信息
Windows环境中,通过Charles工具,抓取安卓手机.苹果手机中APP应用的http.https请求包信息1.抓取安卓手机中APP应用的http请求包信息1)在电脑上操作,查看Windows机器 ...
go, iris , nuxt, 服务端渲染等技术在helloworld开发者社区中的应用与实践
大家好,helloworld.net 上线已经有近半年的时间了,转眼过的好快,在这半年的时间里,迭代了近10多个版本,优化了很多的体验,交互上的不足之处,同时也上线了我们的安卓 app, 苹果的因为还 ...
(第一篇)记一次python分布式web开发（利用docker）
作者:落阳日期:2020-12-23 在一次项目开发中,决定使用docker+nginx+flask+mysql的技术栈来开发,用此系列文章记录开发的过程. 系列文章,当前为第一篇,记录一次pyth ...
开博客这么久以来，第一篇技术文章，python与c的接口对接
在博客园开博客已经有了蛮长时间了,但是从来只是看别人的文章,自己却从未写过一篇技术文章,深表惭愧.内心还是希望能够给大家提供一些帮助的,希望这第一篇技术博客,能够给大家一些帮助.闲话少叙,开始正文. ...
scrapy抓取的中文结果乱码解决办法
使用scrapy抓取的结果,中文默认是Unicode,无法显示中文. 中文默认是Unicode,如: \u5317\u4eac\u5927\u5b66 在setting文件中设置: FEED_EXPO ...
微信运动数据抓取(Python)
"微信运动"能够向朋友分享一个包含有运动数据的网页,网页中就有我们需要的数据.url类似于:http://hw.weixin.qq.com/steprank/step/person ...
Python爬虫抓取 python tutorial中文版，保存为word
看到了中文版的python tutorial,发现是网页版的,刚好最近在学习爬虫,想着不如抓取到本地首先是网页的内容查看网页源码后发现可以使用BeautifulSoup来获取文档的标题和内容,并保 ...
php抓取远程数据显示在下拉列表中
前言:周五10月20日的时候,经理让做一个插件,使用的thinkphp做这个demo 使用CURL抓取远程数据时如果出现乱码问题可以加入 header("content-type:text/ ...

随机推荐

运维常用mysql语句
1..select @@version; ##查询当前mysql的版本. 2. show variables like 'port';##查看mysql实例的端口. 3.show variables ...
easyui combobox 在datagrid中动态加载数据
场景:datagrid 中用编辑框修改数据,有一个列使用的combobox 在可编辑的时候需要动态绑定数据,这个数据是在根据其他条件可变的思路:在每次开启编辑框的时候动态绑定数据, datagri ...
Python——Flask框架——程序的基本结构
一.安装 pip install flask 二.初始化 from flask import Flask app = Flash(__name__) 三.路由:处理URL和函数之间的关系的程序称为路由 ...
CF343D Water Tree
题目链接题目翻译(摘自洛谷) 疯狂科学家Mike培养了一颗有根树,由n个节点组成.每个节点是一个要么装满水要么为空的贮水容器. 树的节点用1~n编号,其中根节点为1.对于每个节点的容器,其子节点的容 ...
Civil 3D 2017本地化中VBA程序移植到2018版中
中国本地化包简直就是一块鸡肋, 但对于某些朋友来说还真离不了: 可惜中国本地化包的推出一直滞后, 在最新版软件出来后1年多, 本地化还不一定能够出来, 即使出来了, 也只能是购买了速博服务的用户才能得 ...
H5 history.pushState 在微信内修改url后点击用safari打开/复制链接是修改之前的页面
解决方案:url参数增加随机参数 function wxRefresh() { var replaceQueryParam = (param, newval, search) => { var ...
BZOJ1012 最大数maxnumber
单调栈的妙处!! 刚看到这题差点写个splay..但是后来看到询问范围的只是后L个数,因为当有一个数新进来且大于之前的数时,那之前的数全都没有用了,满足这种性质的序列可用单调栈维护栈维护下标(因为要 ...
【XSY1081】随机存储器网络流
题目描述 Bob有\(2^n\)字节的内存,编号为\([0,2^n-1)\).他想对每个字节的内存分别分配一个值.对于编号为\(i\)的内存,如果它被分配了一个值\(j(0\leq j<2^m) ...
【C++】VS2015/VS2017连接Mysql数据库教程
要给C++程序连接MySQL数据库,分别需要: 安装MySQL Server 下载MySQL Connector/C++ 在IDE中配置依赖然后就可以在代码中调用API,来连接以及操作数据库. 一. ...
Leetcode 202.快乐数 By Python
编写一个算法来判断一个数是不是"快乐数". 一个"快乐数"定义为:对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和,然后重复这个过程直到这个数变为 ...

第一篇 - bsp抓取python中文开发者社区中的所有高级教程

第一篇 - bsp抓取python中文开发者社区中的所有高级教程的更多相关文章

随机推荐

热门专题