目录

  • 前言
  • 要解决的问题
  • 设计方案
  • 代码说明
  • 小结

前言

前一段一直在打基础,已经学习了变量,流程控制,循环,函数这几块的知识点,就想通过写写小程序来实践一下,来加深知识点的记忆和理解。首先考虑的就是爬虫啦,一直很崇拜爬虫大师,特别想能够学习一些爬虫技术,去淘宝上爬爬数据,说不定什么时候可以使用数据进行一些分析,比如哪天自己也开了个小店啥的~~。为了能够开始起步, 我看了一些视频,查阅了一些资料,起步阶段就不用那些很牛逼的框架了,主要是想通过基本的爬虫来了解爬虫的基本概念和思路。

要解决的问题

查阅百度百科的某个关键词以及相关联的关键词的集合。这是一个比较有意义的事情,通过这样的数据能更好的理解相关的生态圈。比如我查阅“分布式计算”  http://baike.baidu.com/item/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97/85448 文章里面含有很多的有链接的关键词,就这样不断的迭代去爬这些链接的关键词的文章内的关键词。

设计方案

爬虫含有5个组成部分:主程序,URL管理器,HTML下载器,HTML解析器,结果展示器

主程序:调度其他的部件的执行,并作为主程序入口来执行代码

URL管理器: 管理URL的集合以及状态 - 未下载的URL,已下载的URL,添加新的URL,去除已现在的URL

HTML下载器: 下载URL对应的HTML

HTML解析器: 解析下载下来的HTML,取出有用的数据

结果展示器: 组织最终生成的数据,并展示或者存储起来

代码说明

  • 代码组织架构

  • 代码展示
部件名称 程序名称 代码
主程序 SpiderMain.py
from Spider import UrlManager,HtmlDownloader,HtmlParser,HtmlOutputer

class Spider(object):

    def __init__(self):
self.urlmanager = UrlManager.Manager()
self.htmldownloader = HtmlDownloader.Downloader()
self.htmlparser = HtmlParser.Parser()
self.htmloutputer = HtmlOutputer.Outputer() def scrpy(self, root_url):
self.urlmanager.add_new_urls(root_url)
count = 1
while(self.urlmanager.has_new_url()):
if(count>10):
break curr_url = self.urlmanager.get_new_url()
html_content = self.htmldownloader.load(curr_url)
print("No.%d Downloading URL %s" % (count, curr_url))
word,new_urls,lemmasummary = self.htmlparser.parse(curr_url,html_content)
data={}
data['word']=word
data['curr_url']=curr_url
data['lemmasummary']=lemmasummary
self.htmloutputer.collect(data)
self.urlmanager.add_new_urls(new_urls)
count = count + 1
self.htmloutputer.genhtml() if(__name__=='__main__'):
root_url = "http://baike.baidu.com/item/%E5%88%86%E5%B8%83%E5%BC%8F%E8%AE%A1%E7%AE%97/85448"
spider = Spider()
spider.scrpy({root_url})
URL管理器 UrlManager.py
class Manager(object):
def __init__(self):
self.old_urls=set()
self.new_urls=set() def add_new_urls(self, root_url):
for url in root_url:
if(root_url not in self.old_urls and root_url not in self.new_urls):
self.new_urls.add(url) def has_new_url(self):
if(len(self.new_urls) > 0):
return True
else:
return False def get_new_url(self):
tmp=self.new_urls.pop()
self.old_urls.add(tmp)
return tmp
HTML下载器 HtmlDownloader.py
import urllib.request

class Downloader(object):
def load(self, curr_url):
html = urllib.request.urlopen(curr_url)
return html.read().decode("UTF-8",'ignore')
HTML解析器 HtmlParser.py
import re
from urllib.parse import urljoin
from bs4 import BeautifulSoup class Parser(object):
def __init__(self):
self.title = ''
self.urls = set()
self.lemmasummary = '' def parse(self, curr_url, html_content):
soup = BeautifulSoup(html_content, 'html.parser',from_encoding="utf-8")
soupurls=soup.find_all('a',href=re.compile(r'/view'))
for url in soupurls:
self.urls.add(urljoin(curr_url,url['href']))
self.title = soup.title.string.split("_")[0]
self.lemmasummary = soup.find('div',class_='lemma-summary')
return self.title,self.urls,self.lemmasummary
结果展示器 HtmlOutputer.py
class Outputer(object):
def __init__(self):
self.table = [] def collect(self, data):
self.table.append(data) def genhtml(self):
html = open('result.html','w')
html.write("<html>")
html.write("<head>")
html.write("</head>")
html.write("<body>")
html.write("<table>")
for data in self.table:
html.write("<tr>")
html.write("<td>%s</td>" % data['word'])
html.write("<td>%s</td>" % data['curr_url'])
html.write("<td>%s</td>" % data['lemmasummary'])
html.write("</tr>")
html.write("</table>")
html.write("</body>")
html.write("</html>")
html.close()
  • 最终的结果

小结

在上面的爬虫代码里面,主要体现了爬虫的几个部件之间的配合,以及每个部件的所引用的模块,比如urllib,bs4,re

Python进阶篇:Python简单爬虫的更多相关文章

  1. python 进阶篇 python 的值传递

    值传递和引用传递 值传递,通常就是拷贝参数的值,然后传递给函数里的新变量,这样,原变量和新变量之间互相独立,互不影响. 引用传递,通常是指把参数的引用传给新的变量,这样,原变量和新变量就会指向同一块内 ...

  2. python进阶篇

    python进阶篇 import 导入模块 sys.path:获取指定模块搜索路径的字符串集合,可以将写好的模块放在得到的某个路径下,就可以在程序中import时正确找到. ​ import sys ...

  3. python根据正则表达式的简单爬虫

    今天根据正则表达式简单的爬了一下大众点评,把北京的美食爬了爬,(店铺名,人均消费,地址) import re import urllib.request from urllib.request imp ...

  4. python+senium+chrome的简单爬虫脚本

    简述: 开始接触python写web自动化的脚本主要源于在公司订阅会议室,主要是使用python+selenium+chromedriver驱动chrome浏览器来完成的,其中部分python代码可以 ...

  5. python第一篇-------python介绍

    一.python介绍 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,Guido开始写Python语言的编译器.Python这个名字,来自Guido所 ...

  6. Python 进阶篇

    作者:武沛齐 出处:http://www.cnblogs.com/wupeiqi/articles/5246483.html Model 到目前为止,当我们的程序涉及到数据库相关操作时,我们一般都会这 ...

  7. python练习1(简单爬虫)

    做一个简单的练习 目标:爬取中文小说 目标网站:http://www.biqule.com/book_58/26986.html 只爬取正文部分. 使用requests库来获取网页信息,使用re库正则 ...

  8. python 进阶篇 函数装饰器和类装饰器

    函数装饰器 简单装饰器 def my_decorator(func): def wrapper(): print('wrapper of decorator') func() return wrapp ...

  9. python放弃篇(Django/爬虫)

    第一篇:Django系列 第二篇:爬虫系列 待续……

随机推荐

  1. Entity Framework(EF的Code First方法)

    EntityFramework,是Microsoft的一款ORM(Object-Relation-Mapping)框架.同其它ORM(如,NHibernate,Hibernate)一样, 一是为了使开 ...

  2. linux学习记录.4.常用命令

    帮助command --help    获取‘command‘命令的帮助 目录与文件 cd /home    进入‘home’目录 cd ..    返回上一级目录 cd       进入个人目录 c ...

  3. 在Linode VPS上搭建离线下载神器Aria2+WEBUI管理及对国内云盘看法

    在Linode VPS上搭建离线下载神器Aria2+WEBUI管理及对国内云盘看法 2015-09-21 by Hansen 原文链接:http://www.hansendong.me/archive ...

  4. gradle 构建工具,与Ant Maven关系

    1   基本概念 gradle是一个基于Apache ant 和apache maven概念的项目自动化建构工具.它使用一种基于Groovy的特定领域语言来声明项目设置,而不是传统的xml.当前其支持 ...

  5. 创建spring boot项目

    一.创建项目 1.输入https://start.spring.io/ 2.填写group.artifact 3.选择依赖的jar 4.点击创建项目 二.导入项目 1.eclipse的package ...

  6. Redis—数据结构之sds

    Redis是一个Key Value数据库.Redis有5种数据类型:字符串.列表.哈希.集合.有序集合.而字符串的底层实现方法之一就是使用sds.以下描述中请读者注意区分sds是指简单动态字符串这一数 ...

  7. static, const 和 static const 变量的初始化问题

    const 常量的在超出其作用域的时候会被释放,但是 static 静态变量在其作用域之外并没有释放,只是不能访问. static 修饰的是静态变量,静态函数.对于类来说,静态成员和静态函数是属于整个 ...

  8. 2018 CCPC网络赛

    2018 CCPC网络赛 Buy and Resell 题目描述:有一种物品,在\(n\)个地点的价格为\(a_i\),现在一次经过这\(n\)个地点,在每个地点可以买一个这样的物品,也可以卖出一个物 ...

  9. Java集合之Collection与之子类回顾

    Java学习这么久,打算这几天回顾下java的基本知识点,首先是集合. 一.常用集合类关系图 Collection |___List 有序,可重复 |___ArrayList  底层数据结构是数组,增 ...

  10. servlet Filter过滤javascript

    新建HttpServletRequestWrapper子类XssHttpServletRequestWrapper import javax.servlet.http.HttpServletReque ...