最近在学习Python,自然接触到了爬虫,写了一个小型爬虫软件,从初始Url解析网页,使用正则获取待爬取链接,使用beautifulsoup解析获取文本,使用自己写的输出器可以将文本输出保存,具体代码如下:

Spider_main.py

  1. # coding:utf8
  2. from baike_spider import url_manager, html_downloader, html_parser, html_outputer
  3.  
  4. class SpiderMain(object):
  5. def __init__(self):
  6. self.urls = url_manager.UrlManager()
  7. self.downloader = html_downloader.HtmlDownloader()
  8. self.parser = html_parser.HtmlParser()
  9. self.outputer = html_outputer.HtmlOutputer()
  10.  
  11. def craw(self, root_url):
  12. count = 1
  13. self.urls.add_new_url(root_url)
  14. while self.urls.has_new_url():
  15. print("self.urls.has %s" % self.urls.new_urls)
  16. try:
  17. new_url = self.urls.get_new_url()
  18. print("craw %d : %s"%(count, new_url))
  19. html_cont = self.downloader.download(new_url)
  20. new_urls, new_data = self.parser.parse(new_url, html_cont)
  21. self.urls.add_new_urls(new_urls)
  22. self.outputer.collect_data(new_data)
  23.  
  24. if count == 1000:
  25. break
  26.  
  27. count = count + 1
  28. except:
  29. print("craw failed")
  30.  
  31. self.outputer.output_html()
  32. self.outputer.output_txt()
  33.  
  34. if __name__ == '__main__':
  35. root_url = "http://www.shushu8.com/jiangnan/longzu2qianzhuan/1"
  36. obj_spider = SpiderMain()
  37. obj_spider.craw(root_url)

url_manager.py

  1. class UrlManager(object):
  2. def __init__(self):
  3. self.new_urls = set()
  4. self.old_urls = set()
  5.  
  6. def add_new_url(self, url):
  7. print(url)
  8. if url is None:
  9. return
  10. if url not in self.new_urls and url not in self.old_urls:
  11. self.new_urls.add(url)
  12.  
  13. def has_new_url(self):
  14. return len(self.new_urls) != 0
  15.  
  16. def get_new_url(self):
  17. new_url = self.new_urls.pop()
  18. self.old_urls.add(new_url)
  19. # print('new url is %s' % new_url)
  20. return new_url
  21.  
  22. def add_new_urls(self, urls):
  23. print("add_new_urls %s" % urls)
  24. if urls is None or len(urls) == 0:
  25. return
  26. for url in urls:
  27. self.add_new_url(url)
  28. print(url)

html_parser.py

  1. import re
  2. import urllib.parse
  3. from bs4 import BeautifulSoup
  4.  
  5. class HtmlParser(object):
  6.  
  7. def parse(self, page_url, html_cont):
  8. if page_url is None or html_cont is None:
  9. return
  10.  
  11. soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='utf-8')
  12. new_urls = self._get_new_urls(page_url, soup)
  13. print("parse new_urls %s" % new_urls)
  14. new_data = self._get_new_data(page_url, soup)
  15. return new_urls, new_data
  16.  
  17. def _get_new_data(self, page_url, soup):
  18. res_data = {}
  19.  
  20. res_data['url'] = page_url
  21. print(page_url)
  22.  
  23. title_node = soup.find(class_="title").find("h1")
  24. print(title_node.get_text())
  25. res_data['title'] = title_node.get_text()
  26.  
  27. print("_get_new_data")
  28.  
  29. summary_node = soup.find('pre')
  30. print(summary_node.get_text())
  31. res_data['summary'] = summary_node.get_text()
  32.  
  33. return res_data
  34.  
  35. def _get_new_urls(self, page_url, soup):
  36. new_urls = set()
  37. links = soup.find_all('a', href=re.compile(r"/jiangnan/"))
  38. print(links)
  39. for link in links:
  40. new_url = link['href']
  41. new_full_url = urllib.parse.urljoin(page_url, new_url)
  42. new_urls.add(new_full_url)
  43. # print(new_full_url)
  44. return new_urls

html_downloader.py

  1. import urllib.request
  2.  
  3. class HtmlDownloader(object):
  4.  
  5. def download(self, url):
  6. if url is None:
  7. return None
  8. response = urllib.request.urlopen(url)
  9. if response.getcode() != 200:
  10. return None
  11.  
  12. return response.read()

html_outputer.py

  1. class HtmlOutputer(object):
  2. def __init__(self):
  3. self.datas = []
  4.  
  5. def collect_data(self, data):
  6. if data is None:
  7. return
  8. self.datas.append(data)
  9.  
  10. def output_txt(self):
  11. fout = open('output.txt', 'w', encoding='utf-8')
  12. for data in self.datas:
  13. fout.write('%s \n' % data['title'])
  14. fout.write('%s \n' % data['summary'])
  15.  
  16. def output_html(self):
  17. fout = open('output.html', 'w', encoding='utf-8')
  18. fout.write('<html>')
  19. fout.write('<body>')
  20. fout.write('<table>')
  21.  
  22. for data in self.datas:
  23. fout.write('<tr>')
  24. fout.write('<td>%s</td>' % data['url'])
  25. fout.write('<td>%s</td>' % data['title'])
  26. fout.write('<td>%s</td>' % data['summary'])
  27. fout.write('</tr>')
  28.  
  29. fout.write('</table>')
  30. fout.write('</body>')
  31. fout.write('</html>')
  32.  
  33. fout.close()

Python实现爬虫从网络上下载文档的更多相关文章

  1. Python小爬虫-自动下载三亿文库文档

    新手学python,写了一个抓取网页后自动下载文档的脚本,和大家分享. 首先我们打开三亿文库下载栏目的网址,比如专业资料(IT/计算机/互联网)http://3y.uu456.com/bl-197?o ...

  2. python Cmd实例之网络爬虫应用

    python Cmd实例之网络爬虫应用 标签(空格分隔): python Cmd 爬虫 废话少说,直接上代码 # encoding=utf-8 import os import multiproces ...

  3. 使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解(新手必学)

    为大家介绍下Python爬虫库BeautifulSoup遍历文档树并对标签进行操作的详细方法与函数下面就是使用Python爬虫库BeautifulSoup对文档树进行遍历并对标签进行操作的实例,都是最 ...

  4. 第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查

    第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作.增.删.改.查 elasticsearch(搜索引擎)基本的索引 ...

  5. 四十一 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查

    elasticsearch(搜索引擎)基本的索引和文档CRUD操作 也就是基本的索引和文档.增.删.改.查.操作 注意:以下操作都是在kibana里操作的 elasticsearch(搜索引擎)都是基 ...

  6. Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱(转)

    原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘 曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开 ...

  7. Python开发爬虫之理论篇

    爬虫简介 爬虫:一段自动抓取互联网信息的程序. 什么意思呢? 互联网是由各种各样的网页组成.每一个网页对应一个URL,而URL的页面上又有很多指向其他页面的URL.这种URL之间相互的指向关系就形成了 ...

  8. 【Python】Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

    本文转载自:https://www.cnblogs.com/colipso/p/4284510.html 好文 mark http://www.52nlp.cn/python-%E7%BD%91%E9 ...

  9. 最全数据分析资料汇总(含python、爬虫、数据库、大数据、tableau、统计学等)

    一.Python基础 Python简明教程(Python3) Python3.7.4官方中文文档 Python标准库中文版 廖雪峰 Python 3 中文教程 Python 3.3 官方教程中文版 P ...

随机推荐

  1. vue+rest-framework前后端分离整合(二)

    一.基于api前端显示课程详细信息 1.调整Course.vue模块 <template> <div> <h1>课程列表</h1> <div v- ...

  2. H5新特性-----type=file文件上传

    1.语法 单文件上传:<input type="file" id="file1"/> 多文件上传:<input type="file ...

  3. css 字体样式设置

    css字体样式(Font Style),属性 时间:2014-05-08 21:49 来源:我爱学习网 | 作者:我爱学习网 | 本文已影响 68353 人   css字体样式(Font Style) ...

  4. 保存及读取keras模型参数

    转自:http://blog.csdn.net/u010159842/article/details/54407745,感谢分享~ 你可以使用model.save(filepath)将Keras模型和 ...

  5. java web的安全约束--表单的验证

    例子,表单和JDBCRealm的安全验证 参考了一篇文章http://www.cnblogs.com/dyllove98/archive/2013/07/31/3228698.html 1.要在wab ...

  6. win10与子系统ubuntu之间互访文件

    在window10的store里面 搜索ubuntu,下载,可以安装 注意: 初次打开有许多软件都没安装,可以新进行 sudo apt-get update,之后在进行其他的操作 1.下载的子系统ub ...

  7. 给Sublime text 3增加选中当前单词快捷键

    1.录制一份macro caret on a word –> ctrl+left –> ctrl+shift+right 2.将录制好的macro保存为select_current_wor ...

  8. libxml的使用 编辑节点

    libxml读取的基本功能已经介绍过了,现在将介绍libxml编写的基本功能. 编写操作包含节点的添加,删除和修改. 对于添加,我们需要调用xmlNewTextChild函数来添加节点,需要xmlNe ...

  9. 第二次Surm冲刺

    一.小组完成情况: 因为技术原因,小组部分代码还没有完成,现在已经可以实现简单的借书与还书操作. 二.个人情况 我对代码进行了测试,与大家进相关的讨论. 三.总结 这次实验的团队合作真的很重要,有许多 ...

  10. Bokeh 学习

    这段时间由于在做K-means对文本进行处理,需要进行绘图,实验室编程大哥向我介绍了Bokeh来进行绘图,一直是根据自己的需求来进行对其探索,今儿个看到一篇博文,对Bokeh进行了详细的解说,做个笔记 ...