初试 pyhton 简易采集

一。安装软件（用eclispe 搭建好环境好，没有取省自动补全编写代码会很卡，最后选用sumblie）

eclispe 用的windows 32 4.31
python 用的 4.3.3 下载地址
pydev 用的2.4`

二。目录结构

三.各模块代码，调度器 spider_main.py, url管理器 url_manager.py, 网页下载器 html_downloader.py, 网页数据解析器 html_parser.py

采集数据输出 html_outputer.py

.spider_main.py

import sys

import os

curPath = os.path.abspath(os.path.dirname(__file__))

rootPath = os.path.split(curPath)[]

sys.path.append(rootPath)

from baike_spider import url_manager, html_downloader, html_parser,html_outputer

class SpiderMain(object):

    def __init__(self):

        # url 管理器， 模板下载器，下载数据解析器，解析数据输入器。 模块调度器

        self.urls = url_manager.UrlManager()

        self.downloader = html_downloader.HtmlDownloader()

        self.parser = html_parser.HtmlParser()

        self.outputer = html_outputer.HtmlOutputer()

    def craw(self,root_url):

        count =

        self.urls.add_new_url(root_url)

        while self.urls.has_new_url():

            try:

                new_url = self.urls.get_new_url()

                print (count,new_url)

#                print craw (' %d : %s') % (count,new_url)

                html_cont = self.downloader.download(new_url)

                new_urls,new_data = self.parser.parse(new_url,html_cont)

                self.urls.add_new_urls(new_urls)

                self.outputer.collect_data(new_data)

                if count == :

                    break

                count = count + 

            except:

                print ('craw fail')    

        self.outputer.output_html()    

if __name__ =="__main__":

    root_url = "http://baike.baidu.com/view/21087.htm"

    obj_spider = SpiderMain()

    obj_spider.craw(root_url)       

.url_manager.py

class UrlManager(object):

    def __init__(self):

        self.new_urls = set()

        self.old_urls = set()

    def add_new_url(self,url):

        if url is None:

            return

        if url not in self.new_urls and url not in self.old_urls:

            self.new_urls.add(url)

    def add_new_urls(self,urls):

        if urls is None or len(urls) == :

            return

        for url in urls:

            self.add_new_url(url)

    def has_new_url(self):

        return len(self.new_urls) != 

    def get_new_url(self):

        new_url =  self.new_urls.pop()

        self.old_urls.add(new_url)

        return new_url

. html_downloader.py

import urllib.request

#print (urllib.request)

class HtmlDownloader(object):

    def download(self,url):

        if url is None:

            return None

        response = urllib.request.urlopen(url)    

        if response.getcode() != :

            return None

        return response.read()

#obj = HtmlDownloader()

#obj.download("http://baike.bai du.com/view/21087.htm")

.html_parser.py

from bs4 import BeautifulSoup

import re

#import urlparse

#import urllib.request

class HtmlParser(object):

    def _get_new_urls(self,page_url,soup):

        new_urls = set()

        links = soup.find_all("a",href=re.compile(r"/view/\d+\.htm"))

        for link in links:

            new_url = link['href']

#            print(new_url)

            new_full_url = "http://baike.baidu.com"+new_url

#            print (new_full_url)

            new_urls.add(new_full_url)

        return new_urls

    def _get_new_data(self,page_url,soup):

            res_data = {}

            res_data['url'] = page_url

            ttile_node = soup.find('dd',class_="lemmaWgt-lemmaTitle-title").find("h1")

            res_data['title'] = ttile_node.get_text()

            summary_node = soup.find("div",class_="lemma-summary")

            res_data['summary'] = summary_node.get_text()

            return res_data

    def parse(self,page_url,html_cont):

        if page_url is None or html_cont is None:

            return

        soup = BeautifulSoup(html_cont,'html.parser',from_encoding = "utf-8")

#        print (soup)

        new_urls = self._get_new_urls(page_url,soup)

#        print (new_urls)

        new_data = self._get_new_data(page_url,soup)

        return new_urls, new_data    

#test = HtmlParser()

#response = urllib.request.urlopen("http://baike.baidu.com/view/21087.htm")

#test.parse("http://baike.baidu.com/view/21087.htm",response.read())   

.html_outputer.py

class HtmlOutputer(object):

    def __init__(self):

        self.datas = []

    def collect_data(self,data):

        if data is None:

            return

        self.datas.append(data)

    def output_html(self):

#        print(self.datas)

        fout = open('output.html',"w")

        fout.write("<html>")

        fout.write("<body>")

        fout.write("<table>")

        for data in self.datas:

            # print(data['url'])

            # print(data['title'])

            # print(data['summary'])

            fout.write("<tr>")

            fout.write("<td>%s</td>" % data['url'].encode('utf-8').decode("utf-8"))

            fout.write("<td>%s</td>" % data['title'].encode('utf-8').decode("utf-8"))

            # fout.write("<td>%s</td>" % data['summary'].encode('utf-8').decode("utf-8"))

            fout.write("</tr>")    

        fout.write("</table>")

        fout.write("</body>")

        fout.write("</html>

view

submlie 中 Ctrl+B 运行。

初试 pyhton 简易采集的更多相关文章

python实现简易采集爬虫
#!/usr/bin/python #-*-coding:utf-8-*- # 简易采集爬虫 # 1.采集Yahoo!Answers,parseData函数修改一下,可以采集任何网站 # 2.需要sq ...
QT 初试 MainWindow简易窗体
1.创建一个空的QT工程文件 2 建立程序文件 MainWindow.h #ifndef MAINWINDOW_H #define MAINWINDOW_H #include<QMainWind ...
querylist 在laravel框架中的简单采集数据（专业5）
//爬虫网站路由Route::get('/querylist/list','querylistControllers@querylist'); //控制器 <?phpnamespace App\ ...
搭建简易的WebServer(基于pyhton实现简易Web框架使用socket套接字)
1. 使用web底层socket的方式实现简易服务器的搭建,用来理解学习 # 1.导入socket模块 import socket import re import gevent import sys ...
【应用笔记】【AN004】VB环境下基于RS-485的4-20mA电流采集
版本:第一版作者:周新稳杨帅日期:20160226 =========================== 本资料高清PDF 下载: http://pan.baidu.com/s/1c1uuhLQ ...
【应用笔记】【AN003】VC++环境下基于以太网的4-20mA电流采集
简介 4-20mA电流环具有广泛的应用前景,在许多行业中都发挥着重要作用.本文主要介绍了以太网接口的4-20mA电流采集模块在VC++环境下进行温度采集,实现WINDOWS平台对数据的采集.分析及显示 ...
【应用笔记】【AN001】VC#开发环境下基于以太网的4-20mA电流采集(基于modbus tcp 协议)
版本:第一版作者:毛鹏杨帅日期:20151108 简介 4-20mA电流环具有广泛的应用前景,在许多行业中都发挥着重要作用.本文主要介绍了以太网接口的4-20mA电流采集模块在VC#环境下进行温 ...
实现简易的android 直播技术
Android 的直播,主要使用的是camera采集的数据推流到服务器上,在客户端播放camera采集的数据.采用SurfaceView+ SurfaceTexture来显示camera数据, Sur ...
【干货】.NET开发通用组件发布（三）简易数据采集组件
组件介绍和合作开发 http://www.cnblogs.com/MrHuo/p/MrHuoControls.html 简易数据采集组件怎么说他是一个简易的数据采集组件呢?因为由于时间仓促,缺少从某 ...

随机推荐

查询Oracle表空间使用情况
,),'990.99')||'%' "使用比(%)",F.TOTAL_BYTES "空闲空间(M)",F.MAX_BYTES "最大块(M)" ...
vue的周期函数
beforeCreate(创建前) created(创建后) beforeMount(载入前) mounted(载入后) beforeUpdate(更新前) updated(更新后) beforeDe ...
使用同步上下文进行C#与VBA代码和Excel之间的交互
原始出处:www.cnblogs.com/Charltsing/p/RunVBA.html 大家都知道,Excel是个STA,不允许在Excel忙的时候对其Com对象进行操作,也不允许同时有多个线程对 ...
leetcode 115不同的子序列
滚动数组: /***** 下标从1开始 dp[i][j]:= numbers of subseq of S[1:j] equals T[1:i] if(s[j]==t[i]):(那么之后的子串可以是是 ...
python虚拟环境mkvirtualenv使用
安装virtualenvwrapper pip install virtualenvwrapper 修改默认虚拟环境目录: 环境变量中新建: 变量名:WORKON_HOME 变量值:目录位置 ( ...
dapper 分页根据时间条件查询时中的一个坑
当数据库中数据很多的时候,这样写,查询速度会很慢. db.Query<AuditLogModel>(queryStr, searchModel);// 应该这样写 var logDatas ...
oracle 在sql中显示blob的字符串
最近在用oracle的过程中用到了对blob字段模糊查询的问题,对oracle来说,我并不是高手,找了很多的资料终于能够查出来了. blob字段直接用 select * from table_name ...
activiti随笔记录
核心组件介绍关键对象 1. Deployment:流程部署对象,部署一个流程时创建. 2. ProcessDefinitions:流程定义,部署成功后自动创建. 3. ...
前端深入之css篇丨2020年前，彻底掌握css动画
马上就2020年了,不知道小伙伴们今年学习了css3动画了吗? 说起来css动画是一个很尬的事,一方面因为公司用css动画比较少,另一方面大部分开发者习惯了用JavaScript来做动画,所以就导致了 ...
beego框架学习(二) -路由设置
路由设置什么是路由设置呢?前面介绍的 MVC 结构执行时,介绍过 beego 存在三种方式的路由:固定路由.正则路由.自动路由,接下来详细的讲解如何使用这三种路由. 基础路由从beego1.2版本 ...

初试 pyhton 简易采集

初试 pyhton 简易采集的更多相关文章

随机推荐

热门专题