Tkinter 之爬虫框架项目实战

一、效果图

二、源码

    ''' 测试内容页爬取'''

    def test_content_url(self):

        try:

            url = self.test_url_var.get().strip()

            items = self.content_tree.get_children('')

            content = self.get_html(url)

            content_dict = {}

            self.test_text.delete(1.0, END)

            for item in items:

                value = self.content_tree.item(item).get('values')

                if value[4] == 0:

                    print(value)

                    if value[5] == 0:

                        # substring

                        return_value = self.deal_with_sustring(content, value[1], value[2])

                        if value[6]:

                            return_value = self.request_again(url, return_value, value[6])

                        if value[7]:

                            exec_content = value[7].format(return_value)

                            return_value = self.deal_with_python(exec_content)

                            return_value =  self.c

                        content_dict[value[0]] = return_value

                        self.test_text.insert(END, value[0] + ': ' + return_value + '\n')

                    else:

                        # re

                        pattern = re.findall(value[3], content, re.I|re.M)

                        if pattern:

                            pattern_value = pattern[0]

                        else:

                            pattern_value = ''

                        if value[6]:

                            pattern_value = self.request_again(url, pattern_value, value[6])

                        if value[7]:

                            exec_content = value[7].format(pattern_value)

                            return_value = self.deal_with_python(exec_content)

                        self.test_text.insert(END, value[0] + ': ' + pattern_value + '\n')

                        content_dict[value[0]] = pattern_value

                else:

                    print('%s在列表页提取' % value[0])

            print(content_dict)

        except Exception as e:

            print(e)

            self.test_text.insert(END, '错误信息：' + str(e))

有需要源码的可以评论哦~

Tkinter 之爬虫框架项目实战的更多相关文章

Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍
本篇介绍项目开发的过程中,对 Setting 文件的配置和使用 Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍 settings.py 文件的使用想要详细查看 ...
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细 Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
纯手写SpringMVC到SpringBoot框架项目实战
引言 Spring Boot其设计目的是用来简化新Spring应用的初始搭建以及开发过程.该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置. 通过这种方式,springboot ...
UI自动化测试框架(项目实战)python、Selenium(日志、邮件、pageobject)
其实百度UI自动化测试框架,会出来很多相关的信息,不过就没有找到纯项目的,无法拿来使用的:所以我最近就写了一个简单,不过可以拿来在真正项目中可以使用的测试框架. 项目的地址:https://githu ...
scrapy爬虫框架入门实战
博客 https://www.jianshu.com/p/61911e00abd0 项目源码 https://github.com/ppy2790/jianshu/blob/master/jiansh ...
python爬虫小项目实战
jsoup爬虫，项目实战，欢迎收看
import com.mongodb.BasicDBObject import com.mongodb.DBCollection import org.jsoup.Jsoup import org.j ...
Python爬虫教程-30-Scrapy 爬虫框架介绍
从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了常见爬虫框 ...

随机推荐

python 安装 SQLAlchemy 报错
安装 SQLAlchemy 报错安装命令 pip install -i https://pypi.doubanio.com/simple SQLAlchemy 报错截图编码错误,这里我们需要改下源 ...
iOS - 崩溃异常处理（1）
https://www.jianshu.com/p/4d32664dcfdb 一.关于崩溃闪退估计是我们最不想看到的,对于用户而言,马上就能产生一种不悦,对于投资方而言,也会产生对技术实力的不信任感 ...
拓展 - Webrtc 的回声抵消(aec、aecm)算法简介
webrtc 的回声抵消(aec.aecm)算法简介原文链接:丢失.不好意思 webrtc 的回声抵消(aec.aecm)算法主要包括以下几个重要模块:1.回声时延估计 2.NLMS( ...
1+X证书学习日志——javascript基础
js javascript js的组成: ECMAscript DOM BOM js放置的位置 <script></script> <script src="路 ...
约束布局ConstraintLayout
Android新特性介绍,ConstraintLayout完全解析约束布局ConstraintLayout用法全解析约束布局ConstraintLayout看这一篇就够了
POSIX多线程之创建线程pthread_create && 线程清理pthread_cleanup
多线程之pthread_create创建线程 pthreads定义了一套C程序语言类型.函数.与常量.以pthread.h和一个线程库实现. 数据类型: pthread_t:线程句柄 pthread_ ...
【技巧】如何使用客户端发布BLOG+如何快速发布微信公众号文章
[技巧]如何使用客户端发布BLOG+如何快速发布微信公众号文章 1 BLOG文档结构图 2 前言部分 2.1 导读和注意事项各位技术爱好者,看完本文后,你可以掌握如下的技能,也 ...
php导出数据到csv
序言 php导出数据到csv是一种很常见的功能,且csv相比于excel文件有其一定的优势,首先csv对数据的行数没有限制,但是excel对数据的行数有一定的限制,因此,csv文件对于导出大量的数据来 ...
使用flannel+canal实现k8s的NetworkPolicy
目录 1.NetworkPolicy概述 2.NetworkPolicy策略模型 3.NetworkPolicy默认策略 4.NetworkPolicy的实现 5.使用flannel+canal实现k ...
Thinkphp 配置不用输入index.php
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u011186019/article/det ...

Tkinter 之爬虫框架项目实战

Tkinter 之爬虫框架项目实战的更多相关文章

随机推荐

热门专题