python获取页面文字信息

# -*- coding: utf- -*-

from selenium import webdriver

import time, re,requests,os,time,random,traceback

import urllib.request,threading

from bs4 import BeautifulSoup

import html.parser

from tkinter import *

from tkinter import ttk

import tkinter.messagebox 

def getHtml(questionId,page):

    chrome_options = webdriver.ChromeOptions()

    chrome_options.add_argument('--start-maximized')  # 最大化运行（全屏窗口）,不设置，取元素会报错

    chrome_options.add_argument('--disable-infobars')  # 禁用浏览器正在被自动化程序控制的提示

    chrome_options.add_argument('--incognito')  # 隐身模式（无痕模式）

    chrome_options.add_argument('--headless')  # 浏览器不提供可视化页面

    driver = webdriver.Chrome(executable_path = "chromedriver",options=chrome_options)  # 打开浏览器

    driver.get("https://www.zhihu.com/question/"+questionId+"/answers/updated?page="+str(page)) # 打开想要爬取的知乎页面 

    # 模拟用户操作

    def execute_times(times):

        for i in range(times):

            print('第'+str(i)+'次点击')

            driver.execute_script("window.scrollTo(0, "+str( * i)+");")

            time.sleep()

        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    execute_times()

    result_raw = driver.page_source  # 这是原网页 HTML 信息

    result_soup = BeautifulSoup(result_raw, 'html.parser')# 然后将其解析

    result_bf = result_soup.prettify()  # 结构化原 HTML 文件

    answers = driver.find_elements_by_class_name("RichContent-inner")

    txt = "start\n"

    for answer in answers:

        if len(answer.text) > :

           txt = txt + answer.text + "\n-----------我是分隔符------\n"

    with open(questionId +"/page_"+str(page)+".txt", 'w',encoding="utf-8") as zhpage:  # 存储路径里的文件夹需要事先创建。

        zhpage.write(txt)

    zhpage.close()

    print("爬取回答页面成功!!!")

    driver.quit()

    return result_soup

def readTxt(path):

    f = open(path,'r',encoding='utf-8')

    strTxt = f.read()

    f.close()

    return strTxt

def main(questionId,startPage,endPage):

    mkdir([questionId])

    for i in range(startPage,endPage):

        try:

           getHtml(questionId,i)

           time.sleep(random.choice(range(,)))

        except Exception:

            traceback.print_exc()

            pass

def mkdir(paths):

    for path in paths:

        if not os.path.exists(path):

            os.mkdir(path)

def getanswer():

    questionId = var_id.get()

    start = var_start.get()

    end = var_end.get()

    main(questionId,start,end)

if __name__ == '__main__':

    main(str(),,)

tk = Tk()

tk.title('获取知乎问题所有答案')

tk.geometry('600x150')

frame = Frame(tk)

Label(tk,text='问题标识:(例：https://www.zhihu.com/question/324405640/answer/720532471中的324405640 )',width=,anchor=W, justify=LEFT).place(x=,y=)

var_id = Variable()

question_id = Entry(tk,textvariable=var_id,width=)

question_id.place(x=,y=)

Label(tk,text='开始页：').place(x=,y=)

var_start = Variable()

e = Entry(tk, textvariable=var_start,width=).place(x=,y=)

var_start.set()

Label(tk,text='结束页：').place(x=,y=)

var_end = Variable()

e = Entry(tk, textvariable=var_end,width=).place(x=,y=)

var_end.set()

Button(tk, text="获取答案", command=getanswer).place(x=,y=)

#tk.mainloop()

python获取页面文字信息的更多相关文章

Python 获取CentOS主机信息
Python 获取主机IP地址 #!/usr/bin/env python #coding:utf-8 import os ip=os.popen("ifconfig eth0|grep ' ...
Python+Selenium 自动化实现实例-获取页面元素信息（百度首页）
#coding=utf-8from selenium import webdriverdriver = webdriver.Chrome()driver.get("http://www.ba ...
我了解到的新知识之----如何使用Python获取最新外汇汇率信息
这个需求本来是来源于公司同事工作中需求,用户需要使用数据分析工具Power BI抓取多页的中国银行官网上当天的外汇数据.但是没能研究出来. 我就开始在网络上找关于使用python来抓取当天汇率的案例分 ...
Javascrip获取页面URL信息
使用Javascript可以方便获得页面的参数信息,常用的几种如下: 设置或获取对象指定的文件名或路径 window.location.pathname 设置或获取整个 URL 为字符串 wind ...
用Python获取Linux资源信息的三种方法
方法一:psutil模块 #!usr/bin/env python # -*- coding: utf-8 -*- import socket import psutil class NodeReso ...
JS获取页面URL信息
下面我们举例一个URL,然后获得它的各个组成部分: http://i.cnblogs.com/EditPosts.aspx?opt=1 window.location.href (设置或获取整个 UR ...
Python 获取本地主机信息
import wmi c = wmi.WMI() for sys in c.Win32_OperatingSystem(): #系统信息 print(sys.Caption) #系统版本号 print ...
python获取群成员信息
#coding: utf-8 import itchat,datetime from itchat.content import TEXT itchat.auto_login(hotReload=Tr ...
PYTHON 获取机器硬件信息及状态
#!/usr/bin/env python # encoding: utf-8 from optparse import OptionParser import os import re import ...

随机推荐

UVA - 548 Tree（二叉树的递归遍历）
题意:已知中序后序序列,求一个叶子到根路径上权和最小,如果多解,则叶子权值尽量小. 分析:已知中序后序建树,再dfs求从根到各叶子的权和比较大小 #include<cstdio> #inc ...
057-while循环
<?php $x=1; //初始化变量 while($x<=5){ //执行while循环 echo "$x<br />"; $x++; } ?>
IISHelper操作iis
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
[题解] LuoguP4827 [国家集训队] Crash 的文明世界
传送门这个题......我谔谔首先可以考虑换根$dp$,但到后来发现二项式定理展开过后需要维护$k$个值,同时每个值也要$O(k)$的时间按二项式定理算当然fft优化过后就是k lo ...
实验吧-隐写-FIVE1、so beautiful so white(文件头修改)
FIVE1 下载图片,kali下foremost恢复文件,将得到的图片用Winhex打开进行观察,发现最后面有一段貌似是代码的东西. LS0uLi4gIC4tICAuLi4uLiAgLS0uLi4gI ...
解决CGrIdCtrl合并单元格后继续拆分后的问题
DWORD dwMergeCellCount = vMergeCells.size(); ; i < dwMergeCellCount; i++){ m_HFlexGrid.SplitCells ...
Python学习——购物车程序
问题需求: 1.启动程序,让用户输入工资,然后打印商品列表 2.允许用户根据商品编号购买商品 3.用户选择商品后,检测余额是否够,够就直接扣款,不够就提醒 4.可随时退出,退出时,打印已购买的商品和余 ...
CMD命令实现数字雨
首先,我们在桌面上先创建一个“.bat”格式的文件,文件名为“数字雨.bat”,创建好了之后右键点击编辑. 在其中输入: @echo off title 数字雨 color 0a setlocal E ...
51Nod1085 0-1背包（一维和二维数组实现）
背包是典型的动态规划问题,关于背包问题的详解,推荐博客:点击打开链接(这篇博客有点错误,代码for循环里错了,不过讲解的很详细) 题目如下: 在N件物品取出若干件放在容量为W的背包里,每件物品的体积 ...
VUE学习（一）——使用npm安装项目
npm是node.js自带的功能 Node.js 安装配置本章节我们将向大家介绍在 Windows 和 Linux 上安装 Node.js 的方法. 本安装教程以 Node.js v4.4.3 LT ...

python获取页面文字信息

python获取页面文字信息的更多相关文章

随机推荐

热门专题