展开阅读全文 js 爬虫操作

from selenium import webdriver

import time

import random

from bs4 import *

browser = webdriver.Chrome()

url = 'https://so.gushiwen.org/shiwenv_ee16df5673bc.aspx'

browser.get(url)

ck_l_ori_len = len(browser.find_elements_by_link_text('展开阅读全文 ∨'))

ck_l_ori_ok = 0

try:

    for isc in range(100):

        if ck_l_ori_ok == ck_l_ori_len:

            break

        time.sleep(1)

        js = 'window.scrollTo(0,document.body.scrollHeight)'

        js = 'window.scrollTo(0,100*{})'.format(isc)

        browser.execute_script(js)

        ck_l = browser.find_elements_by_link_text('展开阅读全文 ∨')

        for i in ck_l:

            try:

                i.click()

                ck_l_ori_ok += 1

            except Exception as e:

                print(e)

except Exception as e:

    print('window.scrollTo-->', e)

# ck_l=browser.find_elements_by_link_text('展开阅读全文 ∨')

# for i in ck_l:

#     try:

#         i.click()

#     except Exception as e:

#         print(e)

xp_l = ['//*[@id="fanyi967"]/div/div[3]/a', ]

myhtml = 'D:\\myhtml\\{}gushiwen.tmp.html'.format(random.randint(123, 999))

with open(myhtml, 'w', encoding='utf-8') as fw:

    fw.write(browser.page_source)

sql = 'INSERT INTO parent_url (page_title,page_url,children_url) VALUES '

with open(myhtml, 'r', encoding='utf-8') as myhtml_o:

    bs = BeautifulSoup(myhtml_o, 'html.parser')

    dd = 9

a_=document.getElementsByTagName('a');le=a_.length;for(i=0;i<le;i++){if(a_[i].text=='展开阅读全文 ∨'){a_[i].click()}}

a_=document.getElementsByTagName('a');le=a_.length;for(i=0;i<le;i++){if(a_[i].text=='展开阅读全文 ∨'){try{a_[i].click()}catch(err){console.log(err)}}}

from selenium import webdriver

import time

import random

from bs4 import *

browser = webdriver.Chrome()

url = 'https://so.gushiwen.org/shiwenv_ee16df5673bc.aspx'

browser.get(url)

# ck_l_ori_len = len(browser.find_elements_by_link_text('展开阅读全文 ∨'))

# ck_l_ori_ok = 0

# try:

#     for isc in range(100):

#         if ck_l_ori_ok == ck_l_ori_len:

#             break

#         time.sleep(1)

#         js = 'window.scrollTo(0,document.body.scrollHeight)'

#         js = 'window.scrollTo(0,100*{})'.format(isc)

#         browser.execute_script(js)

#         ck_l = browser.find_elements_by_link_text('展开阅读全文 ∨')

#         for i in ck_l:

#             try:

#                 i.click()

#                 ck_l_ori_ok += 1

#             except Exception as e:

#                 print(e)

# except Exception as e:

#     print('window.scrollTo-->', e)

js = "a_=document.getElementsByTagName('a');le=a_.length;for(i=0;i<le;i++){if(a_[i].text=='展开阅读全文 ∨'){try{a_[i].click()}catch(err){console.log(err)}}}"

try:

    browser.execute_script(js)

except Exception as e:

    print(e)

    ck_l_ori_len = len(browser.find_elements_by_link_text('展开阅读全文 ∨'))

    ck_l_ori_ok = 0

    try:

        for isc in range(100):

            if ck_l_ori_ok == ck_l_ori_len:

                break

            time.sleep(1)

            js = 'window.scrollTo(0,document.body.scrollHeight)'

            js = 'window.scrollTo(0,100*{})'.format(isc)

            browser.execute_script(js)

            ck_l = browser.find_elements_by_link_text('展开阅读全文 ∨')

            for i in ck_l:

                try:

                    i.click()

                    ck_l_ori_ok += 1

                except Exception as e:

                    print(e)

    except Exception as e:

        print('window.scrollTo-->', e)

from selenium import webdriver

import time

import random

from bs4 import *

from pyquery import PyQuery as pq

browser = webdriver.Chrome()

url = 'https://so.gushiwen.org/shiwenv_ee16df5673bc.aspx'

browser.get(url)

js = "a_=document.getElementsByTagName('a');le=a_.length;for(i=0;i<le;i++){if(a_[i].text=='展开阅读全文 ∨'){try{a_[i].click()}catch(err){console.log(err)}}}"

try:

    browser.execute_script(js)

except Exception as e:

    print(e)

    ck_l_ori_len = len(browser.find_elements_by_link_text('展开阅读全文 ∨'))

    ck_l_ori_ok = 0

    try:

        for isc in range(100):

            if ck_l_ori_ok == ck_l_ori_len:

                break

            time.sleep(1)

            js = 'window.scrollTo(0,document.body.scrollHeight)'

            js = 'window.scrollTo(0,100*{})'.format(isc)

            browser.execute_script(js)

            ck_l = browser.find_elements_by_link_text('展开阅读全文 ∨')

            for i in ck_l:

                try:

                    i.click()

                    ck_l_ori_ok += 1

                except Exception as e:

                    print(e)

    except Exception as e:

        print('window.scrollTo-->', e)

doc = pq(browser.page_source)

pq_r_d = {'xmlns="http://www.w3.org/1999/xhtml"': ''}

r_k, r_v = 'xmlns="http://www.w3.org/1999/xhtml"', ''

article_ = doc('.left>:nth-child(2).sons>.cont>.contson').html().replace(r_k, r_v)

title_d = {'h1': doc('.left>:nth-child(2).sons>.cont>:nth-child(2)').html().replace(r_k, r_v)}

author_d = {'h3': doc('.left>:nth-child(2).sons>.cont>:nth-child(3)').text()}

translation_ = doc('.left>:nth-child(4)>.contyishang>:nth-child(2)').html().replace(r_k, r_v)

explanation_ = doc('.left>:nth-child(4)>.contyishang>:nth-child(3)').html().replace(r_k, r_v)

refer_ = doc('.left>:nth-child(4)>.cankao').html().replace(r_k, r_v)

author_img_url = doc('.left>.sonspic>.cont>.divimg>:nth-child(1)').html().split('src="')[-1].split('"')[0]

d = 4

展开阅读全文 js 爬虫操作的更多相关文章

JS脚本实现CSDN免登陆免关闭广告插件自动展开“阅读更多”内容
最近在CSDN查资料,总是弹出以下弹窗,然后就自动跳转到登录页面,蛋疼! 于是重新捣腾了一下,修改了原来的脚本,最新的脚本代码如下: 温馨提示:在打开CSDN页面后立刻执行以下脚本即可免登陆免关闭广告 ...
jquery实现点击展开列表同时隐藏其他列表 js 对象操作对象原型操作把一个对象A赋值给另一个对象B 并且对象B 修改不会影响 A对象
这篇文章主要介绍了jquery实现点击展开列表同时隐藏其他列表的方法,涉及jquery鼠标事件及节点的遍历与属性操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下本文实例讲述了jquery实现点击 ...
Node.js爬虫-爬取慕课网课程信息
第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让 ...
吐槽CSDN--想钱想疯了--阅读全文需要关闭广告屏蔽
吐槽CSDN 想钱想疯了–阅读全文需要关闭广告屏蔽近来csdn开始主推博客皮肤升级,说白了就是有一套新的盈利模式,具体怎么操作呢: 1. 采用信息流方式,博客内容变成类似朋友圈.微博.知乎那样的信息 ...
页面循环绑定（变量污染问题），js面向对象编程（对象属性增删改查），js字符串操作，js数组操作
页面循环绑定(变量污染问题) var lis = document.querySelectorAll(".ul li") for ( var i = 0 ; i < lis. ...
CSDN不登录阅读全文（最新更新
CSDN真的烦...然而没卵用用stylus加两行css就行了: .article_content{height:auto!important} .hide-article-box{display: ...
vue实现文章内容过长点击阅读全文功能
直接上代码: html: <div class="bodyFont clearfloat" id="bodyFont" ref="bodyFon ...
js简单操作Cookie
贴一段js简单操作Cookie的代码: //获取指定名称的cookie的值 function getCookie(objName) { var arrStr = document.cookie.spl ...
使用HTML5的JS选择器操作页面中的元素
文件命名为:querySelector.html,可在Chrome浏览器中预览效果. 1 <!DOCTYPE html> 2 <html lang="en"> ...

随机推荐

扫黑除恶Team第四次团队作业
二.博客撰写要求文章开头给出团队序号,开发的软件名称,仓库地址. 给出完成本次冲刺需要做的事情(Sprint Backlog)及相应说明. 本次冲刺总结. 三.评分规则注意:本次作业总分61分.发 ...
ios摇一摇功能
在 UIResponder中存在这么一套方法 - (void)motionBegan:(UIEventSubtype)motion withEvent:(UIEvent *)event __OSX_A ...
简单的学生选课系统——基于Servlet+Ajax
以前挖的坑,早晚要往里掉.基础太薄弱,要恶补.在此程序前,我还对Servlet没有一个清晰的概念:一周时间写好此程序之后,对Servlet的理解清晰许多. 这周一直在恶补Spring,今天正好完成了S ...
c#数据库连接学习
/*通过C#winform程序访问数据库数据用到的命名空间和变量类型: using System.Data.SqlClient; SqlConnection:数据库连接类 SqlCommand:数据 ...
笔记——collections模块
collections模块 collections模块在内置数据类型(dict.list.set.tuple)的基础上,还提供了几个额外的数据类型:ChainMap.Counter.deque.def ...
Java使用ZXing生成/解析二维码图片
ZXing是一种开源的多格式1D/2D条形码图像处理库,在Java中的实现.重点是在手机上使用内置摄像头来扫描和解码设备上的条码,而不与服务器通信.然而,该项目也可以用于对桌面和服务器上的条形码进行编 ...
Open DBDiff 0.9
SQL Server 迁移过程经常会的出现,需要比对两个数据库之间,或者是表之间到底有何不同 SQL server 自带的tablediff Utility 是一个命令行的工具,对于偶尔需要做一次的体 ...
接口测试工具-fiddler的运用
本篇主要介绍一下fiddler的基本运用,包括查看接口请求方式,状态响应码,如何进行接口测试等一．Fiddler的优点独立的可以直接抓http请求小巧.功能完善快捷.启动就行代理方便二．什 ...
HDU 1079 简单博弈
判断下一步能否到达必胜态,如果可以当前状态就是必败态,否则当前状态记为必胜态 #include <cstdio> #include <cstring> #include < ...
网络编程基础：粘包现象、基于UDP协议的套接字
粘包现象: 如上篇博客中最后的示例,客户端有个 phone.recv(2014) , 当服务端发送给客户端的数据大于1024个字节时, 多于1024的数据就会残留在管道中,下次客户端再给服务端发命令时 ...

展开阅读全文 js 爬虫操作

展开阅读全文 js 爬虫操作的更多相关文章

随机推荐

热门专题