爬虫之selenium模拟点击

在利用爬虫爬取页面HTML信息得时候有的当你运用request方法爬取时爬下来得HTML信息和网站信息不相符，这也导致以后得爬去无法进行，这也是反扒机制之一，解决办法时利用代码进行模拟网页点击，来爬去相应得信息。

注：以下代码以今日头条网站为例！

具体代码如下：

import requests

from lxml import etree

import os

#模拟浏览器行为

from selenium import webdriver

from mysqldb import ConnectMysql

import pymysql

class Gevent_spider(object):

def get_html(self,url):

#根据网址为所获得的HTML文件命名

if url == 'https://www.toutiao.com/ch/news_image/':

file_name = 'toutiao.html'

else:

file_name = 'inner_pear.html'

#定义一个新的变量接收匹配后的值

html_content = ''

#使用os模块来判断文件是否存在如果不存在直接写文件

if not os.path.exists(file_name):

#利用selenium方法来模拟人点击浏览器行为获取正式html

browser = webdriver.Chrome()

#get获取页面信息

browser.get(url)

#解码并进行赋值

html = browser.page_source.encode("utf-8").decode()

#设置等待时间等待模拟器操作完成

time.sleep(5)

#将爬去的HTML写入文件

with open('./'+file_name,'w',encoding='utf-8') as f:

f.write(html)

#关闭模拟行为

browser.quit()

#对空变量进行赋值

html_content = html

#如果文件存在直接读取文件中的信息，

else:

with open('./'+ file_name,encoding='utf-8') as f:

contents = f.read()

#对空变量重新复制

html_content = contents

#将爬取的信息传入解析模板方法

self.xpath_html(html_content)

#定义解析方法

def xpath_html(self,html):

#利用LXML方法解析HTML

html = etree.HTML(html)

#匹配图片标签因为图片标签隐藏在不同的层次下所以匹配两个

img_list = html.xpath("//div[@class='image-wrap middle left']/img/@src")

img_list1 = html.xpath("//div[@class='image-wrap large']/img/@src")

#遍历其中一个图片列表将其添加到另一个已保证图片列表得完整性

for item in img_list1:

img_list.append(item)

#下载图片

for item in img_list:

#定义下载到得地址

path = "E:/头条/"

if os.path.exists(path):

filepath = requests.get('http://'+item.replace('//',''))

filepath1 = filepath.content

picname = item.split("/")[-1]

with open(path + "/" + picname+'.jpg',"wb") as f:

f.write(filepath1)

#匹配内页网址和标题

url_list = html.xpath("//ul[@class='imgList']/li/a/@href")

title_list= html.xpath("//p[@class='des']/text()")

#手动添加url 便利后添加到列表

url_list1 = []

for item in url_list:

item = 'https://www.toutiao.com' + item

url_list1.append(item)

#判断标题去除空格

title_list1 = []

for item in title_list:

if item == " ":

pass

else:

title_list1.append(item)

# print(url_list1,"+++++++++",img_list,"+++++++++",title_list1)

# print(len(url_list1),"+++++++++",len(img_list),"+++++++++",len(title_list1))

#将匹配后得数据传到入库方法中

self.insert_db(url_list1,title_list1,img_list)

#定义写成入库方法

def insert_db(self,url_list1,title_list1,img_list):

#建立数据库连接

conn = pymysql.connect(host='localhost',user='root',password='mysql',database='mymac',charset='utf8')

#定义游标对象

cursor = conn.cursor()

#入库操作

for item in range(len(img_list)):

cursor.execute(" insert into `toutiao_spider` values ('%s','%s','%s') " % (url_list1[item],title_list1[item],img_list[item]))

conn.commit()

cursor.close()

conn.close()

#爬取内页

# def get_inner_data(self,list):

# for item in list:

# # print(item)

# browser = webdriver.Chrome()

# browser.get(item)

# html = browser.page_source.encode("utf-8").decode()

# time.sleep(5)

# browser.quit()

# html = etree.HTML(html)

# title = html.xpath("//div[@class='info-box-inner']/h2/text()")

# print(title)

#端点测试

# exit(-1)

#程序入口

if __name__ == "__main__":

#实例化对象

gevent_spider = Gevent_spider()

#调用方法并传相应参数

gevent_spider.get_html('https://www.toutiao.com/ch/news_image/')

mysqldb.py 文件具体代码：

#导包

import pymysql

#定义数据库公共类

class ConnectMysql(object):

#定义方法连接mysql

def connect_mysql(self):

#建立连接对象

conn = pymysql.connect(host='localhost',user='root',password='mysql',database='mymac',charset='utf8')

return conn

爬虫之selenium模拟点击的更多相关文章

python爬虫:使用Selenium模拟浏览器行为
前几天有位微信读者问我一个爬虫的问题,就是在爬去百度贴吧首页的热门动态下面的图片的时候,爬取的图片总是爬取不完整,比首页看到的少.原因他也大概分析了下,就是后面的图片是动态加载的.他的问题就是这部分动 ...
Python使用selenium模拟点击(一)
本文适合有点Python基础阅读,(没基础的话,相对的比较蒙蔽,争取能让小白能一步一步跟上来) 2019-03-05 14:53:05 前几天由于需要到一个网站进行签到~~听说Python能够模拟请求 ...
Python使用selenium模拟点击(二)
本篇文章是接着第一篇文章讲的具体可看第一篇:https://www.cnblogs.com/whatarey/p/10477754.html 要实现功能>搜索完毕,自动点击这个功能做的停操蛋 ...
Python使用selenium模拟点击，进入下一页(三)
嗯,昨天呢,我们已经实现了自动输入百度然后搜索Cgrain,然后点击按钮,进入我的页面,在这里呢,有个问题 ActionChains(seleniumGoo).move_by_offset(-480, ...
python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
爬虫之动态HTML处理（Selenium与PhantomJS ）动态页面模拟点击
动态页面模拟点击 #!/usr/bin/env python # -*- coding:utf-8 -*- # python的测试模块 import unittest from selenium im ...
selenium + firefox/chrome/phantomjs登陆之模拟点击
登陆之模拟点击工具:python/java + selenium + firefox/chrome/phantomjs (1)windows开发环境搭建默认已经安装好了firefox 安装pip ...
使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据
记录一次快速实现的python爬虫,想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案,网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995. ...
七、Selenium与phantomJS----------动态页面模拟点击、网站模拟登录
每天一个小实例1(动态页面模拟点击,并爬取你想搜索的职位信息) from selenium import webdriver from bs4 import BeautifulSoup # 调用环境变 ...

随机推荐

洛谷P4593 [TJOI2018]教科书般的亵渎(拉格朗日插值)
题意题目链接 Sol 打出暴力不难发现时间复杂度的瓶颈在于求\(\sum_{i = 1}^n i^k\) 老祖宗告诉我们,这东西是个\(k\)次多项式,插一插就行了上面的是\(O(Tk^2)\)的 ...
JS检测浏览器Adobe Reader插件
Web应用中当我们希望向用户显示pdf文档时候,如果用户安装了Adobe Reader之类的pdf阅读器,就可以直接打开文档在浏览器中显示, 但是,当用户没有安装这类软件的时候,自然是打不开的,为了系 ...
【机器学习基本理论】详解最大后验概率估计（MAP）的理解
[机器学习基本理论]详解最大后验概率估计(MAP)的理解 https://blog.csdn.net/weixin_42137700/article/details/81628065 最大似然估计(M ...
添加/删除/修改Windows 7右键的“打开方式”
右键菜单添加/删除"打开方式" 此"打开方式"非系统的"打开方式",二者可以并存. 右键菜单添加"打开方式" 在HKEY ...
hdu-2018题（母牛问题）
HDU-2018题/*有一头母牛,它每年年初生一头小母牛.每头小母牛从第四个年头开始,每年年初也生一头小母牛.请编程实现在第n年的时候,共有多少头母牛?Input输入数据由多个测试实例组成,每个测试实 ...
mumu模拟器安装xposed--如何在android模拟器上进行root
问题描述安装xposed表示failed to access root权限,新版的mumu模拟器没有了root选项,需要自己root. 1.先关掉应用兼容性,然后重启电脑一般都是x86的,mumu ...
关于js脚本宿主对脚本代码的绑定
脚本代码绑定,Unity3D是这样做的.为了体现Unity3D的基于对象设计,Unity3D可以为每个对象绑定多个脚本文件,可以是js,可以是cs,也可以是boo. threejs/editor也有与 ...
根据浏览器内核判断是web/iOS/android/ipad/iphone 来打开不同的网站或页面
纯js,直接分享,直接使用: var browser={ versions:function(){ var u = navigator.userAgent, app = navigator.appVe ...
【数据分析】线性回归与逻辑回归（R语言实现）
文章来源:公众号-智能化IT系统. 回归模型有多种,一般在数据分析中用的比较常用的有线性回归和逻辑回归.其描述的是一组因变量和自变量之间的关系,通过特定的方程来模拟.这么做的目的也是为了预测,但有时也 ...
List泛型与DataTable相互转换
public static class ExtensionMethods{/// <summary>/// 将List转换成DataTable/// </summary>/// ...

爬虫之selenium模拟点击

爬虫之selenium模拟点击的更多相关文章

随机推荐

热门专题