爬虫学习06用selenium爬取空间

用selenium爬取空间

from selenium import webdriver

from lxml import etree

import time

pro = webdriver.Chrome(executable_path=r'C:\Users\古月蜀黍\Desktop\chromedriver_win32\chromedriver.exe')

pro.get(url='https://i.qq.com/?s_url=http%3A%2F%2Fuser.qzone.qq.com%2F1355144989%2Finfocenter')

# 获取iframe标签

pro.switch_to.frame('login_frame')

my_button = pro.find_element_by_id('switcher_plogin')

my_button.click()

# 输入账号密码

username = pro.find_element_by_id('u')

username.send_keys('1355144989')

password = pro.find_element_by_id('p')

password.send_keys('liqian521.1314')

login = pro.find_element_by_id('login_button')

login.click()

time.sleep(2)

js = 'window.scrollTo(0, document.body.scrollHeight)'

pro.execute_script(js)

time.sleep(2)

pro.execute_script(js)

time.sleep(2)

pro.execute_script(js)

time.sleep(2)

pro.execute_script(js)

time.sleep(2)

pro.execute_script(js)

time.sleep(2)

# 获取当前显示页面的源数据

page_text = pro.page_source

tree = etree.HTML(page_text)

text = tree.xpath('//div[@class="f-info"]//text()')

print(text)

pro.quit()

无界面浏览器PhantomJS

from selenium import webdriver

import time

pro = webdriver.PhantomJS(executable_path=r'C:\Users\古月蜀黍\Desktop\文件汇总\爬虫\phantomjs\bin\phantomjs.exe')

pro.get(url = 'https://www.baidu.com')

# 根据find系列的函数定位到指定标签

my_input = pro.find_element_by_id('kw')

# 向获取的标签中输入数据

time.sleep(2)

my_input.send_keys('胡涛')

pro.save_screenshot('./1.jpg')

my_button = pro.find_element_by_id('su')

# 给标签绑定点击事件

time.sleep(2)

my_button.click()

# 获取当前显示页面的源码

time.sleep(2)

pro.save_screenshot('./2.jpg')

page_text = pro.page_source

print(page_text)

# 退出页面

pro.quit()

谷歌无界面浏览器的配置

# 无界面浏览器的配置

from selenium.webdriver.chrome.options import Options

chrome_options = Options()

chrome_options.add_argument('--headless')

chrome_options.add_argument('--disable-gpu')

from selenium import webdriver

import time

pro = webdriver.Chrome(executable_path=r'C:\Users\古月蜀黍\Desktop\chromedriver_win32\chromedriver.exe',chrome_options=chrome_options)

pro.get('https://www.baidu.com')

# 根据find系列的函数定位到指定标签

my_input = pro.find_element_by_id('kw')

# 向获取的标签中输入数据

time.sleep(2)

my_input.send_keys('胡涛')

pro.save_screenshot('./111.png')

my_button = pro.find_element_by_id('su')

# 给标签绑定点击事件

time.sleep(2)

my_button.click()

# 获取当前显示页面的源码

time.sleep(2)

pro.save_screenshot('./222.png')

page_text = pro.page_source

print(page_text)

# 退出页面

pro.quit()

爬虫学习06用selenium爬取空间的更多相关文章

爬虫系列(十三) 用selenium爬取京东商品
这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 1.网页分析 (1)初步分析原本博主打算写一个能够爬取所有商品信息的爬虫,可是在分析过程 ...
爬虫学习（二）--爬取360应用市场app信息
欢迎加入python学习交流群 667279387 爬虫学习爬虫学习(一)-爬取电影天堂下载链接爬虫学习(二)–爬取360应用市场app信息代码环境:windows10, python 3.5 ...
webcollector + selenium 爬取空间相册图片
package cn.hb.util; import java.io.File; import java.io.FileNotFoundException; import java.io.FileWr ...
Python爬虫学习三------requests+BeautifulSoup爬取简单网页
第一次第一次用MarkDown来写博客,先试试效果吧! 昨天2018俄罗斯世界杯拉开了大幕,作为一个伪球迷,当然也得为世界杯做出一点贡献啦. 于是今天就编写了一个爬虫程序将腾讯新闻下世界杯专题的相关新 ...
Python爬虫学习之使用beautifulsoup爬取招聘网站信息
菜鸟一只,也是在尝试并学习和摸索爬虫相关知识. 1.首先分析要爬取页面结构.可以看到一列搜索的结果,现在需要得到每一个链接,然后才能爬取对应页面. 关键代码思路如下: html = getHtml(& ...
Python爬虫学习（6）: 爬取MM图片
为了有趣我们今天就主要去爬取以下MM的图片,并将其按名保存在本地.要爬取的网站为: 大秀台模特网 1. 分析网站进入官网后我们发现有很多分类: 而我们要爬取的模特中的女模内容,点进入之后其网址为:h ...
selenium 爬取空间说说
package cn.hb.util; import java.io.File; import java.io.FileWriter; import java.io.IOException; impo ...
爬虫实战(二) 用Python爬取网易云歌单
最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序这篇 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...

随机推荐

微信小程序echart 折线图legend不显示的问题
最近使用小程序echart折线图,遇到表头一直不显示问题,查询之后解决方案:
Pytorch快速入门及在线体验
本文搭配了Pytorch在线环境,可以直接在线体验. Pytorch是Facebook 的 AI 研究团队发布了一个基于 Python的科学计算包,旨在服务两类场合: 1.替代numpy发挥GPU潜能 ...
struts实现邮件发送功能
在实现邮件发送的时候首先需要用到mail.jar开发包,有关mail.jar的下载可以去百度自行下载下面是邮件发送核心代码 package com.yysj.lhb.action; import j ...
CentOS双机中Docker下安装Mysql并配置互为主从模式
CentOS双机中Docker下安装Mysql并配置互为主从模式目录 1.搜索镜像... 1 2.拉取镜像... 1 3.绑定端口: 1 4.配置文件(修改/etc/mysql/my.cnf文件): ...
C#6.0中10大新特性的应用和总结
微软发布C#6.0.VS2015等系列产品也有一段时间了,但是网上的教程却不多,这里真对C#6.0给大家做了一些示例,分享给大家. 微软于2015年7月21日发布了Visual Studio 20 ...
hive javaapi 002
默认开启10000端口开启前,编辑hive-site.xml设置impersonation,防止hdfs权限问题,这样hive server会以提交用户的身份去执行语句,如果设置为false,则会以起 ...
java中二维数组的复制克隆
https://blog.csdn.net/qq_37232304/article/details/79950022
手动创建mfc工程(留存方便复制)
案例一. #include <afxwin.h> class CMyWnd : public CWnd { //DECLARE_DYNCREATE(CMyWnd) public: CMyW ...
css实现文字太长，显示省略号
/*显示为省略号*/ overflow:hidden;/*隐藏*/ white-space:nowrap;/*文本不进行换行*/text-overflow:ellipsis;/*省略号*/ /*强制 ...
最近点对HDU1007
利用二分的方法来计算,应该是说利用分治的方法吧! 刚开始感觉时间会爆后来发现嘎嘎居然没有 ,嗨自己算错了时间: #include <iostream> #include<cstdi ...

爬虫学习06用selenium爬取空间

爬虫学习06用selenium爬取空间的更多相关文章

随机推荐

热门专题