selenium爬取qq空间，requests爬取雪球网数据

一、爬取qq空间好友动态数据

# 爬取qq空间好友状态信息(说说，好友名称)，并屏蔽广告

from selenium import webdriver

from time import sleep

from lxml import etree

# 自动操作浏览器

bro = webdriver.Chrome(executable_path=r'D:\爬虫+数据分析\tools\chromedriver.exe')

bro.get('https://qzone.qq.com/')

sleep(3)

#注意：如果想要通过find系列函数去定位某一个iframe标签下的子标签的话，一定要使用如下操作：

bro.switch_to.frame('login_frame')#参数表示的是iframe标签的id属性值，，ifram是子标签

bro.find_element_by_id('switcher_plogin').click()  # 单击id为switcher_plogin的页面标签，即点击账号密码登录

sleep(3) # 等待数据加载

# 自动输入用户名，密码登录空间

bro.find_element_by_id('u').send_keys('')

bro.find_element_by_id('p').send_keys('qq密码')

sleep(3)

bro.find_element_by_id('login_button').click()

sleep(3)

# 点击‘个人中心’，进到好友动态

bro.find_element_by_id('aIcenter').click()

sleep(3)

# 拖动滚轮，一次一屏；加载动态数据

bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

sleep(3)

bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

sleep(3)

bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

sleep(3)

# 获取浏览器当前的页面源码数据

page_text = bro.page_source  

# 数据解析

tree = etree.HTML(page_text)

li_list = tree.xpath('//ul[@id="feed_friend_list"]/li')

for li in li_list:

    user_name_list = li.xpath(".//div[@class='user-info']/div[@class='f-nick']/a/text()")

    text_list = li.xpath('.//div[@class="f-info"]/text()|.//div[@class="f-info qz_info_cut"]//text()') # 需要展开的说说类名不同

    for tu in zip(user_name_list,text_list):

        text = '\n'.join(tu)

        print(text+'\n\n')

bro.close() # 关闭浏览器

二、爬取雪球网的新闻的标题、作者、来源等

import requests

import json

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36',

}

url_index = 'https://xueqiu.com'

url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=-1'

# 创建一个session对象

session = requests.Session()

#使用session进行请求的发送：获取cookie，且将cookie保存到session中

session.get(url_index,headers=headers)

# 获取json响应数据

json_dic = session.get(url=url,headers=headers).json()

for dic in json_dic["list"]:

    data = dic["data"]

    data_dic = json.loads(data)

    title = data_dic["title"]

#     description = data_dic["description"]

    column = dic["column"]

    author =  data_dic["user"]["screen_name"]

    print(f"标题：{title}\n来源：{column}\n作者：{author}\n")

selenium爬取qq空间，requests爬取雪球网数据的更多相关文章

python+selenium+requests爬取qq空间相册时遇到的问题及解决思路
最近研究了下用python爬取qq空间相册的问题,遇到的问题及解决思路如下: 1.qq空间相册的访问需要qq登录并且需是好友,requests模块模拟qq登录略显麻烦,所以采用selenium的dri ...
通过Scrapy抓取QQ空间
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后 ...
使用Python+Selenium模拟登录QQ空间
使用Python+Selenium模拟登录QQ空间爬QQ空间之类的页面时大多需要进行登录,研究QQ登录规则的话,得分析大量Javascript的加密解密,这绝对能掉好几斤头发.而现在有了seleniu ...
selenium iframe 定位 qq空间说说
selenium iframe 定位 qq空间说说
用python爬取QQ空间
好久没写博文了,最近捣鼓了一下python,好像有点上瘾了,感觉python比js厉害好多,但是接触不久,只看了<[大家网]Python基础教程(第2版)[www.TopSage.com]> ...
Python_小林的爬取QQ空间相册图片链接程序
前言昨天看见某人的空间有上传了XXXX个头像,然后我就想着下载回来[所以本质上这是一个头像下载程序],但是一个个另存为太浪费时间了,上网搜索有没有现成的工具,居然要注册码,还卖45一套.你们的良心也 ...
Python爬虫实战：使用Selenium抓取QQ空间好友说说
前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据. 但是有的时候,网页数据由JS生成,A ...
selenium firefox 提取qq空间相册链接
环境: selenium-java 3.9.1 firefox 57.0 geckodriver 0.19.1 1.大概的思路就是模拟用户点击行为,关于滚动条的问题,我是模拟下拉箭头,否则只能每个相册 ...
python selenium爬取QQ空间方法
from selenium import webdriver import time # 打开浏览器 dr = webdriver.Chrome() # 打开某个网址 dr.get('https:// ...

随机推荐

python's descriptor
[python's descriptor] 1.实现了以下三个方法任意一个的,且作为成员变量存在的对象,就是descriptor. 1)object.__get__(self, instance, o ...
zoj1037-Gridland
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=37 Gridland Time Limit: 2 Seconds Me ...
sql设置字段默认值
alter table 表名 modify 字段名 default 默认值;
AlienWare
https://www.chiphell.com/thread-1705089-1-1.html AlienWare
freemaker 优缺点及应用配置
通俗的讲,freemaker其实就是一个模板引擎.什么意思呢?——Java可以基于依赖库,然后在模板上进行数据更改(显示). 在模板中,您专注于如何呈现数据,而在模板外(后台业务代码),您将专注于呈现 ...
删除右键菜单中的Git Gui Here、Git Bash Here的方法
修改注册表的方法: 1.点击左下角开始菜单 - 运行(输入regedit)- 确定或者回车: 2.在打开的注册表中找到:HKEY_CLASSES_ROOT,并点HKEY_CLASSES_ROOT前面的 ...
python str, list，tuple, dir
Python3 字符串字符串是 Python 中最常用的数据类型.我们可以使用引号('或")来创建字符串. 创建字符串很简单,只要为变量分配一个值即可.例如: var1 = 'Hello ...
Hadoop权威指南文摘
第1章初识Hadoop 1.1 数据!数据! 1.2 数据的存储与分析 HDFS实现数据的存储,MapReduce实现数据额分析与处理 1.3 相较于其他系统的优势 MapReduce是一个批量查询 ...
Spring 事务不回滚
为了打印清楚日志,很多方法我都加tyr catch,在catch中打印日志.但是这边情况来了,当这个方法异常时候日志是打印了,但是加的事务却没有回滚. 例: 类似这样的方法不会回滚 (一个方 ...
[转]Linux Swap交换分区、交换文件
free -m 在日常应用中,通过上述命令看到交换空间的使用情况为0,那么你就不需要很大的虚拟内存,甚至可以完全不需要另辟硬盘空间作为虚拟内存.那么,万一有一天你需要了呢,难道要重装系统?大可不必,在 ...

selenium爬取qq空间，requests爬取雪球网数据

一、爬取qq空间好友动态数据

二、爬取雪球网的新闻的标题、作者、来源等

selenium爬取qq空间，requests爬取雪球网数据的更多相关文章

随机推荐

热门专题