QQ空间动态内容，好友信息，点赞爬虫脚本

一、安装基础的软件包：

1、准备好火狐浏览器，并下载geckodriver，将geckodriver加入到环境变量：
下载geckodriver的地址：https://pan.baidu.com/s/1NDo04Zj8NxmlRe90_CDRow

2、下载selenium：
python pip install selenium

二、脚本说明：

from selenium import webdriver

from time import sleep

username='xxxxxxxxx'

password='xxxxxxxxxx'

qzone_url ='https://qzone.qq.com/'

'''qq空间自动登录登录'''

def login_qzone(url,username,password,browser_type='Firefox'):

    if browser_type == 'Firefox':

        driver = webdriver.Firefox()

    elif browser_type == 'Firefox_headless':      #用火狐的无边界浏览器

        fireFoxOptions = webdriver.FirefoxOptions()

        fireFoxOptions.set_headless()

        driver = webdriver.Firefox(firefox_options=fireFoxOptions)

    driver.get(url)

    if 'qzone' in url:

        pass

    else:

        driver.find_element_by_class_name('qzone').click()

        sleep(5)

        driver.switch_to.window(driver.window_handles[1])

    #print(driver.window_handles)

    driver.switch_to.frame('login_frame')           #这个很坑，里面还包括子页面

    pwd_login_button = driver.find_element_by_id('switcher_plogin')

    pwd_login_button.click()   #点击通过密码登录

    input_user =  driver.find_element_by_id('u')

    input_user.send_keys(username)

    input_pwd = driver.find_element_by_name('p')

    input_pwd.send_keys(password)

    login_button = driver.find_element_by_id('login_button')

    login_button.click()

    driver.switch_to.default_content()

    sleep(5)

    return driver

if __name__ == '__main__':

    login_qzone(qzone_url,username,password)

qzone_login.py

import qzone_login as login

from selenium.common.exceptions import  StaleElementReferenceException,NoSuchElementException

from selenium import webdriver

import time

import json

qq_number_dict ={}

def save_qq_number(tag_list):

    for line in tag_list:

        qq_number = line.get_attribute('href').split('/')[-1]

        qq_number_dict.update({qq_number:line.text})

'''得到qq空间里的所有好友，保存到文件里'''

def save_in_file():

    qq_number_dict.update({'save_time':time.time()})

    browser = login.login_qzone(login.qzone_url,login.username,login.password,browser_type = 'Firefox_headless')

    #browser = login.login_qzone(login.qzone_url,login.username,login.password)

    browser.get('https://user.qzone.qq.com/949885111/myhome/friends/index')

    browser.switch_to.default_content()

    frame = browser.find_element_by_tag_name('iframe')

    browser.switch_to.frame(frame)

    for i in range(60):

        target = browser.find_element_by_class_name('qz-button.btn-pager-next')

        browser.execute_script("arguments[0].scrollIntoView();", target)   #屏幕转到qz-button.btn-pager-next类的标签

        save_qq_number(browser.find_elements_by_class_name('textoverflow'))

        target.click()

        time.sleep(1)

    with open('qq_friends.json', 'w', encoding='utf-8') as f:

        f.write(json.dumps(qq_number_dict))

if __name__ == "__main__":

    with open('qq_friends.json', 'r', encoding='utf-8') as f:

        for line in f:

            save_time =json.loads(line)['save_time']

    if time.time() - save_time > 86400:

        save_in_file()

    else:

        with open('qq_friends.json', 'r', encoding='utf-8') as f:

            for line in f:

                print(len(json.loads(line)))

get_friends.py

import qzone_login as login

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

from selenium.common.exceptions import  ElementNotInteractableException,NoSuchFrameException,NoSuchElementException

import time

friend_qzone_url = 'https://user.qzone.qq.com/2453294057'

'''判断是否登录成功'''

def judge_login():

    pass

'''进入frame'''

def switch_frame(broeser,frame):

    while True:

        try:

            broeser.switch_to.frame(frame)     #一共两层

        except NoSuchFrameException:

            pass

        else:

            break

        time.sleep(2)        # 睡几秒，不然抓不到frame

'''抓异常并初步处理数据'''

def get_erroy(browser,tag,return_sign = False):

    try:

        execute_output = browser.find_element_by_class_name(tag)

    except NoSuchElementException :

        print(111111111111111111111122222)

        execute_output = ''

    else:

        if return_sign == False:

            execute_output = execute_output.text.replace(' ','').replace('\n','')

    return execute_output

''''分析生成了的所有页面'''

def analyse_html(broswser):

    data_dict = {}

    friend_speaks = broswser.find_elements_by_class_name('f-single.f-s-s')

    for speak in friend_speaks:

        qzone_talk = get_erroy(speak,'f-info')

        deta_time = get_erroy(speak,'ui-mr8.state')

        phone_model_tag = get_erroy(speak,'item',return_sign= True)

        if phone_model_tag != '':

            phone_model = phone_model_tag.find_element_by_tag_name('a').text

        else:

            phone_model = ''

        print(qzone_talk,phone_model,deta_time)

        data_dict.update({deta_time: [phone_model, qzone_talk]})

    return  data_dict

'''判断是否有亲密度弹窗'''

def judge_pop_up(browser):

    if len(browser.find_elements_by_class_name('btn-fs-sure')) != 0:

        browser.find_elements_by_class_name('btn-fs-sure')[0].click()

'''得到好友动态页面的所有数据'''

def get_all_data(friend_url):

    #driver = login.login_qzone(login.qzone_url, login.username, login.password)

    driver = login.login_qzone(login.qzone_url,login.username,login.password,browser_type = 'Firefox_headless')

    driver.get(friend_url)

    driver.switch_to.default_content()

    time.sleep(4)                            #睡几秒，不然抓不到亲密度弹窗

    judge_pop_up(driver)

    driver.find_element_by_id("aOwnerFeeds").click()

    driver.switch_to.default_content()

    switch_frame(driver,'app_canvas_frame')  #进入第一层frame

    switch_frame(driver,'frameFeedList')      #进入好友动态frame

    while True:

        try:

            target = driver.find_element_by_class_name('b-inline.data_btn_more')

            target.click()

        except ElementNotInteractableException:

            try:

                target = driver.find_element_by_class_name('b-inline.data_is_loading')

                target.click()

            except ElementNotInteractableException:

                pass

            time.sleep(3)

        finally:

            driver.execute_script("arguments[0].scrollIntoView(false);", target)

        finally_sign = driver.find_elements_by_class_name('b-inline.data_no_more.none')     # 找不到这个标签时就退出

        print(finally_sign)

        if len(finally_sign) == 0:

            break

        time.sleep(2)

    return driver

'''点赞'''

def give_like(browser):

    for like in browser.find_elements_by_class_name('item.qz_like_btn_v3'):

        browser.execute_script("arguments[0].scrollIntoView(false);", like)

        like.click()

        time.sleep(60)

if __name__ == '__main__':

    driver = get_all_data(friend_qzone_url)

    data = analyse_html(driver)

    print(data)

get_qzone_data.py

上面三个脚本包括：
1、第一个是登录的脚本，可以选择使用火狐的无边界模式。
2、第二个使用第一个登录后，将空间里的QQ好友信息拿到（qq号：好友备注）保存到json文件里面。
3、第三个使用第一个登录后，有两个功能：
　　1.得到该好友的所有动态的内容（只包括说说内容，发表的时间，和使用的手机号）
　　2.可以给好友点赞。注：点太快了会被冻结

注：以上只是学习selenium所写的小脚本，可别用于非法用途。

QQ空间动态内容，好友信息，点赞爬虫脚本的更多相关文章

QQ空间动态爬虫
作者:虚静链接:https://zhuanlan.zhihu.com/p/24656161 来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 先说明几件事: 题目的意 ...
仿QQ空间动态界面分享
先看看效果: 用极少的代码实现了动态详情及二级评论的数据获取与处理和 UI显示与交互,并且高解耦.高复用.高灵活. 动态列表界面MomentListFragment支持下拉刷新与上拉加载 ...
技术揭秘“QQ空间”自动转发不良信息
大家经常会看到QQ空间自动转发一些附带链接的不良信息,即便我们的QQ密码并没有被盗取.最近通过对一个QQ空间自动转发链接进行分析,发现该自动转发机制通过利用腾讯网站存在漏洞的页面,精心构造出利用代码获 ...
社交媒体（朋友圈、微博、QQ空间）开发一网打尽，PC端移动端都有！——源码来袭！
一.应用场景曾几何时,社交媒体已经驻扎到了几乎每个人的生活中.看看你身边的朋友,有几个不玩朋友圈的?就算他不玩朋友圈,那也得玩微博吧.再没有底线,也得玩QQ空间. 不过,作为程序员的我们,没事还是少 ...
长姿势教你在qq空间上显示iPhone6尾巴
下午刚午休完的时候,广州很多童鞋都感受到了震感,半青也感受到了,不仅如此,我还感受到了更大震感,那就是翻一下QQ空间动态,竟然看到有一位好友的尾巴竟然显示为“iPhone6”,顿时觉得该好友逼格太高了 ...
QQ空间漫步者
主要功能(QQ空间) 判断空间权限并跳过无法访问留下足迹并可选:同时留言(可单独),赞主页(可单独),赞说说(可单独) 其他附加功能,导出QQ,导入群成员,好友,空间访客,说说评论,发表说说送空间 ...
QQ空间爬虫--获取好友信息
QQ空间网页版:https://user.qzone.qq.com/ 登陆后,进入设置,有一个权限设置,设置“谁能看我的空间”为好友可见,然后构造爬虫. (1)获取Cookie 两种方式: 第一种:通 ...
Python爬虫实战：使用Selenium抓取QQ空间好友说说
前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据. 但是有的时候,网页数据由JS生成,A ...
Python 爬虫监控女神的QQ空间新的说说,实现秒赞,并发送说说内容到你的邮箱
这个文章主要是在前一篇文章上新增了说说秒赞的功能前一篇文章可以了解一下那么,这次主要功能就是监控女神的 QQ空间,一旦女神发布新的说说,马上点赞,你的邮箱马上就会收到说说内容,是不是想了解一下 ...

随机推荐

vs 常用工具
工欲善其事,必先利其器,没有好的工具,怎么能高效的开发出高质量的代码呢?本文为 ASP.NET 开发者介绍一些高效实用的工具,包括 SQL 管理,VS插件,内存管理,诊断工具等,涉及开发过程的各个环节 ...
Jmeter负载测试例子
通过浏览器操作网站在jmeter录屏控制器显示录屏例子,并且通过这例子模拟多用户(线程)来负载测试. 工具/原料 Jmeter 浏览器 1.先在测试计划创建线程组和录制Case 1 1.1 选 ...
11个免费的Web安全测试工具
1.Netsparker Community Edition(Windows) 这个程序可以检测SQL注入和跨页脚本事件.当检测完成之后它会给你提供一些解决方案. 2.Websecurify(Wind ...
Android Canvas和Paint基本使用
这篇文章主要介绍下画笔Paint和画布Canvas的基本使用 1.Paint 创建对象Paint mPaint = new Paint(); 常用的基本方法有 : mP ...
spark(1.1) mllib 源码分析(二)-相关系数
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4024733.html 在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数 ...
《The Swift Programming Language》的笔记-第24页
The Swift Programming Language读书笔记学习笔记第24页本页主要内容有两个:打印输出和怎样在swift凝视代码 1 怎样打印变量和常量的值? 使用println函数,细 ...
获取WPF的DataGrid控件中，是否存在没有通过错误验证的Cell
/// <summary> /// 获取DataGrid的所有行是否存在验证错误. /// </summary> /// &l ...
学习DBCC CHECKIDENT
检查指定表的当前标识值,如有必要,还对标识值进行更正. 语法DBCC CHECKIDENT ( 'table_name' [ , { NORESEED ...
C语言必掌握知识点
个人总结,学c的赶快看 1-.++a 和 a++ 的差别: ++a 先加在赋值 a++ 先赋值在加后者赋给变量b的值为a而不是a+1后的值 2-.按位与同为1时为1,其 ...
Duilib教程－简单介绍
在读这篇博客的时候,可能您已经对duilib有一定的了解.所以,我并不打算对duilib进行过多的介绍.它的内核首先由外国人编写,后来由国人一个小组接过来继续编写,于是就有了现在的Duilib. 1. ...

QQ空间动态内容，好友信息，点赞爬虫脚本

一、安装基础的软件包：

二、脚本说明：

QQ空间动态内容，好友信息，点赞爬虫脚本的更多相关文章

随机推荐

热门专题