title: QQ空间数据抓取

author: 杨晓东

permalink: QQ空间数据抓取

date: 2021-10-02 11:27:04

categories:

- 嗯哼

tags:

- 无聊

QQ空间数据抓取

import time

import os

from selenium import webdriver

from bs4 import BeautifulSoup

from selenium.webdriver.common.action_chains import ActionChains

import requests

# 登陆QQ访问对方QQ空间

def login(login_qq, password, business_qq):

    '''

    登陆

    :param login_qq: 登陆用的QQ

    :param password: 登陆的QQ密码

    :param business_qq: 业务QQ

    :return: driver

    '''

    print("开始登陆中...")

    driver.get('https://user.qzone.qq.com/{}/311'.format(business_qq))  # URL

    driver.implicitly_wait(10)  # 隐示等待，为了等待充分加载好网址

    driver.find_element_by_id('login_div')

    driver.switch_to.frame('login_frame')  # 切到输入账号密码的frame

    driver.find_element_by_id('switcher_plogin').click()  ##点击‘账号密码登录’

    driver.find_element_by_id('u').clear()  ##清空账号栏

    driver.find_element_by_id('u').send_keys(login_qq)  # 输入账号

    driver.find_element_by_id('p').clear()  # 清空密码栏

    driver.find_element_by_id('p').send_keys(password)  # 输入密码

    driver.find_element_by_id('login_button').click()  # 点击‘登录’

    driver.switch_to.default_content()

    driver.implicitly_wait(10)

    time.sleep(5)

    try:

        driver.find_element_by_id('QM_OwnerInfo_Icon')

        print("登陆完成....")

        return driver

    except:

        print('不能访问' + business_qq)

        return None

# 抓取说说

def get_shuoshuo(driver):

    page = 1

    while True:

        # 下拉滚动条

        for j in range(1, 5):

            driver.execute_script("window.scrollBy(0,5000)")

            time.sleep(2)

            # 切换 frame

        driver.switch_to.frame('app_canvas_frame')

        # 构建 BeautifulSoup 对象

        bs = BeautifulSoup(driver.page_source.encode('GBK', 'ignore').decode('gbk'))

        # 找到页面上的所有说说

        pres = bs.find_all('pre', class_='content')

        for pre in pres:

            shuoshuo = pre.text

            tx = pre.parent.parent.find('a', class_="c_tx c_tx3 goDetail")['title']

            print(tx + ":" + shuoshuo)

            with open('她的空间动态.txt', 'a+') as f:

                f.write('\n' + tx + ":" + shuoshuo + '\n')

                f.close()

            # 页数判断

        page = page + 1

        maxPage = bs.find('a', title='末页').text

        if int(maxPage) < page:

            break

        driver.find_element_by_link_text(u'下一页').click()

        # 回到主文档

        driver.switch_to.default_content()

        # 等待页面加载

        time.sleep(3)

# 计数函数

def num(name_a):

    name_a+=1

    return name_a

# 下载图片  单个相册中点击图片

def get_photo(driver):

    # 照片下载路径

    photo_path = r"E:\DC\2548957387\{}.jpg"

    mkdir_path = r'E:\DC\2548957387'

    if os.path.exists(mkdir_path):

        pass

    else:

        mkdir_path = os.mkdir(r'E:\DC\2548957387')

    # 相册索引

    photoIndex = 1

    while True:

        # 回到主文档

        driver.switch_to.default_content()

        # driver.switch_to.parent_frame()

        # 点击头部的相册按钮

        driver.find_element_by_xpath('//*[@id="menuContainer"]/div/ul/li[3]/a').click()

        # 等待加载

        driver.implicitly_wait(10)

        time.sleep(3)

        # 切换 frame

        driver.switch_to.frame('app_canvas_frame')

        # 各个相册的超链接

        a = driver.find_elements_by_class_name('album-cover')

        # 单个相册

        a[photoIndex].click()

        # 隐式等待，5秒钟内只要找到了元素就开始执行，10秒钟后未找到，就超时；

        driver.implicitly_wait(10)

        # 等待10秒

        time.sleep(3)

        # 相册的第一张图

        p = driver.find_elements_by_class_name('item-cover')[0]

        p.click()

        time.sleep(3)

        # 相册大图在父frame，切换到父frame

        driver.switch_to.parent_frame()

        # 循环相册中的照片

        name_a = 0

        while True:

            # 照片url地址和名称

            # img = driver.find_element_by_id('js-img-disp')

            img = driver.find_element_by_xpath('//*[@id="js-img-border"]/img')

            print(img)

            src = img.get_attribute('src').replace('&t=5', '')

            name = driver.find_element_by_id("js-photo-name").text

            # 下载

            print(src)

            print(photo_path.format(name))

            req = requests.get(src)

            name_a+=1

            with open(photo_path.format(name + "-" + str(name_a)),'wb') as f:

                f.write(req.content)

                f.close()

                print("第 {} 张，已下载！！！！".format(name_a))

            # urlretrieve(src,photo_path.format(miss_qq,name))

            # 取下面的 当前照片张数/总照片数量

            counts = driver.find_element_by_xpath('//*[@id="js-ctn-infoBar"]/div/div[1]/span').text

            print(counts + "张！")

            counts = counts.split('/')

            # 最后一张的时候退出照片浏览

            if counts[0] == counts[1]:

                # 右上角的 X 按钮

                driver.find_element_by_xpath('//*[@id="js-viewer-main"]/div[1]/a').click()

                print("右上角x")

                break

            # 点击 下一张，网页加载慢，所以10次加载

            for i in (1, 10):

                if driver.find_element_by_id('js-btn-nextPhoto'):

                    n = driver.find_element_by_id('js-btn-nextPhoto')

                    ActionChains(driver).click(n).perform()

                    print("等待1秒，点击下一张.....")

                    time.sleep(1)

                    break

                else:

                    time.sleep(5)

                    print("否则time5秒")

                    # 相册数量比较，是否下载了全部的相册

        photoIndex = photoIndex + 1

        if len(a) <= photoIndex:

            break

if __name__ == '__main__':

    # 输入QQ信息

    qq_num = input("请输入自己的QQ：")

    qq_pwd = input("请输入自己的QQ密码：")

    miss_qq = input("请输入要查看的QQ：")

    # 标识 当前目录

    path = os.getcwd()

    url = "https://www.ispfsb.com/Public/FOID.aspx"

    headers = {

        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}

    # 去除浏览器被控  字样

    options = webdriver.ChromeOptions()

    options.add_experimental_option("excludeSwitches", ['enable-automation'])

    options.add_experimental_option('useAutomationExtension', False)

    # 浏览器扩展程序

    # 语音识别程序

    # extension_path1 = './1.2.2_0.crx'

    # xpath程序

    extension_path2 = './2.1.0.0_0.crx'

    # options.add_extension(extension_path1)

    options.add_extension(extension_path2)

    driver = webdriver.Chrome(options=options)  # driver = webdriver.Chrome(executable_path=r'D:PATHchromedriver.exe')?

    driver.maximize_window()

    # 登陆

    login(qq_num, qq_pwd, miss_qq)

    # 爬取说说

    get_shuoshuo(driver)

QQ空间数据抓取的更多相关文章

C#使用Selenium实现QQ空间数据抓取说说抓取
上一篇讲的是如何模拟真人操作登录QQ空间,本篇主要讲述一下如何抓取QQ说说数据继续登录空间后的操作登陆后我们发现QQ空间的菜单其实是固定的,只需要找到对应元素就可以,继续XPath 可以得到地址 ...
C#使用Selenium实现QQ空间数据抓取登录QQ空间
经@吃西瓜的星星提醒首先我们介绍下Selenium Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE.Mo ...
周董新歌搞崩QQ，抓取20W评论看看歌迷在说啥
9 月 16 日晚间,周董在朋友圈发布了最新单曲<说好不哭> 发布后,真的让一波人哭了一群想抢鲜听的小伙伴直接泪奔因为 QQ 音乐直接被搞崩了没想到干翻 QQ 音乐的不是网易云音乐 ...
htmlunit+fastjson抓取酷狗音乐 qq音乐链接及下载
上次学了jsoup之后,发现一些动态生成的网页内容是无法抓取的,于是又学习了htmlunit,下面是抓取酷狗音乐与qq音乐链接的例子: 酷狗音乐: import java.io.BufferedInp ...
通过Scrapy抓取QQ空间
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后 ...
利用libpcap抓取QQ号码信息
最近想在QQ登录时把QQ号码信息记录下来,百度了很多都没有找到具体方式,最近用Wireshark分析报文+libpcap库嗅探实现了这个小功能. 通讯背景: QQ客户端在通讯时使用UDP协议,其中数据 ...
抓取QQ空间相册
某天,想下载某人的相册,发现一张一张下载,工作量巨大,所以写了这个工具. 使用到的工具 Fiddler(抓包工具) python(脚本语言) intellij 步骤分析包获取相册分类链接信息打开 ...
Java版 QQ空间自动登录无需拷贝cookie一天抓取30WQQ说说数据&流程分析
QQ空间说说抓取难度比较大,花了一个星期才研究清楚! 代码请移步到GitHub GitHub地址:https://github.com/20100507/Qzone [没有加入多线程,希望你可以参与进 ...
抓取60000+QQ空间说说做一次数据分析
对于QQ空间的数据一直来是垂涎不已,老早就想偷过来研究研究,这几天闲下来便开始动手... 整个程序的流程为:登录-->获取cookie-->获取所有的好友qq_number-->根据 ...
Python爬虫实战：使用Selenium抓取QQ空间好友说说
前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据. 但是有的时候,网页数据由JS生成,A ...

随机推荐

Surp Suite入门
BurpSuite代理工具是以拦截代理的方式,拦截所有通过代理的网络流量,如客户端的请求数据.服务器端的返回信息等.Burp Suite主要拦截HTTP和HTTPS 协议的流量,通过拦截,Burp S ...
netkit-telnet源码编译安装
介绍 Linux 下流行的 telnet 实现有两个: GNU inetutils: http://ftp.gnu.org/gnu/inetutils/ 哈佛netkit-telnet 源码包:htt ...
[图像处理] YUV图像处理入门4
9 yuv420图像截取本程序中的函数主要是对YUV420P视频数据流的第一帧图像进行截取.类似opencv中的rect函数,函数的代码如下所示: /** * @file 9 yuv_clip.cp ...
这可能是Feign调用可重试的最佳方案了
前言在我们公司里,不同的服务之间通过Feign进行远程调用,但是,我们在尝试使调用可重试时遇到了一个小问题,Feign框架本身可以配置的自己的重试机制,但是它是一刀切的方式,所有的调用都是同样的机制 ...
C++初探索
C++初探索前言 C++ 和 C 的区别主要在8个方面: 输入和输出引用 inline函数函数默认值函数重载模板函数 new 和 delete namespace 我仅对印象不深的地方做了总 ...
Xmake v2.7.6 发布，新增 Verilog 和 C++ Modules 分发支持
Xmake 是一个基于 Lua 的轻量级跨平台构建工具. 它非常的轻量,没有任何依赖,因为它内置了 Lua 运行时. 它使用 xmake.lua 维护项目构建,相比 makefile/CMakeLis ...
车牌识别服务-JAVA+ONNX版本，支持全类型的车牌
1.车牌识别简介车牌识别分为车牌检测与识别,检测模型一般需要检查车牌的位置识别模型一般为识别车牌号及车牌的颜色类型等,目前有较多的深度学习模型能支持,这里就不详细说了. 自动识别车辆车牌信息,应用于 ...
nginx解决vue跨域问题
location /epayapi { proxy_pass http://127.0.0.1:7011; proxy_set_header Host $host; proxy_set_header ...
【学习笔记】Http请求方法总结
Http常用请求方法对比请求方法常见参数传递方式是否幂等说明 API举例 GET URL,注意:Http协议对URL长度没有限制,所谓的限制是浏览器和处理服务器的幂等用于查询批量查询:/ ...
嵌入式Linux—Framebuffer应用编程
Framebuffer 应用编程 Frame的意思是帧,buffer的意思是缓冲区.Framebuffer就是一块内存(硬件设备),里面保存着一帧图像. ioctl()函数解析 ioctl()函数非常 ...

QQ空间数据抓取

QQ空间数据抓取

QQ空间数据抓取的更多相关文章

随机推荐

热门专题