title: QQ空间数据抓取

author: 杨晓东

permalink: QQ空间数据抓取

date: 2021-10-02 11:27:04

categories:

- 嗯哼

tags:

- 无聊

QQ空间数据抓取

import time

import os

from selenium import webdriver

from bs4 import BeautifulSoup

from selenium.webdriver.common.action_chains import ActionChains

import requests

# 登陆QQ访问对方QQ空间

def login(login_qq, password, business_qq):

    '''

    登陆

    :param login_qq: 登陆用的QQ

    :param password: 登陆的QQ密码

    :param business_qq: 业务QQ

    :return: driver

    '''

    print("开始登陆中...")

    driver.get('https://user.qzone.qq.com/{}/311'.format(business_qq))  # URL

    driver.implicitly_wait(10)  # 隐示等待，为了等待充分加载好网址

    driver.find_element_by_id('login_div')

    driver.switch_to.frame('login_frame')  # 切到输入账号密码的frame

    driver.find_element_by_id('switcher_plogin').click()  ##点击‘账号密码登录’

    driver.find_element_by_id('u').clear()  ##清空账号栏

    driver.find_element_by_id('u').send_keys(login_qq)  # 输入账号

    driver.find_element_by_id('p').clear()  # 清空密码栏

    driver.find_element_by_id('p').send_keys(password)  # 输入密码

    driver.find_element_by_id('login_button').click()  # 点击‘登录’

    driver.switch_to.default_content()

    driver.implicitly_wait(10)

    time.sleep(5)

    try:

        driver.find_element_by_id('QM_OwnerInfo_Icon')

        print("登陆完成....")

        return driver

    except:

        print('不能访问' + business_qq)

        return None

# 抓取说说

def get_shuoshuo(driver):

    page = 1

    while True:

        # 下拉滚动条

        for j in range(1, 5):

            driver.execute_script("window.scrollBy(0,5000)")

            time.sleep(2)

            # 切换 frame

        driver.switch_to.frame('app_canvas_frame')

        # 构建 BeautifulSoup 对象

        bs = BeautifulSoup(driver.page_source.encode('GBK', 'ignore').decode('gbk'))

        # 找到页面上的所有说说

        pres = bs.find_all('pre', class_='content')

        for pre in pres:

            shuoshuo = pre.text

            tx = pre.parent.parent.find('a', class_="c_tx c_tx3 goDetail")['title']

            print(tx + ":" + shuoshuo)

            with open('她的空间动态.txt', 'a+') as f:

                f.write('\n' + tx + ":" + shuoshuo + '\n')

                f.close()

            # 页数判断

        page = page + 1

        maxPage = bs.find('a', title='末页').text

        if int(maxPage) < page:

            break

        driver.find_element_by_link_text(u'下一页').click()

        # 回到主文档

        driver.switch_to.default_content()

        # 等待页面加载

        time.sleep(3)

# 计数函数

def num(name_a):

    name_a+=1

    return name_a

# 下载图片  单个相册中点击图片

def get_photo(driver):

    # 照片下载路径

    photo_path = r"E:\DC\2548957387\{}.jpg"

    mkdir_path = r'E:\DC\2548957387'

    if os.path.exists(mkdir_path):

        pass

    else:

        mkdir_path = os.mkdir(r'E:\DC\2548957387')

    # 相册索引

    photoIndex = 1

    while True:

        # 回到主文档

        driver.switch_to.default_content()

        # driver.switch_to.parent_frame()

        # 点击头部的相册按钮

        driver.find_element_by_xpath('//*[@id="menuContainer"]/div/ul/li[3]/a').click()

        # 等待加载

        driver.implicitly_wait(10)

        time.sleep(3)

        # 切换 frame

        driver.switch_to.frame('app_canvas_frame')

        # 各个相册的超链接

        a = driver.find_elements_by_class_name('album-cover')

        # 单个相册

        a[photoIndex].click()

        # 隐式等待，5秒钟内只要找到了元素就开始执行，10秒钟后未找到，就超时；

        driver.implicitly_wait(10)

        # 等待10秒

        time.sleep(3)

        # 相册的第一张图

        p = driver.find_elements_by_class_name('item-cover')[0]

        p.click()

        time.sleep(3)

        # 相册大图在父frame，切换到父frame

        driver.switch_to.parent_frame()

        # 循环相册中的照片

        name_a = 0

        while True:

            # 照片url地址和名称

            # img = driver.find_element_by_id('js-img-disp')

            img = driver.find_element_by_xpath('//*[@id="js-img-border"]/img')

            print(img)

            src = img.get_attribute('src').replace('&t=5', '')

            name = driver.find_element_by_id("js-photo-name").text

            # 下载

            print(src)

            print(photo_path.format(name))

            req = requests.get(src)

            name_a+=1

            with open(photo_path.format(name + "-" + str(name_a)),'wb') as f:

                f.write(req.content)

                f.close()

                print("第 {} 张，已下载！！！！".format(name_a))

            # urlretrieve(src,photo_path.format(miss_qq,name))

            # 取下面的 当前照片张数/总照片数量

            counts = driver.find_element_by_xpath('//*[@id="js-ctn-infoBar"]/div/div[1]/span').text

            print(counts + "张！")

            counts = counts.split('/')

            # 最后一张的时候退出照片浏览

            if counts[0] == counts[1]:

                # 右上角的 X 按钮

                driver.find_element_by_xpath('//*[@id="js-viewer-main"]/div[1]/a').click()

                print("右上角x")

                break

            # 点击 下一张，网页加载慢，所以10次加载

            for i in (1, 10):

                if driver.find_element_by_id('js-btn-nextPhoto'):

                    n = driver.find_element_by_id('js-btn-nextPhoto')

                    ActionChains(driver).click(n).perform()

                    print("等待1秒，点击下一张.....")

                    time.sleep(1)

                    break

                else:

                    time.sleep(5)

                    print("否则time5秒")

                    # 相册数量比较，是否下载了全部的相册

        photoIndex = photoIndex + 1

        if len(a) <= photoIndex:

            break

if __name__ == '__main__':

    # 输入QQ信息

    qq_num = input("请输入自己的QQ：")

    qq_pwd = input("请输入自己的QQ密码：")

    miss_qq = input("请输入要查看的QQ：")

    # 标识 当前目录

    path = os.getcwd()

    url = "https://www.ispfsb.com/Public/FOID.aspx"

    headers = {

        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}

    # 去除浏览器被控  字样

    options = webdriver.ChromeOptions()

    options.add_experimental_option("excludeSwitches", ['enable-automation'])

    options.add_experimental_option('useAutomationExtension', False)

    # 浏览器扩展程序

    # 语音识别程序

    # extension_path1 = './1.2.2_0.crx'

    # xpath程序

    extension_path2 = './2.1.0.0_0.crx'

    # options.add_extension(extension_path1)

    options.add_extension(extension_path2)

    driver = webdriver.Chrome(options=options)  # driver = webdriver.Chrome(executable_path=r'D:PATHchromedriver.exe')?

    driver.maximize_window()

    # 登陆

    login(qq_num, qq_pwd, miss_qq)

    # 爬取说说

    get_shuoshuo(driver)

QQ空间数据抓取的更多相关文章

C#使用Selenium实现QQ空间数据抓取说说抓取
上一篇讲的是如何模拟真人操作登录QQ空间,本篇主要讲述一下如何抓取QQ说说数据继续登录空间后的操作登陆后我们发现QQ空间的菜单其实是固定的,只需要找到对应元素就可以,继续XPath 可以得到地址 ...
C#使用Selenium实现QQ空间数据抓取登录QQ空间
经@吃西瓜的星星提醒首先我们介绍下Selenium Selenium也是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,就像真正的用户在操作一样.支持的浏览器包括IE.Mo ...
周董新歌搞崩QQ，抓取20W评论看看歌迷在说啥
9 月 16 日晚间,周董在朋友圈发布了最新单曲<说好不哭> 发布后,真的让一波人哭了一群想抢鲜听的小伙伴直接泪奔因为 QQ 音乐直接被搞崩了没想到干翻 QQ 音乐的不是网易云音乐 ...
htmlunit+fastjson抓取酷狗音乐 qq音乐链接及下载
上次学了jsoup之后,发现一些动态生成的网页内容是无法抓取的,于是又学习了htmlunit,下面是抓取酷狗音乐与qq音乐链接的例子: 酷狗音乐: import java.io.BufferedInp ...
通过Scrapy抓取QQ空间
毕业设计题目就是用Scrapy抓取QQ空间的数据,最近毕业设计弄完了,来总结以下: 首先是模拟登录的问题: 由于Tencent对模拟登录比较讨厌,各个防备,而本人能力有限,所以做的最简单的,手动登录后 ...
利用libpcap抓取QQ号码信息
最近想在QQ登录时把QQ号码信息记录下来,百度了很多都没有找到具体方式,最近用Wireshark分析报文+libpcap库嗅探实现了这个小功能. 通讯背景: QQ客户端在通讯时使用UDP协议,其中数据 ...
抓取QQ空间相册
某天,想下载某人的相册,发现一张一张下载,工作量巨大,所以写了这个工具. 使用到的工具 Fiddler(抓包工具) python(脚本语言) intellij 步骤分析包获取相册分类链接信息打开 ...
Java版 QQ空间自动登录无需拷贝cookie一天抓取30WQQ说说数据&流程分析
QQ空间说说抓取难度比较大,花了一个星期才研究清楚! 代码请移步到GitHub GitHub地址:https://github.com/20100507/Qzone [没有加入多线程,希望你可以参与进 ...
抓取60000+QQ空间说说做一次数据分析
对于QQ空间的数据一直来是垂涎不已,老早就想偷过来研究研究,这几天闲下来便开始动手... 整个程序的流程为:登录-->获取cookie-->获取所有的好友qq_number-->根据 ...
Python爬虫实战：使用Selenium抓取QQ空间好友说说
前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据. 但是有的时候,网页数据由JS生成,A ...

随机推荐

Jmeter ForEach 循环控制器
ForEach Controller 即循环控制器,顾名思义是定义一种循环规则,如下图: 1.名称:控制器名称,可根据用户需要任意填写,也可不填 2.注释:用户可根据需要任意填写,也可不填 3.输入变 ...
Cryptohack的Adrien's Signs解题思路
题目如下: 输出的结果: 题目分析: 在原题的题目描述中并没有什么有用的消息,更多的信息是通过代码审计出来的.大致意思是,先把字节flag转换为二进制形式的字符串,然后判断字符串中每个字符,如果为1, ...
3、swagger调试
Swagger: 1.将项目中所有的接口展现在页面上,这样后端程序员就不需要专门为前端使用者编写专门的接口文档: 2.当接口更新之后,只需要修改代码中的Swagger描述就可以实时生成新的接口文档了, ...
谈谈我的「数字文具盒」 - Obsidian
这篇关于 Obsidian 是生产力工具的终篇了,因为目前涉及 Obsidian 的文章特别多,所以我就不啰里啰嗦叙述重复的文字了.本文主要涉及到 Obsidian 和 Docusaurus 如何进行 ...
【转载】SQL SERVER 中各种存储过程创建及执行方式
一. 什么是存储过程系统存储过程是系统创建的存储过程,目的在于能够方便的从系统表中查询信息或完成与更新数据库表相关的管理任务或其他的系统管理任务.系统存储过程主要存储在master数据库中,以&quo ...
WCH以太网相关芯片资料总结
网络产品线产品分类 1.接口控制类.CH395Q http://www.wch.cn/search?t=all&q=395CH395LCH392F h ...
如何配置 SLO
前言无论是对外提供 IaaS PaaS SaaS 的云公司,还是提供信息技术服务的乙方公司,亦或是金融制造等各行各业的数据中心.运维部门,我们的一个非常重要的合同承诺或考核评估指标就是:SLA(即 ...
npm ERR! An unknown git error occurred
今天根据 vue-element-admin 官网文档下载项目,初始化时报错 npm ERR! An unknown git error occurred 试了网上的大部分方法,都没用,最后在官网提供 ...
js取不到iframe元素
跨域 iframe 请绕道,下文是针对非跨域 iframe 的问题排除 1.iframe 取不到值的问题的原因 1. 父页面未加载完成 2. iframe 未加载完成 3. 语法使用错误 4. 跨域( ...
通过Google Cloud Storage(GCS)管理Terraform的状态State
管理Terraform状态文件的最佳方式是通过云端的统一的存储,如谷歌云就用GCS. 首先要创建一个Bucket: $ gsutil mb -p pkslow -l us-west1 -b on gs ...

QQ空间数据抓取

QQ空间数据抓取

QQ空间数据抓取的更多相关文章

随机推荐

热门专题