爬取qq号

import re
import urllib.request
import os
import json
import ssl
from collections import deque

#把爬去的数据保存到文件的函数
def writeFileBytes(htmlBytes,toPath):
    with open(toPath,"wb") as f:
        f.write(htmlBytes)

def writeFileStr(htmlBytes,toPath):
    with open(toPath,"w") as f:
        f.write(str(htmlBytes))

#封装爬虫函数
def getHtmlBytes(url):
    headers = {
        "User-Agent": "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0"
    }
    req = urllib.request.Request(url, headers=headers)  # 请求体
    context=ssl._create_unverified_context() #处理https请求
    response = urllib.request.urlopen(req,context=context)  # 发起请求
    return response.read()

#爬虫qq的函数
def qqCrawler(url,toPath):
    htmlBytes=getHtmlBytes(url)
    htmlStr=str(htmlBytes)

    #qq的正则
    pat=r"[1-9]\d{4,10}"
    re_qq=re.compile(pat)
    qqList=re_qq.findall(htmlStr)
    qqsList=list(set(qqList))

    f=open(toPath,"a")
    for qqStr in qqList:
        f.write(qqStr+"\n")
    f.close()

    #url的正则
    pat=r"(((http|https)://)(([a-zA-Z0-9\._-]+\.[a-zA-Z]{2,6})|([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}))(:[0-9]{1-4})*(/[a-zA-Z0-0\$%_\./-~-]*)?)"
    re_url=re.compile(pat)
    urlList=re_url.findall(htmlStr)
    return [qqList,urlList]

def center(url,toPath):
    #通过队列实现
    queue=deque()
    queue.append(url)
    while len(queue)!=0:
        targetUrl=queue.popleft()
        urlList=qqCrawler(targetUrl,toPath)
        for item in urlList:
            tempUrl=item[0]
            queue.append(tempUrl)

#调用函数爬去单个页面
url="https://www.douban.com/group/topic/110094603/"
toPath=r"C:\Users\HP\Desktop\qqFile.txt"
qqCrawler(url,toPath)

爬取qq号的更多相关文章

Python爬虫使用selenium爬取qq群的成员信息（全自动实现自动登陆）
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: python小爬虫 PS:如有需要Python学习资料的小伙伴可以 ...
python3 爬取qq音乐作者所有单曲并且下载歌曲
1 import requests import re import json import os # 便于存放作者的姓名 zuozhe = [] headers = {'User-Agent': ' ...
Python爬虫实战一之爬取QQ音乐
一.前言前段时间尝试爬取了网易云音乐的歌曲,这次打算爬取QQ音乐的歌曲信息.网易云音乐歌曲列表是通过iframe展示的,可以借助Selenium获取到iframe的页面元素, 而QQ音乐采用的是 ...
selenium爬取qq空间，requests爬取雪球网数据
一.爬取qq空间好友动态数据 # 爬取qq空间好友状态信息(说说,好友名称),并屏蔽广告 from selenium import webdriver from time import sleep f ...
python+selenium+requests爬取qq空间相册时遇到的问题及解决思路
最近研究了下用python爬取qq空间相册的问题,遇到的问题及解决思路如下: 1.qq空间相册的访问需要qq登录并且需是好友,requests模块模拟qq登录略显麻烦,所以采用selenium的dri ...
Python爬取qq空间说说
#coding:utf-8 #!/usr/bin/python3 from selenium import webdriver import time import re import importl ...
用python爬取QQ空间
好久没写博文了,最近捣鼓了一下python,好像有点上瘾了,感觉python比js厉害好多,但是接触不久,只看了<[大家网]Python基础教程(第2版)[www.TopSage.com]> ...
爬取QQ音乐歌手的歌单
import requests# 引用requests库res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search ...
Python_小林的爬取QQ空间相册图片链接程序
前言昨天看见某人的空间有上传了XXXX个头像,然后我就想着下载回来[所以本质上这是一个头像下载程序],但是一个个另存为太浪费时间了,上网搜索有没有现成的工具,居然要注册码,还卖45一套.你们的良心也 ...

随机推荐

<<让你自己的APP成为系统应用>>所遇到的问题及解决方法
1.adb connect 10.100.1.772.adb -s 10.100.1.77 shell remount3.让你自己的APP成为系统应用 adb push xxx.apk system/ ...
vue富文本编辑器
基于webpack和vue 一.npm 安装 vue-quill-editor 二.在main.js中引入 import VueQuillEditor from 'vue-quill-editor'/ ...
vs 为什么使用#include "stdafx.h"
原因:1.减少编译次数 2.减少不必要的处理流程图: 这个跟宏定义#ifndef xx #define xx coding here #endif //xx 区别在于: 宏定义是防止头文件重复包含 ...
04 Javascript的数据类型数组函数
javascript:包含ECMAscript DOM BOM 描述了以下内容: 语法类型语句关键字保留字运算符对象引入方式: <script> alert(123) < ...
python大法好——Python 正则表达式
Python 正则表达式正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式. r ...
scala 读取保存文件去除字符特殊
/** * 读取文件 * @param filename * @return */ def readFormFile(filename: String) = { var ooop = "&q ...
hbase的常用的shell命令&hbase的DDL操作&hbase的DML操作
前言笔者在分类中的hbase栏目之前已经分享了hbase的安装以及一些常用的shell命令的使用,这里不仅仅重新复习一下shell命令,还会介绍hbase的DDL以及DML的相关操作. hbase的 ...
深入理解Java虚拟机之JVM垃圾回收随笔
1.对象已经死亡? 1.1引用计数法:给对象中添加一个引用计数器,每当有一个地方引用他时,计数器值就加1:当引用失效时,计数器值就减1:任何时刻计数器都为0的对象就是不可能再被使用的.但是它很难解决 ...
logstash定时将mysql种数据同步到elasticsearch
以Windows操作系统为例 1.下载logstash安装包,解压,配置好环境 2.在config目录中新增一个jdbc.conf input { stdin { } jdbc { # mysql 数 ...
<Dare To Dream> 第四次作业：基于原型的团队项目需求调研与分析
任务1:实施团队项目软件用户调研活动. (1)真实的用户调研对象:生科院大三学生 (2)利用实验七所开发的软件原型:网站原型链接 (3)要有除原型法之外的其他需求获取手段: 访谈法开会研讨法 (4) ...

爬取qq号

爬取qq号的更多相关文章

随机推荐

热门专题