前言

本来打算做一个关于微博粉丝列表的爬虫，可以统计一下某个微博账号的粉丝里面，僵尸粉（水军）的数量，大V数量。

结果写完爬虫才发现，现在微博只给人看粉丝列表的前5页.......哈哈，好吧。挺无奈的，淘宝那边也是只展示前100页的评论。

爬虫代码

直接上爬虫代码

import requests

import re

tmpt_url = 'https://weibo.com/p/1005051678105910/follow?page=%d#Pl_Official_HisRelation__59'

def get_data(tmpt_url):

    urllist = [tmpt_url%i for i in range(1,6)]

    user_id = [] #粉丝ID

    user_name = [] #粉丝名称

    user_follow = [] #粉丝的关注

    user_fans = [] #粉丝的粉丝量

    user_address = [] #粉丝的地址

    headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

    'Accept-Encoding':'gzip, deflate, br',

    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',

    'Connection':'keep-alive',

    'Cookie':'请在自己的浏览器中查看，因涉及个人隐私不公开',

    'Host':'weibo.com',

    'Upgrade-Insecure-Requests':'',

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0'}

    for url in urllist:

        html = requests.get(url,headers=headers).text

        user_id.extend(re.findall(r'<a class=\\"S_txt1\\" target=\\"_blank\\"  usercard=\\"id=(\d+)&refer_flag=\d+_\\" href=\\"\\/\S+\?refer_flag=\d+_\\" >\S+<\\/a>',html))

        user_name.extend(re.findall(r'<a class=\\"S_txt1\\" target=\\"_blank\\"  usercard=\\"id=\d+&refer_flag=\d+_\\" href=\\"\\/\S+\?refer_flag=\d+_\\" >(\S+)<\\/a>',html))

        user_follow.extend(re.findall(r'关注 <em class=\\"count\\"><a target=\\"_blank\\" href=\\"\\/\d+\\/follow\\" >(\d+)<\\/a>',html))

        user_fans.extend(re.findall(r'粉丝<em class=\\"count\\"><a target=\\"_blank\\" href=\\"\\/\d+\\/fans\?current=fans\\" >(\d+)<\\/a>',html))

        user_address.extend(re.findall(r'<em class=\\"tit S_txt2\\">地址<\\/em><span>(\S+\s?\S+?)<\\/span>\\r\\n\\t\\t\\t\\t\\t<\\/div>',html))

    print('user_id',user_id)

    print('user_name',user_name)

    print('user_follow',user_follow)

    print('user_fans',user_fans)

    print('user_address',user_address)

这个url是孙俪的微博账号

下面是她粉丝列表前5页爬到的信息，包括：粉丝ID，粉丝名称，粉丝的关注，粉丝的粉丝量，粉丝的地址

Python爬虫：微博粉丝列表的更多相关文章

Python 爬虫的工具列表附Github代码下载链接
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Python 爬虫的工具列表大全
Python 爬虫的工具列表大全这个列表包含与网页抓取和数据处理的Python库.网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...
Python 爬虫的工具列表
Python 爬虫的工具列表这个列表包含与网页抓取和数据处理的Python库网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycur ...
【转】Python 爬虫的工具列表【预】
这个列表包含与网页抓取和数据处理的Python库网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络 ...
Python 爬虫的工具列表
这个列表包含与网页抓取和数据处理的Python库网络通用 urllib -网络库(stdlib). requests -网络库. grab - 网络库(基于pycurl). pycurl - 网络 ...
[转] Python 爬虫的工具列表附Github代码下载链接
转自http://www.36dsj.com/archives/36417 这个列表包含与网页抓取和数据处理的Python库网络通用 urllib -网络库(stdlib). requests - ...
零基础教你写python爬虫
大家都知道python经常被用来做爬虫,用来在互联网上抓取我们需要的信息. 使用Python做爬虫,需要用到一些包: requests urllib BeautifulSoup 等等,关于python ...
如何科学地蹭热点：用python爬虫获取热门微博评论并进行情感分析
前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...
23个Python爬虫开源项目代码，包含微信、淘宝、豆瓣、知乎、微博等
今天为大家整理了23个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心,所有链接指向GitHub,微信不能直接打开,老规矩,可以用电脑打开. 关注公众号「Pyth ...

随机推荐

在java中对数据库进行增删改查
1.java连接MySql数据库代码区域: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ...
MinGW-编译器
MinGW 是Minimalist GNUfor Windows的缩写. 它是一个可自由使用和自由发布的Windows特定头文件和使用GNU工具集导入库的集合,允许你在GNU/Linux和Window ...
XJOI 3605 考完吃糖(DAG图dfs)
题目描述: 期末考试考完了,分数也出来了,大家准备吃糖庆祝一下,为了鼓励同学们下学期能取得更好的成绩,司马红豆同学让n个同学站成一排,如果某个同学的分数比相邻的一个同学要高,那么他得到的糖果就会比这个 ...
thinkjs 框架图
布斯乘法 Mips实现 - Booth Algorithm
看了很久网上没有现成的代码和好一点的图,因此当一回搬运工.转自stackoverflow 布斯乘法器的Mips实现方法: .data promptStart: .asciiz "This p ...
Windows store app[Part 3]:认识WinRT的异步机制
WinRT异步机制的诞生背景当编写一个触控应用程序时,执行一个耗时函数,并通知UI更新,我们希望所有的交互过程都可以做出快速的反应.流畅的操作感变的十分重要. 在连接外部程序接口获取数据,操作本地数 ...
C++友元（友元函数、友元类和友元成员函数）
友元(友元函数.友元类和友元成员函数) C++ 有些情况下,允许特定的非成员函数访问一个类的私有成员,同时仍阻止一般的访问,这是很方便做到的.例如被重载的操作符,如输入或输出操作符,经常需要访问类的私 ...
OO 抽象方法与虚方法的区别
抽象方法与虚方法的区别抽象方法与虚方法的区别: 一.抽象方法: 1.只能在抽象类中定义: 2.不能有方法的实现:(方法体)[因为抽象类无法实例化,所以抽象方法没有办法被调用,也就是说抽象方法永远不 ...
Heimich manoeuvre 海姆利克氏操作
食物,异物卡喉的问题屡见不鲜,造成呼吸困难,甚至心跳停止. 一旦发生这个状况,千万千万不要叩击病人的背部,应在迅速联系医院救援的同时,对病人进行现场急救. heimlich的实施最重要的功能是可以实现 ...
微信小程序的onLaunch()方法和onShow()方法
在app.js里面你会发现一个onLaunch()方法,这个方法是当小程序加载完毕后就执行的方法,此外,还有一个onShow()方法,先看下面的代码 app.js //app.js App({ onL ...

Python爬虫：微博粉丝列表

前言

爬虫代码

Python爬虫：微博粉丝列表的更多相关文章

随机推荐

热门专题