微博搜索爬虫

网页分析

由于网页端反爬虫机制比较完善所以才去移动端进行爬虫。

url地址：https://m.weibo.cn/

搜索框，输入关键词进行搜索

对网页进行抓包，找到相关数据

查看数据是否与网页的内容相同

分析多组数据的请求头

编写程序

构造url地址

通过网页分析构造url地址对，地址信息访问。

import requests

#构造搜索内容

data = {

	'containerid':'100103type=1&q=电影',

	'page_type':'searchall',

	'page':'1',

}

#反爬虫，模拟游览器访问

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',}

url = "https://m.weibo.cn/api/container/getIndex?"

#通过GET方式访问该网站

html = requests.get(url,headers=headers,params=data)

#打印结果，如果返回200,则访问成功

print(html)

获取相关数据

通过对网页分析，该网页获取的数据为json格式的数据

import json

......

#对返回结果判断，如果是200，则把数据转为json格式

if html.content:

    response = html.json()

数据为字典类型

import re

.......

#提取数据

cards = response["data"]["cards"]

result = []

#遍历cards列表

for card in cards:

    #判断"mblog"键是否存在该字典中

	mblogs = "mblog"

	if mblogs in card:

        #提取正文内容

		text = card[mblogs]["text"]

        #对正文进行提取，利用正则表达式删除HTML标签

        #re.compile正则表达式的字符串创建模式对象,re.S使.匹配包括换行在内的所有字符

		dr = re.compile(r'<[^>]+>',re.S)

        #把数据以字典的形式保存在列表中

		result.append({

			'发布时间':card[mblogs]["created_at"],

			'用户id':card[mblogs]["user"]["id"],

			'用户名':card[mblogs]["user"]["screen_name"],

			'微博地址':card[mblogs]["user"]["profile_url"],

			'转发数':card[mblogs]["reposts_count"],

			'评论数':card[mblogs]["comments_count"],

			'点赞数':card[mblogs]["attitudes_count"],

			'正文':dr.sub('',text)})

        print(result)

查看结果

获取到的数据保存到.cvs文件中

import csv

import time

from csv import DictWriter

......

#保存文件

#文件的名字

file_name = '电影.csv'

header = ['发布时间','用户id','用户名','微博地址','转发数','评论数','点赞数','正文']

with open(file_name,'a',newline = "",encoding = 'gb18030') as f:

	f_csv = DictWriter(f,header)	#DictWriter以字典形式写入

    #防止header重复写入

	with open(file_name, 'r', encoding='gb18030', newline="") as file:

		reader = csv.reader(file)

		if not [row for row in reader]:

			f_csv.writeheader()

			f_csv.writerows(result)

		else:

			f_csv.writerows(result)

        #延时，防止反爬机制

		time.sleep(0.1)

查看是否生成 “电影.csv” 文件

完成程序编写。

对源代码进行改进

目前只是爬取一页的结果，以及每次搜索不同的关键词都要改源代码内容。

为了让该程序实用美观，引用tkinter建立GUI界面。

from tkinter import *	#tkinter可以快速创建GUI应用程序

from csv import DictWriter

......

#创建一个窗口

root = Tk()

#设计窗口大小以及位置  宽高400*100 	位置(650,400)

root.geometry('405x80+650+400') 

#设计窗口标题

root.title('微博搜索')

#标签控件

labl1 = Label(root,text = '关键词:',font = ('华文行楷',18))

#网格显示标签,靠左显示

labl1.grid(sticky=W)

#输入框

entry = Entry(root,font = ('华文行楷',18))

#网格显示标签

entry.grid(row=0,column=1,sticky=W)

#搜索按钮

button = Button(root,text = '搜索',font = ('华文行楷',15),command=sign)

#command=sign对程序进行对接

#网格式显示

button.grid(row=0,column=3,sticky=E)

#显示窗口

root.mainloop()

对程序改进

def sign():

	#获取输入结果

	key_word = entry.get()

	#去除输入框的空格

	key_word = key_word.strip()

	#判断输入是否为空

	if key_word == '':

		#提示信息

		messagebox.showinfo(title = '提示',message = '请输入关键词')

	#构造搜索内容

    else：

    	for i in range(1,20):

			data = {

				'containerid':'100103type=1&q{}'.format(key_word),

				'page_type':'searchall',

				'page':i,

			}

    	......

        #文件的名字

        file_name = key_word + '.csv'

         ......

        #显示生成文件

        #标签控件

        labl2 = Label(root,text = '查询完成：{}'.format(file_name),font = ('华文行楷',15))

        #网格显示标签,靠左显示

        labl2.grid(row=1,column=1)

Python 微博搜索爬虫的更多相关文章

简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
初探爬虫 ——《python 3 网络爬虫开发实践》读书笔记
零.背景之前在 node.js 下写过一些爬虫,去做自己的私人网站和工具,但一直没有稍微深入的了解,借着此次公司的新项目,体系的学习下. 本文内容主要侧重介绍爬虫的概念.玩法.策略.不同工具的列举和 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...
Ruby用百度搜索爬虫
Ruby用百度搜索爬虫博主ruby学得断断续续,打算写一个有点用的小程序娱乐一下,打算用ruby通过百度通道爬取网络信息. 第三方库准备 mechanize:比较方便地处理网络请求,类似于Pytho ...
python 3.x 爬虫基础---正则表达式
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---Requer ...
python 3.x 爬虫基础---Requersts,BeautifulSoup4（bs4）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---Requer ...
Python学习网络爬虫--转
原文地址:https://github.com/lining0806/PythonSpiderNotes Python学习网络爬虫主要分3个大的版块:抓取,分析,存储另外,比较常用的爬虫框架Scra ...

随机推荐

number(10,6)正则表达式
/** * 判断number(10,6) * @param dateStr * @return */ public boolean isNumJW(String ...
python+pytest接口自动化(13)-token关联登录
在PC端登录公司的后台管理系统或在手机上登录某个APP时,经常会发现登录成功后,返回参数中会包含token,它的值为一段较长的字符串,而后续去请求的请求头中都需要带上这个token作为参数,否则就提示 ...
Linux操作系统与项目部署
Linux操作系统与项目部署注意:本版块会涉及到操作系统相关知识. 现在,几乎所有智能设备都有一个自己的操作系统,比如我们的家用个人电脑,基本都是预装Windows操作系统,我们的手机也有Andro ...
Spring核心 IoC和AOP原理
1. 什么是Spring Spring是一个轻量的Java开源框架,它简化了应用开发,实现基于POJO的编程模型.它的两大核心是:IoC(控制反转),AOP(面向切面编程). 2. IoC控制反转简 ...
正则表达式小技巧，sql中in的字符串处理
工作中我经常写sql,当写带in的语句时,需要敲好多单引号,逗号,敲写起来容易易出错.因此,我写了一个小工具,处理这种繁琐工作.原理简单,利用正则表达式匹配.替换. 先看界面,一个html页面,包含三 ...
Postman中文版客户端
"新冷战"蔓延到生产力工具前端时间,著名 UI 设计软件 Figma 宣布制裁大疆! 这不仅让中国的互联网从业者纷纷一头冷汗:今天是 Figma,明天会是什么?今天是大疆,明天会 ...
中文版Postman
作为软件开发从业者,API 调试是必不可少的一项技能,在这方面 Postman 做的非常出色.但是在整个软件开发过程中,API 调试只是其中的一部分,还有很多事情 Postman 无法完成,或者无法高 ...
Java语言学习day31--8月06日
今日内容介绍1.正则表达式的定义及使用2.Date类的用法3.Calendar类的用法 ###01正则表达式的概念和作用 * A: 正则表达式的概念和作用 * a: 正则表达式的概述 * 正则表达式也 ...
python基础练习题（题目打印出杨辉三角形前十行。）
day38 --------------------------------------------------------------- 实例061:杨辉三角题目打印出杨辉三角形前十行. 分析: ...
【远程文件浏览器】Unity+Lua开发调试利器
Remote File Explorer是一个跨平台的远程文件浏览器,用户通过Unity Editor就能操作运行在手机上的游戏或是应用的的目录文件.比如当项目打包运行到设备上时,可通过Remote ...

Python 微博搜索爬虫