微博搜索爬虫

网页分析

由于网页端反爬虫机制比较完善所以才去移动端进行爬虫。

url地址：https://m.weibo.cn/

搜索框，输入关键词进行搜索

对网页进行抓包，找到相关数据

查看数据是否与网页的内容相同

分析多组数据的请求头

编写程序

构造url地址

通过网页分析构造url地址对，地址信息访问。

import requests

#构造搜索内容

data = {

	'containerid':'100103type=1&q=电影',

	'page_type':'searchall',

	'page':'1',

}

#反爬虫，模拟游览器访问

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36',}

url = "https://m.weibo.cn/api/container/getIndex?"

#通过GET方式访问该网站

html = requests.get(url,headers=headers,params=data)

#打印结果，如果返回200,则访问成功

print(html)

获取相关数据

通过对网页分析，该网页获取的数据为json格式的数据

import json

......

#对返回结果判断，如果是200，则把数据转为json格式

if html.content:

    response = html.json()

数据为字典类型

import re

.......

#提取数据

cards = response["data"]["cards"]

result = []

#遍历cards列表

for card in cards:

    #判断"mblog"键是否存在该字典中

	mblogs = "mblog"

	if mblogs in card:

        #提取正文内容

		text = card[mblogs]["text"]

        #对正文进行提取，利用正则表达式删除HTML标签

        #re.compile正则表达式的字符串创建模式对象,re.S使.匹配包括换行在内的所有字符

		dr = re.compile(r'<[^>]+>',re.S)

        #把数据以字典的形式保存在列表中

		result.append({

			'发布时间':card[mblogs]["created_at"],

			'用户id':card[mblogs]["user"]["id"],

			'用户名':card[mblogs]["user"]["screen_name"],

			'微博地址':card[mblogs]["user"]["profile_url"],

			'转发数':card[mblogs]["reposts_count"],

			'评论数':card[mblogs]["comments_count"],

			'点赞数':card[mblogs]["attitudes_count"],

			'正文':dr.sub('',text)})

        print(result)

查看结果

获取到的数据保存到.cvs文件中

import csv

import time

from csv import DictWriter

......

#保存文件

#文件的名字

file_name = '电影.csv'

header = ['发布时间','用户id','用户名','微博地址','转发数','评论数','点赞数','正文']

with open(file_name,'a',newline = "",encoding = 'gb18030') as f:

	f_csv = DictWriter(f,header)	#DictWriter以字典形式写入

    #防止header重复写入

	with open(file_name, 'r', encoding='gb18030', newline="") as file:

		reader = csv.reader(file)

		if not [row for row in reader]:

			f_csv.writeheader()

			f_csv.writerows(result)

		else:

			f_csv.writerows(result)

        #延时，防止反爬机制

		time.sleep(0.1)

查看是否生成 “电影.csv” 文件

完成程序编写。

对源代码进行改进

目前只是爬取一页的结果，以及每次搜索不同的关键词都要改源代码内容。

为了让该程序实用美观，引用tkinter建立GUI界面。

from tkinter import *	#tkinter可以快速创建GUI应用程序

from csv import DictWriter

......

#创建一个窗口

root = Tk()

#设计窗口大小以及位置  宽高400*100 	位置(650,400)

root.geometry('405x80+650+400') 

#设计窗口标题

root.title('微博搜索')

#标签控件

labl1 = Label(root,text = '关键词:',font = ('华文行楷',18))

#网格显示标签,靠左显示

labl1.grid(sticky=W)

#输入框

entry = Entry(root,font = ('华文行楷',18))

#网格显示标签

entry.grid(row=0,column=1,sticky=W)

#搜索按钮

button = Button(root,text = '搜索',font = ('华文行楷',15),command=sign)

#command=sign对程序进行对接

#网格式显示

button.grid(row=0,column=3,sticky=E)

#显示窗口

root.mainloop()

对程序改进

def sign():

	#获取输入结果

	key_word = entry.get()

	#去除输入框的空格

	key_word = key_word.strip()

	#判断输入是否为空

	if key_word == '':

		#提示信息

		messagebox.showinfo(title = '提示',message = '请输入关键词')

	#构造搜索内容

    else：

    	for i in range(1,20):

			data = {

				'containerid':'100103type=1&q{}'.format(key_word),

				'page_type':'searchall',

				'page':i,

			}

    	......

        #文件的名字

        file_name = key_word + '.csv'

         ......

        #显示生成文件

        #标签控件

        labl2 = Label(root,text = '查询完成：{}'.format(file_name),font = ('华文行楷',15))

        #网格显示标签,靠左显示

        labl2.grid(row=1,column=1)

Python 微博搜索爬虫的更多相关文章

简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具（第一篇）
Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...
初探爬虫 ——《python 3 网络爬虫开发实践》读书笔记
零.背景之前在 node.js 下写过一些爬虫,去做自己的私人网站和工具,但一直没有稍微深入的了解,借着此次公司的新项目,体系的学习下. 本文内容主要侧重介绍爬虫的概念.玩法.策略.不同工具的列举和 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
python 3.x 爬虫基础---常用第三方库（requests，BeautifulSoup4，selenium，lxml ）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...
Ruby用百度搜索爬虫
Ruby用百度搜索爬虫博主ruby学得断断续续,打算写一个有点用的小程序娱乐一下,打算用ruby通过百度通道爬取网络信息. 第三方库准备 mechanize:比较方便地处理网络请求,类似于Pytho ...
python 3.x 爬虫基础---正则表达式
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---Requer ...
python 3.x 爬虫基础---Requersts,BeautifulSoup4（bs4）
python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---Requer ...
Python学习网络爬虫--转
原文地址:https://github.com/lining0806/PythonSpiderNotes Python学习网络爬虫主要分3个大的版块:抓取,分析,存储另外,比较常用的爬虫框架Scra ...

随机推荐

前端实现导出excel
结果: 将网页上拿到的数据导出成excel文件实现: HTML代码 <div> <button type="button" onclick="expo ...
Docker 核心知识回顾
Docker 核心知识回顾最近公司为了提高项目治理能力.提升开发效率,将之前的CICD项目扩展成devops进行项目管理.开发人员需要对自己的负责的项目进行流水线的部署,包括写Dockerfile ...
IDEA 2022.2.1 Beta 2发布：新增支持Java 18、增强JUnit 5的支持
近日,IDEA 2022.1的Beta 2版本发布了!下面我们一起来看看对于我们Java开发者来说,有哪些重要的更新内容. Java增强随着Java 18的正式发布,IDEA也在该版本中迅速跟进.目 ...
mybatis-day1入门案例
首先应先创建maven工程 (jar包要导入,五个核心jar包) 如果测试运行时出现了不支持版本5,则要修改以下内容类的路径如下 1.配置pom.xml依赖 <?xml version=&qu ...
Java语言学习day30--8月5日
###10String类的其他方法 * A:String类的其他方法 * a: 方法介绍 * int length(): 返回字符串的长度 * String substring(int beginIn ...
数据建模软件Chiner，颜值与实用性并存
目录一.chiner介绍二.值得关注的功能点 2.1. 兼容各种格式的数据建模文件 2.2. 支持多数据库.代码生成 2.3. 支持逻辑视图与物理视图设计 2.4. 自动生成数据库文档三.总结 ...
vue-mobile-template 前端开源框架
开源项目的由来某天因公司业务需求,想寻找一款H5移动端的模板进行二次开发.但搜遍整个HUB都没法找到合适的空模板进行二次开发,所以心血来潮,于是有了 vue-mobile-template . 介绍 ...
Maven install没有将jar包加载到本地仓库
错误描述使用mvn install:install-file -Dfile=ojdbc8-19.3.0.0.jar -DgroupId=com.oracle -DartifactId=ojdbc8 ...
Node.js躬行记（19）——KOA源码分析（上）
本次分析的KOA版本是2.13.1,它非常轻量,诸如路由.模板等功能默认都不提供,需要自己引入相关的中间件. 源码的目录结构比较简单,主要分为3部分,__tests__,lib和docs,从名称中就可 ...
手脱PESpin壳【06.exe】
1.查壳 2.LoradPE工具检查一方面可以用LoradPE工具查看重定位,另一方面也可获取一些详细信息 3.查找OEP ①未发现pushad 开始未发现pushad,进行单步步入,很快就能找到p ...

Python 微博搜索爬虫