Python爬取新浪微博评论数据，写入csv文件中

因为新浪微博网页版爬虫比较困难，故采取用手机网页端爬取的方式

操作步骤如下：

1. 网页版登陆新浪微博

2.打开m.weibo.cn

3.查找自己感兴趣的话题，获取对应的数据接口链接

4.获取cookies和headers

# -*- coding: utf-8 -*-

import requests

import csv

import os

base_url = 'https://m.weibo.cn/api/comments/show?id=4131150395559419&page={page}'

cookies = {'Cookie':'xxx'}

headers = {'User-Agent':'xxx'}

path = os.getcwd()+"/weibo.csv"

csvfile = open(path, 'a+', encoding='utf-8',newline='')

writer = csv.writer(csvfile)

writer.writerow(('username','source','comment'))

for i in range(0,83):

    try:

        url = base_url.format(page=i)

        resp = requests.get(url, headers=headers, cookies=cookies)

        jsondata = resp.json()

        data = jsondata.get('data')

        for d in data:

            created_at = d.get("created_at")

            source = d.get("source")

            username = d.get("user").get("screen_name")

            comment = d.get("text")

            print((username,source,comment))

            writer.writerow((username, source, comment))

    except:

        print('*'*1000)

        pass

csvfile.close()

至于爬出来的数据有非中文的数据，要提取中文请参考：筛选出一段文字中的中文

未完待续。。。。

Python爬取新浪微博评论数据，写入csv文件中的更多相关文章

Python：将爬取的网页数据写入Excel文件中
Python:将爬取的网页数据写入Excel文件中通过网络爬虫爬取信息后,我们一般是将内容存入txt文件或者数据库中,也可以写入Excel文件中,这里介绍关于使用Excel文件保存爬取到的网页数据的 ...
Jmeter beanshell把数据写入csv文件中，最后清除csv数据
有时候我们需要使用jmeter去结合csv文件去做一些简单的数据驱动处理: 例如把数据库数据黏贴到csv文件中或者把网页上的数据填入到csv文件中: 直接我一般是用手自己黏贴复制过csv文件中,比较麻 ...
Python学习笔记之将数据写入到文件中
10-3 访客:编写一个程序,提示用户输入其名字:用户作出响应后,将其名字写入到文件guest.txt 中. 编写Python代码: username = input("Please ent ...
爬取百度页面代码写入到文件+web请求过程解析
一.爬取百度页面代码写入到文件代码示例: from urllib.request import urlopen #导入urlopen包 url="http://www.baidu.com& ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
C# 将List中的数据导入csv文件中
//http://www.cnblogs.com/mingmingruyuedlut/archive/2013/01/20/2849906.html C# 将List中的数据导入csv文件中将数 ...
PHP将数据写入指定文件中
首先创建一个空的txt文件,这里我们创建了一个1.txt的空文件. 第一种方法:fwrite函数 <?php $file=fopen('1.txt','rb+'); var_dump(fwrit ...
flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去
1. openrestry的安装 OpenResty = Nginx + Lua,是⼀一个增强的Nginx,可以编写lua脚本实现⾮非常灵活的逻辑 (1)安装开发库依赖 yum install -y ...
票房和口碑称霸国庆档，用 Python 爬取猫眼评论区看看电影《我和我的家乡》到底有多牛
今年的国庆档电影市场的表现还是比较强势的,两名主力<我和我的家乡>和<姜子牙>起到了很好的带头作用. <姜子牙>首日破 2 亿,一举刷新由<哪吒之魔童降世&g ...

随机推荐

LFU缓存
https://leetcode-cn.com/problems/lfu-cache/description/ 缓存的实现可以采取多种策略,不同策略优点的评估就是"命中率".好的策 ...
libev ev_io_init学习
#define ev_io_init(ev,cb,fd,events) / do { ev_init ((ev), (cb)); ev_io_set ((ev),(fd),(events)); } w ...
【虚拟化系列】VMware vSphere 5.1 简介与安装
一. VMware vSphere 5.1简介 vSphere是VMware推出的基于云计算的新一代数据中心虚拟化套件,提供了虚拟化基础架构.高可用性.集中管理.监控等一整套解决方 ...
SQLDumpSplitter sql文件分割工具
数据库误操作,只好使用使用原来的备份数据去恢复数据,但是数据量太大,只好使用SQLDumpSplitter将大文件分割成小文件,然后恢复指定的表即可.
Oracle pl/sql导入sql文件，插入更新数据，中文乱码问题解决方案
http://szh-java.iteye.com/blog/1869360 问题描述:用a.sql文件执行insert或update,不论是通过pl/sql还是sqlplus环境下执行,@文件名执行 ...
替换SQL字段中的换行符，回车符
替换SQL字段中的换行符,回车符: 在富文本内容中通常会出现回车.换行内容.在sql数据库中这些回车.换行符,输出html后,表现为空格. 这里是在数据导出.导入中发现的,通常把回车.换行符找出来,用 ...
response.encodeURL的用法
Java Servlet API 中引用 Session 机制来追踪客户的状态.Servlet API 中定义了 javax.servlet.http.HttpSession 接口,Servlet 容 ...
xtrabackup-解压备份文件报错sh: qpress: command not found
# xtrabackup --decompress --target-dir=/data/compressed xtrabackup version 2.4.8 based on MySQL serv ...
selenium实战脚本集（2）——简单的知乎爬虫
背景很多同学在工作中是没有selenium的实战环境的,因此自学的同学会感到有力无处使,想学习但又不知道怎么练习.其实学习新东西的道理都是想通的,那就是反复练习.这里乙醇会给出一些有用的,也富有挑战 ...
从sys/power/state分析并实现S3C2416的睡眠和唤醒
环境: PC: debian-7.6.0 ARM CPU: S3C2416 Linux-Kernel: 3.6.0(FriendlyARM) U-boot: 1.3.4 一.问题来源依据须要,在S3 ...

Python爬取新浪微博评论数据，写入csv文件中

Python爬取新浪微博评论数据，写入csv文件中的更多相关文章

随机推荐

热门专题