Python爬虫采集商品评价信息--京东

1.数据采集逻辑

在进行数据采集之前，明确哪些数据为所需，制定数据Schema为爬取工作做出要求，并根据数据Schema制定出有针对性的爬取方案和采集逻辑。

2.数据Schema

3.数据爬取

抓取京东平台任一商品的评论信息，此案例抓取的商品是某一店铺的车厘子评价信息。

评论信息是由JS动态加载的，所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件，通过使用浏览器的开发者工具进行查找。

目标URL地址：

https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10056364088483&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

通过发现可知，productId为当前商品的商品Id，page为页码（从0开始），爬取该商品的所有评价信息只需要改变page参数即可。（京东商品评价页只显示前100页，所以page最大值为99）

导入库

import random

import requests

import json

import re

import csv

import time

import pymysql

对爬虫程序进行伪装

header = {

        'refer': 'https: // item.jd.com /',

        'cookie': '',

        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'

    }

抓取商品评论信息

将python程序伪装成浏览器后，就可以对评论信息进行爬取，在前面的分析中，productId和page为重要参数，在本案例中爬取的商品为车厘子，productId已确定，只需要对page进行更改即可达到需要。通过parms提交参数，使代码更有逻辑感并方便更改两个重要参数。

parm = {

        'callback': 'fetchJSON_comment98',

        'productId': '10056364088483',

        'score': '0',

        'sortType': '5',

        'page': page,

        'pageSize': '10',

        'isShadowSku': '0',

        'fold': '1'

    }

url = 'https://club.jd.com/comment/productPageComments.action'

res = requests.get(url, params=parm, headers=header)

4.防止反爬，每爬取一页数据后，设置程序休眠环节

# 程序休眠

time.sleep(random.randint(40, 80) * 0.1)

print('第%d页正在爬取' % (page + 1))

  爬取完成后，需要对页面进行编码，不影响后期的数据提取和数据清洗工作。

  使用正则对数据进行提取，返回字符串。

  字符串转换为json格式数据。

res.encoding = 'gb18030'

html = res.text

data = re.findall('fetchJSON_comment98\((.*?)\);', html)

data = json.loads(data[0])  # 将处理的数据进行解析

comments = data['comments']

print(data['comments'])

4.数据存储

存储到csv

# 写入csv文件

f = open("evalution_data.csv", "a", newline='', encoding='gb18030')

header = ["id", "content", "creationTime", "score", "productColor", "productSize"]

# 创建一个DictWriter对象，第二个参数就是上面创建的表头

writer = csv.DictWriter(f, header)

writer.writeheader()

    for i in comments:

        id = i['id']

        content = i['content']

        creationTime = i['creationTime']

        score = i['score']

        productColor = i['productColor']

        productSize = i['productSize']

        writer.writerow(

            {"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor,

             "productSize": productSize})

f.close()

　　2.存储到数据库

# 写入数据库

conn = pymysql.connect(host='', user='', password='', port=, db='')

cursor = conn.cursor()

    for i in comments:

        id = i['id']

        content = i['content']

        creationTime = i['creationTime']

        score = i['score']

        productColor = i['productColor']

        productSize = i['productSize']

        sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')"

        cursor.execute(sql)

        conn.commit()

cursor.close()

conn.close()

Python爬虫采集商品评价信息--京东的更多相关文章

python爬虫采集
python爬虫采集最近有个项目需要采集一些网站网页,以前都是用php来做,但现在十分流行用python做采集,研究了一些做一下记录. 采集数据的根本是要获取一个网页的内容,再根据内容筛选出需要的数 ...
python爬虫之User-Agent用户信息
python爬虫之User-Agent用户信息爬虫是自动的爬取网站信息,实质上我们也只是一段代码,并不是真正的浏览器用户,加上User-Agent(用户代理,简称UA)信息,只是让我们伪装成一个浏览 ...
python爬虫——用selenium爬取京东商品信息
1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Headless无弹窗模式 options = webdri ...
基于Python爬虫采集天气网实时信息
相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10- ...
抖音爬虫教程，python爬虫采集反爬策略
一.爬虫与反爬简介爬虫就是我们利用某种程序代替人工批量读取.获取网站上的资料信息.而反爬则是跟爬虫的对立面,是竭尽全力阻止非人为的采集网站信息,二者相生相克,水火不容,到目前为止大部分的网站都还是可 ...
Python爬虫（一）信息系统集成及服务资质网
警告:不要恶意的访问网站,仅供学习使用! 本教程实例只抓取信息系统集成及服务资质网的企业资质查询. 1. 抓包打开谷歌浏览器的开发者工具并访问该网站,过滤请求后找到请求数据的包. 1.1 找到相应封 ...
Python 爬虫 JD商品-scrapy+requests
目标站点需求分析 JD商品信息抓取需求信息字段涉及的库 scrapy, requests,re lxml 获取单页源码解析单页源码获取总页数获取商品url 解析商品信息保存本地文件保存m ...
python爬虫-链家租房信息获取
#导入需要用到的模块 import requests import pymysql import time from bs4 import BeautifulSoup import tkinter a ...
python爬虫采集网站数据
1.准备工作: 1.1安装requests: cmd >> pip install requests 1.2 安装lxml: cmd >> pip install lxml ...
python爬虫-采集英语翻译
http://fanyi.baidu.com/?aldtype=85#en/zh/drughttp://fanyi.baidu.com/?aldtype=85#en/zh/cathttp://fa ...

随机推荐

labwindows excel 不同电脑上无法保存
存到c盘以外的盘,c盘因为权限问题可能无法写入
SQL-关联
关联的本质:从一张表依次取一条数据和另一张表每一条数据进行匹配内关联 inner join (inner可省略) -- 只显示关联的上的数据外关联有三种左外 left join -- 主表数据不丢失 ...
关于CSS3中的min-height等的使用
一.min-height 当我们需要让某个容器不能低于某个高度,但是不能将高度固定在这个高度,希望其能够随着容器内内容的增多而变高时,我们可以对容器设置一个min-height来让该容器获得该特性.( ...
Docker基本命令之仓库管理(docker hub)
仓库管理仓库介绍:仓库(Repository)就是集中存放镜像的地方登录docker hub注册一个自己的账号然后创建一个仓库:xxx 登录:docker login -- 输入用户名/密码(退 ...
C++ 函数参数与按值传递
C++ 函数参数与按值传递 C++ 通常安值传递参数,这意味着将数值参数传递给函数,而后者将其赋给一个新的变量. double volume = cube(side); 其中,side 是一个变量. ...
什么是Vuex
Vuex是实现组件全局状态(数据)管理的一种机制,可以方便的实现组件之间数据的共享. 优点: 能够在Vuex中集中管理共享的数居,易于开发和后期维护能够高效地实现组件之间的数据共享,提高开发效率存 ...
linux 系统安装配置jdk + mysql + redis （离线状态）
系统版本:centos7.7 环境搭建(离线状态) 安装java环境安装配置mysql数据库安装配置redis数据库安装java环境 jdk版本:jdk-8u5-linux-x64.rpm ...
error：Visual Studio 2012.4, “Run As Administrator” -> “The application cannot start”
复制所有 dte*.olb 文件从C:\Program Files (X86)\Common Files\Microsoft Shared\MSEnv 到 C:\Program Files X8 ...
vs 2015 默认管理员启动
方法一: 找到 VS快捷方式所在位置,并对其高级属性中的"用管理员身份运行"进行勾选,然后进行确定. 此方法如果是通过sln文件的快捷方式打开的,不是管理员方法二: 1.打开 ...
MapReduce实践
1. 词频统计任务要求首先,在Linux系统本地创建两个文件,即文件wordfile1.txt和wordfile2.txt.在实际应用中,这两个文件可能会非常大,会被分布存储到多个节点上.但是,为了 ...