（一）python金融数据爬虫项目

爬取目标：雪球网（起始url：https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_0&page=1）

爬取内容：雪球网深沪股市情况

使用工具：requests库实现发送请求、获取响应。　　

　　　　　json格式的动态加载数据实现数据解析、提取。　　

　　　　　pymysql进行数据存储

思路：对该网站的动态加载数据的请求方式进行控制变量的发送请求，最终得到实际有效的参数。

项目重点：使用抓包工具分析发送数据请求到json格式的cookie数据，这是此次动态抓取的重点

直接放代码（详细说明在注释里，欢迎同行相互交流、学习~）：

 import requests

 import json

 import pymysql

 class mysql_conn(object):

     # 魔术方法, 初始化, 构造函数

     def __init__(self):

         self.db = pymysql.connect(host='127.0.0.1', user='root', password='abc123', port=3306, database='py1011')

         self.cursor = self.db.cursor()

     # 执行modify(修改)相关的操作

     def execute_modify_mysql(self, sql):

         self.cursor.execute(sql)

         self.db.commit()

     # 魔术方法, 析构化 ,析构函数

     def __del__(self):

         self.cursor.close()

         self.db.close()

 headers = {

 # 使用抓包工具分析发送数据请求到json格式的cookie数据，这是此次动态抓取的重点

     'Cookie':  xq_a_token=584d0cf8d5a5a9809761f2244d8d272bac729ed4; xq_r_token=98f278457fc4e1e5eb0846e36a7296e642b8138a;

     'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',

 }

 url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'

 response = requests.get(url,headers=headers)

 res_dict = json.loads(response.text)

 list_lsit = res_dict['list']

 db ={}

 for list_item_dict in list_lsit:

     data_dict = json.loads(list_item_dict['data'])

     db['id'] = data_dict['id']

     db['title'] = data_dict['title']

     db['description'] = data_dict['description']

     db['target'] = data_dict['target']

     try:

         sql = 'insert into xueqiu (uid,title,description,target) values ("{id}","{title}","{description}","{traget}")'.fromart(**db)

         mc = mysql_conn()

         mc.execute_modify_mysql(sql)

     except:

         pass

python爬虫项目-爬取雪球网金融数据（关注、持续更新）的更多相关文章

Python爬虫项目--爬取链家热门城市新房
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析通过分析, 找出相关url, 确 ...
Python爬虫项目--爬取自如网房源信息
本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http:/ ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
Python爬虫项目--爬取某宝男装信息
本次爬取用到的知识点有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目标网站 1. 打开某宝首页, 输入"男装"后点击"搜索&q ...
selenium爬取qq空间，requests爬取雪球网数据
一.爬取qq空间好友动态数据 # 爬取qq空间好友状态信息(说说,好友名称),并屏蔽广告 from selenium import webdriver from time import sleep f ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

随机推荐

Session Cookie介绍和使用
Cookie机制 Cookie机制 Cookie是服务器存储在本地计算机上的小块文本,并随每个请求发送到同一服务器. IETF RFC 2965 HTTP状态管理机制是一种通用的cookie规范. W ...
unix的发展
转载http://blog.51cto.com/1193432/1671058
神经网络_线性神经网络 3 (Nerual Network_Linear Nerual Network 3)
1 LMS 学习规则_解方程组 1.1 LMS学习规则举例 X1=[0 0 1]T,t1=0:X2=[1 0 1]T,t2=0:X3=[0 1 1]T,t3=0:X1=[1 1 1]T,t1=1. 设 ...
MongoDB 错误汇总
错误1. ERROR: child process failed, exited with error number 100 可能原因: 1.没有正确关闭服务 2.服务已经启动 3.conf文件的参数 ...
FluentDataflow - Fluent Style TPL Dataflow
我的新英文博客文章: FluentDataflow - Fluent Style TPL Dataflow 介绍了本人最新发布的一个开源类库:FluentDataflow--Fluent风格的TPL ...
【转载】CSS3 文字溶解效果
代码如下: <!DOCTYPE html> <html > <head> <meta charset="UTF-8"> <ti ...
java字符串应用之字符串编码转换
[转载]原文地址:https://blog.csdn.net/zhouyong80/article/details/1900100 无论是对程序的本地化还是国际化,都会涉及到字符编码的转换的问题.尤其 ...
php 168任意代码执行漏洞之php的Complex (curly) syntax
今天了解了php 168的任意代码执行漏洞,Poc: http://192.168.6.128/pentest/cms/php168/member/post.php?only=1&showHt ...
vue组件的基本使用，以及组件之间的基本传值方式
组件(页面上的每一个部分都是组件) 1.三部分:结构(template),样式(style),逻辑(script) 2.组件的作用:复用 3.模块包含组件 4.组件创建: 1.全局组件:Vue ...
tensorflow、cuda、cudnn之间的版本对应关系
原文链接 tensorflow-gpu v1.9.0 | cuda9.0 | cuDNN7.1.4可行 | 备注:7.0.4/ 7.0.5/ 7.1.2不明确 tensorflow-gpu v1. ...

python爬虫项目-爬取雪球网金融数据（关注、持续更新）

（一）python金融数据爬虫项目

爬取目标：雪球网（起始url：https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_0&page=1）

爬取内容：雪球网深沪股市情况

使用工具：requests库实现发送请求、获取响应。

json格式的动态加载数据实现数据解析、提取。

pymysql进行数据存储

思路：对该网站的动态加载数据的请求方式进行控制变量的发送请求，最终得到实际有效的参数。

项目重点：使用抓包工具分析发送数据请求到json格式的cookie数据，这是此次动态抓取的重点

直接放代码（详细说明在注释里，欢迎同行相互交流、学习~）：

python爬虫项目-爬取雪球网金融数据（关注、持续更新）的更多相关文章

随机推荐

热门专题

使用工具：requests库实现发送请求、获取响应。　　

　　　　　json格式的动态加载数据实现数据解析、提取。　　

　　　　　pymysql进行数据存储