最近基金跌的真够猛,虽说是定投,但大幅度下跌,有时候适当的增加定投数也是降低平均成本的一种方式 每天去看去算太费时间,写了个爬虫,让他自动抓数据后自动计算出来吧 实现逻辑: 1.创建了一个excel表格,把当前定投的基金都备注到里面. 2.脚本依次读取表格中的基金代码 3.拿到基金代码,到"天天基金网"获取基金最新净值 4.把获取到净值和更新时间写到excel中 5.excel公示计算出基于最近一次购买值的涨跌幅 后续还可以把脚本搬到云上,每天自动运行,达到设置的跌幅发邮件提醒或者短信…
斗图啦表情包多线程爬取-写在前面 今天在CSDN博客,发现好多人写爬虫都在爬取一个叫做斗图啦的网站,里面很多表情包,然后瞅了瞅,各种实现方式都有,今天我给你实现一个多线程版本的.关键技术点 aiohttp ,你可以看一下我前面的文章,然后在学习一下. 网站就不分析了,无非就是找到规律,拼接URL,匹配关键点,然后爬取. 斗图啦表情包多线程爬取-撸代码 首先快速的导入我们需要的模块,和其他文章不同,我把相同的表情都放在了同一个文件夹下面,所以需要导入os模块 import asyncio impo…
通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个 一个单独的散知识点,需要通过实际的例子进行融合 分析网站 其实爬虫最重要的是前面的分析网站,只有对要爬取的数据页面分析清楚,才能更方便后面爬取数据 目标站和目标数据目标地址:http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp目标数据:目标地址页面的中间的案开庭公告数据 对数据页面分析从打开页面后可以看到默认的数据是一个月的数据,即当天到下个月该天的通过翻页…
美空网未登录图片----简介 上一篇写的时间有点长了,接下来继续把美空网的爬虫写完,这套教程中编写的爬虫在实际的工作中可能并不能给你增加多少有价值的技术点,因为它只是一套入门的教程,老鸟你自动绕过就可以了,或者带带我也行. 美空网未登录图片----爬虫分析 首先,我们已经爬取到了N多的用户个人主页,我通过链接拼接获取到了 http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html 在这个页面中,咱们要找几个核心的关键点,发…
>>>内容基本框架: 1.爬虫目的 2.爬取过程 3.代码实现 4.爬取结果  >>>实验环境: python3.6版本,pycharm,电脑可上网. [一 爬虫目的]对喜马拉雅上一个专辑的音频进行爬取并保存到本地 要爬取的喜马拉雅音频数据如下所示: 每页30个音频,共x页. [二 爬取过程] >>>F12打开谷歌功能,点击Network选项: F5刷新后,随便点击一个音频进行播放(这里特别注意): 找到我们要爬取的页面数据的url地址:https:/…
一.数据类型及解析方式 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据 和 结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数据:先有结构.再有数据 不同类型的数据,我们需要采用不同的方式来处理. 1.非结构化的数据处理 文本.电话号码.邮箱地址 用:正则表达式 html文件 用:正则表达式 / xpath/css选择器/bs4 2.结构化的数据处理 json文件 用:jsonPath / 转化成Python类型进行操作(…
Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端). IPython 终端与其他相比更为强大,提供智能的自动补全,高亮输出,及其他特性.(推荐安装IPython) 1 启动Scrapy Shell 进入项目的根目录,执行下列命令来启动shell: scrapy shell…
多页面爬取有两种形式. 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面. 2)从递归爬取,这个相对简单.在scrapy中只要定义好初始页面以及爬虫规则rules,就能够实现自动化的递归爬取. 获取子页面url列表的代码示例如下: #先获取url list,然后根据list爬取各个子页面内容 fromtutorial.items import DmozItem classDmozSpider(scrapy.Spider): name = "dmo…
上半部分内容链接 : https://www.cnblogs.com/lowmanisbusy/p/9069330.html 四.json和jsonpath的使用 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写.同时也方便了机器进行解析和生成.适用于进行数据交互的场景,比如网站前台与后台之间的数据交互. JSON和XML的比较可谓不相上下. Python 2.7中自带了JSON模块,直接import json就可以使…
小帅b说过 在这几篇中会着重说说将爬取下来的数据进行存储 上次我们说了一种 csv 的存储方式 这次主要来说说怎么将爬取下来的数据保存到 MySQL 数据库 接下来就是 学习python的正确姿势 真香假设 本文假设你已经安装好MySQL 并且懂了一些 MySQL 的使用 例如简单“增删改查”的语句 如果你还没安装 MySQL 可以到以下链接去安装一下 https://www.mysql.com/downloads/ 在你的 MySQL 中创建一个数据库吧 就叫... AV-Idol 用 roo…