python 版本 :3.5.2 Jupyter Notebook 使用库: reuqests (For human) json (用来加载JSON数据) datetime (用来记录抓取所花时间,也可以忽略) pymysql (连接数据库,载入所爬取数据 ) 1.用chrome浏览器打开网贷之家官网:http://www.wdzj.com  然后使用Chrome工具审查元素,勾选 Preserve log  然后刷新一次页面 2.找到 http://www.wdzj.com/wdzj/html…
# coding utf-8 import requests import json import datetime import pymysql user_agent = 'User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)' # 用来伪装用户身份 headers = {'User-Agent': user_agent} p2plist_url = 'http://www.wdzj.com/wd…
接触python也有一段时间了,一提到python,可能大部分pythoner都会想到爬虫,没错,今天我们的话题就是爬虫!作为一个小学生,关于爬虫其实本人也只是略懂,怀着"Done is better than perfect"的态度硬着头皮开始了这篇文章的撰写!好了,废话不多说! 先说一下今天我们的目的,作为一个音痴但不影响我对于音乐的执着,所以今天我们爬取的是网易云音乐,我们将会通过代码爬取歌词并写入到本地. 作为新手,我很本能就打开页面复制了url,然后用Beautifulsou…
一.需求 好久没有碰爬虫了,竟不知道从何入手.偶然看到一篇知乎的评论(https://www.zhihu.com/question/20799742/answer/99491808),一时兴起就也照葫芦画瓢般尝试做一做.本文主要是通过网页的歌名搜索,然后获取到页面上的搜索结果,最后自行选择下载搜索结果中的哪条歌曲. 二.应用 在这个过程中,有很多坑,但还好撑过去了.过程中主要用到的东西有 fiddler抓包查看日志.浏览器JS的分析.python ASE的加密.request包 的简单应用.js…
需要:MySQLdb 下面是数据表结构: /* Navicat MySQL Data Transfer Source Server : 127.0.0.1 Source Server Version : 50509 Source Host : 127.0.0.1:3306 Source Database : wooyun Target Server Type : MYSQL Target Server Version : 50509 File Encoding : 65001 Date: 201…
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后在代码中用正则表达式来匹配相关节点的信息. 难点: 1.选取抓取节点 2.抓取信息的正则表达式(需要考虑到特别个例,有时候要重复试很多次才搞定) 3.格式的转换(window下命令提行默认的编码是GBK,而网页默认的是编码是utf-8,编码不匹配就会出现乱码) 4.将抓取的信息加载到数据库里,这里对…
由于需要,本人需要对大街网招聘信息进行分析,故写了个爬虫进行爬取.这里我将记录一下,本人爬取大街网的思路. 附:爬取得数据仅供自己分析所用,并未用作其它用途. 附:本篇适合有一定 爬虫基础 crawler 观看,有什么没搞明白的,欢迎大家留言,或者私信博主. 首先,打开目标网址www.dajie.com ,在职位搜索中 输入所需职业或关键信息 (我这演示的是 程序员),然后可得到新的链接地址 https://so.dajie.com/job/search?keyword=%E7%A8%8B%E5…
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看BeautifulSoup 4 官方文档. 为什么要用BS? BS可以和许多框架配合使用,让我们在编写爬虫程序时关注于操作逻辑,而不需要再关心其具体实现,最直观地体现就是不需要再编写正则表达式去匹配文本. 如何使用BS? 现在正式开始今天的主要内容:如何使用BS爬取慕课网所有课程及其对应的评分.本文依托的Python…
今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地. 跟着小编运行过代码的筒子们将网易云歌词抓取下来已经不再话下了,在抓取歌词的时候在函数中传入了歌手ID和歌曲名两个参数,其实爬取歌曲也是同样的道理,也需要传入这两个参数,只不过网易云歌曲的URL一般人找不到.不过也不要慌,有小编在,分分钟扫除您的烦恼. 网易云歌曲一般会有一个外链,专门用于下载音乐音频的,以赵雷的歌曲<成都>为例,<成都>的外链URL是: http://music.163.com…
#爬取网易云音乐 url="https://music.163.com/discover/toplist" #歌单连接地址 url2 = 'http://music.163.com/song/media/outer/url?id='#歌曲地址headers={#请求报头 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.10…