学习目的: 爬虫有请求库(request.selenium).解析库.存储库(MongoDB.Redis).工具库,此节学习安装常用库的安装 正式步骤 Step1:urllib和re库 这两个库在安装Python中,会默认安装,下面代码示例调用: >>> import urllib >>> import urllib.request >>> urllib.request.urlopen("http://www.baidu.com")…
学习目的: urllib提供了url解析函数,所以需要学习正式步骤 Step1:什么是urllib urllib库是Python自带模块,是Python内置的HTTP请求库 包含4个模块: >>> import urllib >>> # urllib.request 请求模块 >>> # urllib.error 异常处理模块 >>> # urllib.parse url解析模块 >>> # urllib.robot…
koa-swig 引入库app.js var render = require('koa-swig'); 模版设置app.js app.context.render = co.wrap(render({ root: __dirname + '/views', autoescape: true, cache: 'memory', // disable, set to false ext: 'html' })); 在another.js调用 router.get('/', function *(ne…
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程 一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将数据或信息存入数据库中: 3.数据展示,即在Web端进行显示,并有自己的分析说明. 这次我先介绍第一个功能中所需要实现的基本操作: 爬虫的基本操作:      表示必须步骤           表示可选步骤 导入爬虫所需要的库(如:urllib.urllib2.BeautifulSoup.Scrap…
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 #encoding:utf-8 import urllib2 url = "http://www.cnblogs.com/" data = urllib2.urlopen(url).read() print data 我使用urllib2这个库,有关这个库的详细解释请看Python 标准库…
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备:      http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy01.html scrapy爬虫学习系列二:scrapy简单爬虫样例学习: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_007_scrapy02.html scrapy爬虫学习系列三:scrapy部署到scrapyh…
进击的Python[第十五章]:Web前端基础之DOM 简介:文档对象模型(Document Object Model,DOM)是一种用于HTML和XML文档的编程接口.它给文档提供了一种结构化的表示方法,可以改变文档的内容和呈现方式.我们最为关心的是,DOM把网页和脚本以及其他的编程语言联系了起来.DOM属于浏览器,而不是JavaScript语言规范里的规定的核心内容. 一.查找元素 1.直接查找 document.getElementById 根据ID获取一个标签 document.getE…
windows下python常用库的安装,前提安装了annaconda 的python开发环境.只要已经安装了anaconda,要安装别的库就很简单了.只要使用pip即可,正常安装好python,都会自带pip安装 工具,在python的scripts安装目录下可以查看.具体安装步骤:使用Anaconda在windows下管理python开发环境 python常用库的安装是python爬虫开发的基石. 1.urllib 和re库的安装 这两个库是python自带的库,只要正确安装了python,…
第十五章. 结构布局 #!/usr/bin/env python #(1)起始行 "this is a module" #(2)模块文档 import sys #(3)模块导入 debug = True #(4)全局变量定义 class Fooclass(object): #(5)类定义 "Foo class" pass def test(): #(6)函数定义 "test function" foo = Fooclass() if debug:…
第五章 数组 时间:2017年4月26日15:11:30~2017年4月26日15:15:54 章节:05章_01节  视频长度:09:30 内容:一维数组的内存分析 心得: Java中数组是引用类型 栈里面存的数组的引用 实际对象在堆内存里面 (C与C++是分配在栈里的) 内存图:   元素为引用数据类型的数组 引用类型的数组如上图   时间:2017年4月26日15:16:22~2017年4月26日15:19:00 章节:05章_02节  视频长度:05:25 内容:数组元素的创建与使用 心…
知乎原链 续前作: 中文代码示例视频演示Python入门教程第四章 控制流 对应在线文档: 5. Data Structures 这一章起初还是采取了尽量与原例程相近的汉化方式, 但有些语义较偏(如Trondheim的hammer dance). 鉴于这一教程的目的在于使人尽量快速入门Python, 而任何不熟悉的词汇都会加上不必要的负担. 于是最终决定不拘泥于与原例程的"形似", 而采取在例程中使用更为国人熟知的词汇了. 中文代码示例Python入门教程 5.1 列表详述_哔哩哔哩…
第五章 数组 1,简单数组 声明:int[] myArray; 初始化:myArray = new int[4]; 为数组分配内存. 还可以用如下的方法: int[] myArray = new int[4]{1,2,3,4}; int[] myArray = new int[]{1,2,3,4}; int[] myArray = {1,2,3,4}; 如果数组中的元素是引用类型,必须为每个数组分配内存: public class Person { public string FirstName…
博客地址:http://www.moonxy.com 一.前言 前面几章介绍了 MySQL 的安装和简单的配置,只会这些还不够,作为 Linux 系统管理员,我们还需要掌握一些基本的操作,以满足日常管理工作所需.MySQL环境中的命令需要带一个分号作为命令结束符. MySQL 之父 Widenius 先生离开了 Sun 之后,觉得依靠 Sun/Oracle 来发展 MySQL,实在很不靠谱,于是决定另开分支,这个分支的名字叫做 MariaDB.MariaDB 跟 MySQL 在绝大多数方面是兼容…
前言在前面的博客中介绍了,如何使用dlib标定人脸(python dlib学习(一):人脸检测),提取68个特征点(python dlib学习(二):人脸特征点标定).这次要在这两个工作的基础之上,将人脸的信息提取成一个128维的向量空间.在这个向量空间上,同一个人脸的更接近,不同人脸的距离更远.度量采用欧式距离,欧氏距离计算不算复杂.二维情况下:distance=(x1−x2)2+(y1−y2)2−−−−−−−−−−−−−−−−−−√distance=(x1−x2)2+(y1−y2)2 三维情…
第十二章. 标准库 See Python Manuals ? The Python Standard Library ? 1)    sys模块 import sys if len(sys.argv) < 2: print 'No action specified.' sys.exit() if sys.argv[1].startswith('--'): option = sys.argv[1][2:] if option == 'version': print 'Version 1.2' el…
学习目的: 解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用 正式步骤 Step1:流程分析 抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 抓取页面详情内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息: 下载图片并保存数据库:将图片下载到本地,把页面信息及图片url保存至MongoDB: 开启循环及多线程:对多页面内容遍历,开启多线程并提高抓取效率. Step2:实例分析 1. 打开今日头条搜索页,搜索“中超”,查看页面的…
学习目的: 掌握爬虫相关的基本概念 正式步骤 Step1:什么是爬虫 请求网站并提取数据的自动化程序 Step2:爬虫的基本流程 Step3:Request和Response 1.request 2.response Step4:能抓怎样的数据 Step5:怎么样来解析 Step6:怎样保存数据 学习总结: 结构化的爬虫还需要学很多,还有Python的基础技能要进一步学习,多应用才能巩固…
学习目的: 学习非关系型数据库环境安装,为后续的分布式爬虫做基建 正式步骤 Step1:安装Redis 打开http://www.runoob.com/,搜索redis安装 打开搜索的内容,得到redis下载网址: https://github.com/MSOpenTech/redis/releases 点击Redis-x64-3.2.100.msi链接下载,选择自定义路径安装 安装过程中,记得勾选添加防火墙例外,或者你关闭防火墙,不然图形化安装无法连接上数据库 Step2:安装redis可视化…
学习目的: 掌握MySQL数据库的安装 正式步骤 Step1:安装数据库 百度MySQL,下载软件 端口设置 设置密码,我的密码123456 下一步 下一步 查看MySQL服务器是否启动 PS:未申明的步骤为默认,选择自定义安装是因为不想默认安装在C盘系统盘,时间久了以后,系统越来越慢,主要原因还是因为我C盘太小了 Step2:安装MySQL可视化客户端 百度下载MySQL-Front 指定路径后安装 连接MYSQL数据库 学习总结: MySQL的卸载需要删除干净本地所有的目录,以及隐藏目录C:…
一.Requests库的基本说明 引入Rquests库的代码如下 import requests 库中支持REQUEST, GET, HEAD, POST, PUT, PATCH, DELETE共7个方法.其中REQUEST方法为基础方法,其它六种方法均通过调用REQUEST方法实现.为了编写程序的便利性,提供了这额外6个方法.我们首先看一下这6个方法的含义,及其在库中对应的函数: GET:请求指定的页面信息,对应requests.get() HEAD:只请求页面的头部,对应requests.h…
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说,Beautiful Soup库是可以解析.遍历.维护HTML/XML文件的“标签树”的功能库.本文总结了BeautifulSoup的基本使用方法. 一.Beautiful Soup库基本元素 库的比较常见的引用方式如下 from bs4 import BeautifulSoup #从Beautifu…
https://github.com/chenyuntc/pytorch-book/blob/v1.0/chapter5-常用工具/chapter5.ipynb 希望大家直接到上面的网址去查看代码,下面是本人的笔记 在训练神经网络过程中,需要用到很多工具,其中最重要的三部分是:数据.可视化和GPU加速.本章主要介绍Pytorch在这几方面的工具模块,合理使用这些工具能够极大地提高编码效率. 1.数据处理 PyTorch提供了几个高效便捷的工具,以便使用者进行数据处理或增强等操作,同时可通过并行化…
什么是Http和Https http协议:全称是HyperText Transfer Protocol,中文意思是超文本传输协议,是一种发布和接收Html页面的方法.默认的端口号是80 https协议:是http协议的加密版本,在HTTP下加入了SSL层.服务器端口号是443 在浏览器中发送一个Http请求的过程 当用户在浏览器的地址栏输入一个url并点下确定键时,浏览器会向web服务器发送HTTP请求,HTTP请求主要有GET和POST两种方法 发送过request请求后,服务器会返回一个re…
在正式爬取之前,先做一个试验,看一下爬取的数据对象的类型是如何转换为列表的: 写一个html文档: x.html<html><head><title>This is a python demo page</title></head> <body> <p class="title"> <a>The demo python introduces several python courses.&l…
需求驱动学习的动力. 因为我们单位上不了外网所以读新闻是那么的痛苦,试着自己抓取网页保存下来,然后离线阅读.今天抓取的是cnbeta科技新闻,抓取地址是http://m.cnbeta.com/wap/index.htm?page=1,咱们需要抓取的是前5页就行了.代码如下: #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2,re,time,json import sys from bs4 import BeautifulSoup r…
一.模块介绍: 1.模块定义 用来从逻辑上组织python代码(变量,函数,类,逻辑:实现一个功能),本质上就是.py结尾python文件 分类:内置模块.开源模块.自定义模块 2.导入模块 本质:导入模块的本质就是把python文件解释一遍:导入包的本质就是把包文件下面的init.py文件运行一遍 ① 同目录下模块的导入 #同级目录间import import module_name #直接导入模块 import module_name,module2_name #导入多个模块 使用:模块名.…
在实现爬虫的时候,我们使用Hash结构去存储我们用过的URL的时候,有些URL可能长度很长,为了更加节省空间,我们就要对URL进行压缩,帮它减减肥,这个我们介绍这个MD5算法,可以对URL进行有效的压缩. 下面我们会讲讲MD5算法的一些细节,不过我们大可不必在意,我们只需要知道,我们对一个很长很长的字符串进行MD5压缩,返回的是一个128位整数,这个字符串就是原字符串的唯一标示符,就好像是我们的身份证一样,通过这个id就可以标识唯一的你. MD5算法描述:MD5以512位分组来处理输入的信息,且…
一.模块介绍: 1.模块定义 用来从逻辑上组织python代码(变量,函数,类,逻辑:实现一个功能),本质上就是.py结尾python文件 分类:内置模块.开源模块.自定义模块 2.导入模块 本质:导入模块的本质就是把python文件解释一遍:导入包的本质就是把包文件下面的init.py文件运行一遍 ① 同目录下模块的导入 #同级目录间import import module_name #直接导入模块 import module_name,module2_name #导入多个模块 使用:模块名.…
自己从事的是汽车行业,所以首先要做的第一个程序是抓取搜狐汽车的销量数据库(http://db.auto.sohu.com/cxdata/): 数据库提供了07年至今的汽车月销量,每个车型对应一个xml数据,比如速腾的销量:http://db.auto.sohu.com/xml/sales/model/model1004sales.xml 现在需要做的是遍历所有车型,以这个格式保存 ‘车型----日期----销量’. #!/usr/bin/python # -*- coding: utf-8 -*…
1.继承 即是一个派生的类(derived class)继承基类(base class)的字段和方法,继承也允许把一个 派生类的对象作为 一个基类 对象对待.通俗来讲就是方便,继承前人的代码,减少工作量,当然这一切是为实现多态解决解决多继承的尴尬.具体实现如下: class A: def __init__(self): print("the frist number is 1") def __init__(self): print("the second number is…