学习目的: MongoDB的安装 正式步骤 (VMWare 虚拟机上无法安装这个MongoDB的自启动服务,如果你能办到,请多赐教) Step1:MongoDB的简介 MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案. mongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的.他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型.Mongo最大的…
在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库)   [推荐地址:清华镜像] https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ [安装过程中注意选择自动添加path到环境变量中,未选择需要自己添加] 红色提示的意思是:自动添加的环境变量会处于最前面,自动成为默认,可能会使原本使用默认的软件报错,未防止以上问题,可以打开环境变量后,调整顺序将Ana…
前置操作 软件名:anaconda  版本:Anaconda3-5.0.1-Windows-x86_64清华镜像  下载链接:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 软件名:Pycharm  版本:pycharm-professional-2017.3.2  下载地址:百度即可 软件名:python    版本:3.6      下载地址:python.org conda安装 Step 1: anaconda安装及注意事项 默…
1 # Python爬虫学习第一记 8.24 (代码有点小,请放大看吧) 2 3 #实现有道翻译,模块一: $fanyi.py 4 5 import urllib.request 6 import urllib.parse 7 import json 8 9 # word 是将要传入的翻译的内容 10 11 def fanyi(word): 12 while 1: 13 # 去掉url中的 _o 可以解决反爬虫机制 14 url = 'http://fanyi.youdao.com/transl…
前言 原创文章,转载引用务必注明链接.水平有限,如有疏漏,欢迎指正. 之前看阮一峰的博客文章,介绍到路飞学城爬虫课程限免,看了眼内容还不错,就兴冲冲报了名,99块钱满足以下条件会返还并送书送视频. 缴纳99元保证金即可参与,只要完成3次作业和参与直播,提交学习笔记,就可以退还保证金,还可获得<Python全栈开发实战>及内部教材书籍,视频课程.定制文化衫等作为奖励.另外,还会有1对1的导师逐行批改你的代码.讲师3次直播答疑,还有班主任组队小伙伴共同学习. 好像打了一次广告,麻烦luffy的工作…
自学Python的时候看了不少老男孩的视频,一直欠老男孩一个会员,现在99元爬虫集训果断参与. 非常喜欢Alex和武Sir的课,技术能力超强,当然讲着讲着就开起车来也说明他俩开车的技术也超级强! 以上是闲扯,开始正式话题. -----------------------------------------------华丽的分割线-------------------------------------------------- 爬虫是什么 百度上是这样讲的. 网络爬虫(又被称为网页蜘蛛,网络机器…
开发环境: VMware虚拟机 Ubuntu18.04 python3.6 (由于对vi操作水平有限,所以大部分都用的gedit进行文件编辑) 换源: 刚装上系统后换了好几个源,就清华源感觉好使点,别的源apt-get安装东西老是失败 1.2.5 PhantomJS的安装:PhantomJS报错warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless ' 1.3.4 tessero…
学习目的: 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特点字符.及这些特点字符组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑. 正式步骤 Step1:常用匹配模式 Step2:最常规的匹配 import re testString = 'I have 4Learned the python years' print(len(testString)) result = re.match('^I\s\w{4}\s\d\w{7}.*years$',t…
系统环境是:Ubuntu 14.04 个人首次接触OpenGL,学到哪就写到哪. 1.模块安装: sudo apt-get install python-openglpip install PyOpenGL PyOpenGL_accelerate (解释:这个安装是因为出现了该错误:OpenGL.error.NullFunctionError: Attempt to call an undefined function glutInit, check for bool(glutInit) bef…
在Centos6.9上安装Mongodb时候,遇到"No package mongodb-org available"这个报错. 经过查询后,在Centos6.9上需要针对Mongodb针对独立安装,按照如下教程,可以把Mongodb安装成功. 首先更新系统 yum -y update 1.安装Mongodb 编辑Mongodb安装源 vim /etc/yum.repos.d/mongodb-org-3.6.repo 编辑内容如下: [mongodb-org-3.6] name=Mon…
0. 前言 如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力 因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫 所以建议先学习一下cuiqingcai大神的 Python爬虫学习系列教程 的入门部分. 它的整个系列教程我觉得写得非常好,值得一看! 当然,即便是你什么都不会,也没关系. 只要有一颗上进的心,没什么是学不会的. 希望我的文章能给你些许帮助! 1. 扒下一个网页 什么都不讲,直接上一段代码 import urllib2 html = urllib2.u…
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程 一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将数据或信息存入数据库中: 3.数据展示,即在Web端进行显示,并有自己的分析说明. 这次我先介绍第一个功能中所需要实现的基本操作: 爬虫的基本操作:      表示必须步骤           表示可选步骤 导入爬虫所需要的库(如:urllib.urllib2.BeautifulSoup.Scrap…
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 #encoding:utf-8 import urllib2 url = "http://www.cnblogs.com/" data = urllib2.urlopen(url).read() print data 我使用urllib2这个库,有关这个库的详细解释请看Python 标准库…
Python爬虫学习02--打包exe可执行程序 1.上一次做了一个爬虫爬取电子书的Python程序,然后发现可以通过pyinstaller进行打包成exe可执行程序.发现非常简单好用 2.这是上次写的程序,以此作为案例 https://www.cnblogs.com/ma1998/p/13291251.html 3.安装pyinstaller: cmd中可以使用pip install pyinstaller,我用的pycharm在设置中找到Project Interpreter中搜索pyins…
开篇 作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录 听说你叫爬虫 -- 总目录 听说你叫爬虫(1) -- 从urllib说起 听说你叫爬虫(2) -- 爬一下ZOL壁纸 听说你叫爬虫(3) -- 模拟登陆 听说你叫爬虫(4) -- 手刃「URP教务系统」 听说你叫爬虫(5) -- 扒一下codeforces题面 听说你叫爬虫(6) -- 神器 Requests 听说…
web学习第一章   我是大概9月10日开始走上IT之路的,一开始学习了小段时间的自动化办公软件, 昨天我开始学习客户端网页编程,我了解什么是WEB,一些比较老古董的计算模式和发展历史,印象最让我深刻的是WEB应用程序的工作原理,因为老师为了解释这个画来很多遍图,我当时想的是:为什么还有人没懂?我都听困了. 直到老师说要抽人起来画图,我一下就回过神来了,于是乎老师抽人开始了,我看见同学一个个的被抽上去画,我发现我有些东西怎么没看见过,在他们画的同时我就在下面学,错一个,我就记一个. 今天老师还是…
之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取 就以博客园的首页为例:http://www.cnblogs.com/ 打开网页,按下F12键,如下图所示: 点击下方标签中的Network,如下: 之后再点击下图所示位置: 找到红色下划线位置所示的标签并点击,在右边的显示内容中可以查看到所需要的headers信息. 一般只需要添加User-Agent这一信息就足够了,headers同样也是字典类型: user…
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流. 一.Python入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使用 4. Python爬虫入门四…
当我们浏览网页的时候,经常会看到像下面这些好看的图片,你是否想把这些图片保存下载下来. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片点击鼠标右键的时候并没有另存为选项,或者你可以通过截图工具截取下来,但这样就降低图片的清晰度,并且这样效率很低. 那肿么办呢? 我们可以通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地. 说到网络爬虫(又被称为网页蜘蛛,网络机器人等),然而它并不是一种爬虫~而是一种可以在网上任意搜索的一个脚本程序. 如果说一定要解释网络爬虫到底…
<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Python爬虫感兴趣的童鞋有帮助,如果有机会期待与大家的交流. 一.Python入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urlli…
1.1最简单的查询语句 例 1-1 SQL> select * from emp; 例 1-1 结果 这里的 * 号表示全部的列.它与在select 之后列出全部的列名是一样的.查询语句以分号( ; )结束. emp(employee)是一个员工表. 1.2 在查询语句中怎样选择特定的列 在平时的使用过程中我们须要的往往仅仅是一张表中的某一条或者某几条数据而已.但上面查询的结果可能看起来比較乱.假设我们指向知道若干个特定列的信息,使用select 语句非常easy就能够做到. 就好比我们去菜市场…
python爬虫学习01--电子书爬取 1.获取网页信息 import requests #导入requests库 ''' 获取网页信息 ''' if __name__ == '__main__': #主函数入口 target = 'https://www.xsbiquge.com/78_78513/108078.html'#要爬取的目标地址 req = requests.get(url=target) #进行get请求 req.encoding='utf-8' #设置编码 print(req.…
python爬虫学习05-爬取图片 确定要爬取的网址:https://shenan.tuchong.com/20903415/#image309854686 要爬取的内容:使用浏览器插件xpath对图片链接进行查找://article/img/@src 得到图片链接: 代码 import requests from fake_useragent import UserAgent from lxml import etree url = "https://shenan.tuchong.com/20…
Win10系统下Python3.x环境配置 https://blog.csdn.net/qq_41952474/article/details/82630551…
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不同. 官网文档:http://doc.scrapy.org/en/latest/intro/install.html,最权威哒,下面是我的亲身体验过程. 1.安装Python 安装过程我就不多说啦,我的电…
深入理解Magento 作者:Alan Storm翻译:zhlmmc 前言第一章 - Magento强大的配置系统第二章 - Magento请求分发与控制器第三章 - 布局,块和模板第四章 - 模型和ORM基础第五章 - Magento资源配置第六章 - 高级Magento模型第七章 - 自定义Magento系统配置 前言 我从2007年开始使用Magento,应该算是国内第一批使用Magento的用户.但是我却从来没有认真研究过Magento,更多的停留在应用层面.虽然也做过一些插件,但也就是…
Python作为爬虫语言非常受欢迎,近期项目需要,很是学习了一番Python,在此记录学习过程:首先因为是初学,而且当时要求很快速的出demo,所以首先想到的是框架,一番查找选用了Python界大名鼎鼎的Scrapy框架,这个框架历史悠久,直接pip安装,安装使用非常方便. 先介绍Python的安装windows去链接https://www.python.org/downloads/windows/下载Python的安装包,选择对应的版本,选择对应系统安装包再次说明,本文安装的是Python2.…
最近准备深入学习Python相关的爬虫知识了,如果说在使用Python爬取相对正规的网页使用"urllib2 + BeautifulSoup + 正则表达式"就能搞定的话:那么动态生成的信息页面,如Ajax.JavaScript等就需要通过"Phantomjs + CasperJS + Selenium"来实现了.所以先从安装和功能介绍入门,后面在介绍一些Python相关的爬虫应用. 一. 介绍 PhantomJS        PhantomJS是一个服务器端的…
目标:做一个小爬虫项目 2017年6月4日13:32:17       mooc网教程Python爬虫入门一之综述要学习Python爬虫,我们要学习的共有以下几点:Python基础知识Python中urllib和urllib2库的用法Python正则表达式Python爬虫框架ScrapyPython爬虫更高级的功能1.Python基础学习 1) 慕课网Python教程 2) 廖雪峰Python教程 3) 简明Python教程 4) 汪海的实验室2.Python urllib和urllib2 库的…
BeautifulSoup插件的使用 这个插件需要先使用pip安装(在上一篇中不再赘言),然后再程序中申明引用 from bs4 import BeautifulSoup html=self.requests(url)#调用requests函数把套图地址传入会返回一个response all_a=BeautifulSoup(html.text,'lxml').find('div',class_='all').find('li').find_all('a') 这里find方法只会查找第一个匹配的元…