一.使用request和get访问某个网页20次并且打印返回状态,内容   扩展:常见状态码含义 200 - 服务器成功返回网页,404 - 请求的网页不存在,403(禁止)服务器拒绝请求,404(未找到)服务器找不到请求的网页,503 - 服务器超时,3xx (重定向)    (1)request库简介:处理HTTP请求的第三方库,建立在urllib3库的基础上    (2)常用函数 get(url[,timeout = n ]), post    delete,head,options,pu…
孤荷凌寒自学python第八十天开始写Python的第一个爬虫10 (完整学习过程屏幕记录视频地址在文末) 原计划今天应当可以解决读取所有页的目录并转而取出所有新闻的功能,不过由于学习时间不够,只是进一步优化了自定义函数的写法. 一.优化并新增了几个操作word文档的函数 ``` #!/usr/bin/env python3 # -*- coding: utf-8 -*- import string import time import random from docx.enum.style i…
孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对word文档的段落对象的操作的学习,并通过函数封装,使得可以轻松一点直接向word文档中添加一个或多个段落文本并且设置段落的格式. 一.完成了批量添加word文档段落的函数 ``` def addPToDocx(f,strp,strfont='宋体',fontsize=14,fontcolor=RG…
孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import datetime import pymongo import _mty import _mf import _mbs4 import _mmongo import…
孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import datetime import pymongo import _mty import _mf import _mbs4 import _mmongo import…
孤荷凌寒自学python第七十三天开始写Python的第一个爬虫3 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import datetime import _mty import _mf import _mbs4 def msgbox(info,titletext='孤荷凌寒的DB模块…
孤荷凌寒自学python第七十二天开始写Python的第一个爬虫2 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import _mty import _mf def msgbox(info,titletext='孤荷凌寒的DB模块对话框QQ578652607',style=0,isSho…
孤荷凌寒自学python第七十一天开始写Python的第一个爬虫 (完整学习过程屏幕记录视频地址在文末) 在了解了requests模块和BeautifulSoup模块后,今天开始真正写一个自己的爬虫代码出来,不过果然是新手上阵,这第一天的程序代码结果并没有完成. 直接上代码.详细过程见文末屏幕录像. import requests from bs4 import BeautifulSoup import re import _mty import _mf def msgbox(info,titl…
孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天止基本完成了对docx模块针对word文档的段落对象的操作的学习,并通过函数封装,使得可以轻松一点直接向word文档中添加一个或多个段落文本并且设置段落的格式. 由于学习时间有限,今天的函数没有完全完成. 一.修改了之前自定义的批量添加word文档段落的函数 ``` def addPToDocx(f,strp,strfont=…
孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 今天的学习仍然是在纯粹对docx模块的探索和研究. 一.对docx模块的学习笔记 (一)docx文档中的色彩控制 from docx.shared import RGBColor 此方法用于将三个数值(十进制,十六进制的三个数都行,三原色)生成色彩对象 用法是: RGBColor(红色值,绿色值,蓝色值) (二)为文字指定色彩,今天…
孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 不过由于对python-docx模块的不熟悉,事实上今天的学习变成了纯粹对docx模块的探索和研究了. 一.对docx模块的学习笔记 (一)docx文档中的样式结构常量 from docx.enum.style import WD_STYLE_TYPE WD_STYLE_TYPE中包含了docx文档需要的所有样式 (包括段落.文字.…
用到的开发环境 IDE:pycharm python  version :2.7 掌握的知识:  Pycharm  还能更改Python的版本 代码如下:(重点就是   正则表达式的学习) # !/usr/bin/python # -*- coding:utf-8 -*- # 功能说明 使用Python 批量爬取网络上的图片下载 import re import urllib # 首先打开网页 获取网页的源代码 html = urllib.urlopen("http://www.woyaogex…
import urllib.request import re class DownPic: def __init__(self,url,re_str): self.url = url self.re_str = re_str def getHtml(self,url): page = urllib.request.urlopen(url) html = page.read() return str(html) def downloadPic(self): imgre = re.compile(…
原文出处:https://www.cnblogs.com/wmyskxz/p/9010832.html   Spring Boot 概述 Build Anything with Spring Boot:Spring Boot is the starting point for building all Spring-based applications. Spring Boot is designed to get you up and running as quickly as possibl…
原文地址:https://www.cnblogs.com/wmyskxz/p/8820371.html   认识 Spring 框架 Spring 框架是 Java 应用最广的框架,它的成功来源于理念,而不是技术本身,它的理念包括 IoC (Inversion of Control,控制反转) 和 AOP(Aspect Oriented Programming,面向切面编程). 什么是 Spring: Spring 是一个轻量级的 DI / IoC 和 AOP 容器的开源框架,来源于 Rod J…
今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- coding:utf-8 -*- __author__ = 'Young' import re,urllib #urllib : 网页访问,返回网页的数据.内容 def my_get(ID):# 封装成函数方便调用 html = urllib.urlopen("https://read.douban.c…
前言 机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境 得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文章有幸被你看到的话,如果你也是个初学者,希望能让你也学习到一些东西,下面是干货. 需求:…
题外话 我第一次听说Python是在大二的时候,那个时候C语言都没有学好,于是就没有心思学其他的编程语言.现在,我的毕业设计要用到爬虫技术,在网上搜索了一下,Python语言在爬虫技术这方面获得一致好评. 所以从昨天开始就在网上查找各种Python爬虫小程序的源码,可是一天过去了,不仅没有写出一个简单的爬虫程序,反而对Python要引入的各种包和语法越来越迷糊了.去菜鸟教程一看,Python语言相对来讲还是蛮复杂的(虽然它的语法很简单,但是对于初学者,很多封装在一个包里的东西都非常陌生),我恶补…
一.本节主要内容 Python介绍 发展史 Python 2 or 3? 安装 Hello World程序 变量 用户输入 模块初识 .pyc文件 数据类型初识 数据运算 表达式if ...else语句 表达式for 循环 break and continue 表达式while 循环 编码问题 二.具体内容 1.python介绍 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚本解释程序,…
点击了解更多Python课程>>> 零基础入门Python实战:四周实现爬虫网站 Django项目视频教程 适用人群: 即将毕业的大学生,工资低工作重的白领,渴望崭露头角的职场新人,零基础学过很多次编程都没能学会的人. 课程简介 毕业不知如何就业?工作效率低经常挨骂?很多次想学编程都没有学会? Python实战:四周实现爬虫系统,无需编程基础,二十八天掌握一项谋生技能. 带你学到如何从网上批量获得几十万数据,如何处理海量大数据,数据可视化及网站制作. 四大保障: 1.快速入门,无需基础.…
第一个爬虫 这里我用官方文档的第一个例子:爬取http://quotes.toscrape.com来作为我的首个scrapy爬虫,我没有找到scrapy 1.5的中文文档,后续内容有部分是我按照官方文档进行翻译的(广告:要翻译也可以联系我,我有三本英文书籍的翻译出版经验,其中两本是独立翻译LOL),具体的步骤是: 在CMD中,进入你想要存储代码的目录下执行:scrapy startproject myspiders,其中quotes可以是你想要创建的目录名字. Scrapy会自动创建一个名为my…
        前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy,可是也分享给大家,就当简单入门吧!同一时候仅仅分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要包含:         1.介绍爬取CSDN自己博客文章的简单思想及过程         2.实现Python源代码爬取新浪韩寒博客的316篇文章 一.爬虫的简单思想      近期看…
1. 概述 java爬虫系列包含哪些内容? java爬虫框架webmgic入门 使用webmgic爬取 http://ady01.com 中的电影资源(动作电影列表页.电影下载地址等信息) 使用webmgic爬取 极客时间 的课程资源(文章系列课程 和 视频系列的课程) 本篇文章主要内容: 介绍java中好用的爬虫框架 java爬虫框架webmagic介绍 使用webgic爬取动作电影列表信息 2. java中好用的爬虫框架 如何判断框架是否优秀? 容易学习和使用,网上对应的学习资料比较多,并且…
Python修炼第一天 新的开始:不会Python的运维,人生是不完整的. 为了我的人生能够完整,所以我来了!今后跟着太白金星师傅学习功夫,记录一下心得,以便日后苦练. 一 Python的历史: Python是一种面对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum(江湖人称龟叔)于1989年发明,第一个公开发行版发行于1991年. 1991年第一个Python编译器诞生,使用C语言实现的.并能够调用C语言的库文件! 需要注意的是:2008年 开发了2个版本 Python2…
feedparser模块 1.简介 feedparser是一个Python的Feed解析库,可以处理RSS ,CDF,Atom .使用它我们可从任何 RSS 或 Atom 订阅源得到标题.链接和文章的条目了. RSS(Really Simple Syndication,简易信息聚合):是一种描述和同步网站内容的格式你可以认为是一种定制个性化推送信息的服务.RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML 格式它能够解决你漫无目的的浏览网页的问题.它的信息越是过剩,它的意义也越加…
2019.3.18 C O D E T1 树上直接贪心,环上for一遍贪心 哇说的简单,码了将近一下午终于码出来了 感觉自己码力/写题策略太糟糕了,先是搞了一个细节太多的写法最后不得不弃疗了,然后第二次思路又有问题,最后重构了两遍代码 大概先是需要多想,想清楚了不要先考虑细节,果断写+调 废话结束 对于入度大于一且不在环上的点直接贪心留最大的 对于一个完美无瑕的环直接断最小的(指没有被环以外的点指着) 对于入度大于一且在环上的点,先假装它就是普通的入度大于一的点来做并记录每个点是否断了环上的边和…
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操作,方便各种 Web 应用的自动化测试.它的取名很有意思,因为当时最流行的一款自动化测试工具叫做QTP,是由 Mercury 公司开发的商业应用.Mercury 是化学元素汞,而 Selenium 是化学元素硒,汞有剧毒,而硒可以解汞毒,它对汞有拮抗作用. Selenium 的核心组件叫做 Sele…
我们使用dmoz.org这个网站来作为小抓抓一展身手的对象. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建项目 (Project):新建一个新的爬虫项目 明确目标(Items):明确你想要抓取的目标 制作爬虫(Spider):制作爬虫开始爬取网页 存储内容(Pipeline):设计管道存储爬取内容 好的,基本流程既然确定了,那接下来就一步一步的完成就可以了. 1.新建项目(Project) 在空目录下按住Shift键右击,选择“在此处打开命令窗口”,输入一…
Python人工智能第一篇:语音合成和语音识别 ​ 此篇是人工智能应用的重点,只用现成的技术不做底层算法,也是让初级程序员快速进入人工智能行业的捷径.目前市面上主流的AI技术提供公司有很多,比如百度,阿里,腾讯,主做语音的科大讯飞,做只能问答的图灵机器人等等.这些公司投入了很大一部分财力物力人力将底层封装,提供应用接口给我们,尤其是百度,完全免费的接口.既然百度这么仗义,咱们就不要浪费掉怎么好的资源,从百度AI入手,开启人工智能之旅 开启人工智能技术的大门 : http://ai.baidu.c…
Python的第一部分道基础题,希望大家面试的时候能用的上. 1.为什么学习Python? Python是目前市面上,我个人认为是最简洁.最优雅.最有前途.最全能的编程语言,没有之一. 2.通过什么途径学习的Python? 通过自学,包括网上查看一些视频,购买一些相关专业的书籍. 3.Python和Java.PHP.C.C#.C++等其他语言相比? Python:轻量级.易学.自由/开放源码软件.可移植性.支持面向对象.丰富的库.规范的代码. Java:优点:开源性,功能强大,库多 缺点:编译速…