使用Python制作第一个爬虫程序

用到的开发环境 IDE:pycharm python version :2.7 掌握的知识: Pycharm 还能更改Python的版本代码如下:(重点就是正则表达式的学习) # !/usr/bin/python # -*- coding:utf-8 -*- # 功能说明使用Python 批量爬取网络上的图片下载 import re import urllib # 首先打开网页获取网页的源代码 html = urllib.urlopen("http://www.woyaogex…

python爬虫__第一个爬虫程序

前言机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文章有幸被你看到的话,如果你也是个初学者,希望能让你也学习到一些东西,下面是干货. 需求:…

我的第一个爬虫程序：利用Python抓取网页上的信息

题外话我第一次听说Python是在大二的时候,那个时候C语言都没有学好,于是就没有心思学其他的编程语言.现在,我的毕业设计要用到爬虫技术,在网上搜索了一下,Python语言在爬虫技术这方面获得一致好评. 所以从昨天开始就在网上查找各种Python爬虫小程序的源码,可是一天过去了,不仅没有写出一个简单的爬虫程序,反而对Python要引入的各种包和语法越来越迷糊了.去菜鸟教程一看,Python语言相对来讲还是蛮复杂的(虽然它的语法很简单,但是对于初学者,很多封装在一个包里的东西都非常陌生),我恶补…

孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9并使用pydocx模块将结果写入word文档

孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对word文档的段落对象的操作的学习,并通过函数封装,使得可以轻松一点直接向word文档中添加一个或多个段落文本并且设置段落的格式. 一.完成了批量添加word文档段落的函数 ``` def addPToDocx(f,strp,strfont='宋体',fontsize=14,fontcolor=RG…

孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8

孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天止基本完成了对docx模块针对word文档的段落对象的操作的学习,并通过函数封装,使得可以轻松一点直接向word文档中添加一个或多个段落文本并且设置段落的格式. 由于学习时间有限,今天的函数没有完全完成. 一.修改了之前自定义的批量添加word文档段落的函数 ``` def addPToDocx(f,strp,strfont=…

孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7

孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 今天的学习仍然是在纯粹对docx模块的探索和研究. 一.对docx模块的学习笔记 (一)docx文档中的色彩控制 from docx.shared import RGBColor 此方法用于将三个数值(十进制,十六进制的三个数都行,三原色)生成色彩对象用法是: RGBColor(红色值,绿色值,蓝色值) (二)为文字指定色彩,今天…

孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6

孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 不过由于对python-docx模块的不熟悉,事实上今天的学习变成了纯粹对docx模块的探索和研究了. 一.对docx模块的学习笔记 (一)docx文档中的样式结构常量 from docx.enum.style import WD_STYLE_TYPE WD_STYLE_TYPE中包含了docx文档需要的所有样式 (包括段落.文字.…

孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5

孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import datetime import pymongo import _mty import _mf import _mbs4 import _mmongo import…

孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4

孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import datetime import pymongo import _mty import _mf import _mbs4 import _mmongo import…

孤荷凌寒自学python第七十三天开始写Python的第一个爬虫3

孤荷凌寒自学python第七十三天开始写Python的第一个爬虫3 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import datetime import _mty import _mf import _mbs4 def msgbox(info,titletext='孤荷凌寒的DB模块…

孤荷凌寒自学python第七十二天开始写Python的第一个爬虫2

孤荷凌寒自学python第七十二天开始写Python的第一个爬虫2 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像. ``` import requests from bs4 import BeautifulSoup import re import _mty import _mf def msgbox(info,titletext='孤荷凌寒的DB模块对话框QQ578652607',style=0,isSho…

孤荷凌寒自学python第七十一天开始写Python的第一个爬虫

孤荷凌寒自学python第七十一天开始写Python的第一个爬虫 (完整学习过程屏幕记录视频地址在文末) 在了解了requests模块和BeautifulSoup模块后,今天开始真正写一个自己的爬虫代码出来,不过果然是新手上阵,这第一天的程序代码结果并没有完成. 直接上代码.详细过程见文末屏幕录像. import requests from bs4 import BeautifulSoup import re import _mty import _mf def msgbox(info,titl…

孤荷凌寒自学python第八十天开始写Python的第一个爬虫10

孤荷凌寒自学python第八十天开始写Python的第一个爬虫10 (完整学习过程屏幕记录视频地址在文末) 原计划今天应当可以解决读取所有页的目录并转而取出所有新闻的功能,不过由于学习时间不够,只是进一步优化了自定义函数的写法. 一.优化并新增了几个操作word文档的函数 ``` #!/usr/bin/env python3 # -*- coding: utf-8 -*- import string import time import random from docx.enum.style i…

Python 的第一个小程序

F盘新建文本文档 hello.txt 内容为: print("hello world! hello 2018!"); 打开CMD cd c:\ \\cd=change directory dir \\查看当前目录的文件列表先进入文件的位置,在进Python程序的位置 + 文件名称打开Python的交互界面 cd.. …

利用Python制作简单的小程序：IP查看器

前言说实话,查看电脑的IP,也挺无聊的,但是够简单,所以就从这里开始吧.IP地址在操作系统里就可以直接查看.但是除了IP地址,我们也想通过IP获取地理地址和网络运营商情况.IP地址和地理地址并没有固定的关系,所以我们需要借助网络上的数据库,或者说借助第三方的服务来查询.这里,我们选用IP.CN提供的IP地址查询服务. 基本环境配置版本:Python3 系统:Windows 相关模块:PyQt5 实现效果图完整代码 from PyQt5.Qt import ( QApplication,…

python 多进程数量对爬虫程序的影响

1. 首先看一下 python 多进程的优点和缺点多进程优点: 1.稳定性好: 多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程.基于这个特性,常常会用多进程来实现守护服务器的功能. 然而多线程不足之处在于,任何一个线程崩溃都可能造成整个进程的崩溃,因为它们共享了进程的内存资源池. 2.能充分利用多核cpu: 由于python设计之初,没预料到多核cpu能够得到现在的发展,只考虑到了单核cpu.为了更好的实现多线程之间数据完整性与状态同步, 于是设计出了一个全局解析器锁(G…

python 的第一个界面程序(PyQt5)

这里用到了python的一个第三qt库PyQt5,API与qt几乎完全一样(科学严谨下...) from PyQt5.QtWidgets import QApplication, QMainWindow import sys # 导入所需要的库 if __name__ == "__main__": # 主函数入口,主要目的是防止别的程序调用该文件 app = QApplication(sys.argv) # 创建应用程序app,sys.argv是命令行参数 win_root = QMa…

【Python】第一个爬虫

import urllib.request import re class DownPic: def __init__(self,url,re_str): self.url = url self.re_str = re_str def getHtml(self,url): page = urllib.request.urlopen(url) html = page.read() return str(html) def downloadPic(self): imgre = re.compile(…

2019-05-19 Python之第一个爬虫和测试

一.使用request和get访问某个网页20次并且打印返回状态,内容扩展:常见状态码含义 200 - 服务器成功返回网页,404 - 请求的网页不存在,403(禁止)服务器拒绝请求,404(未找到)服务器找不到请求的网页,503 - 服务器超时,3xx (重定向) (1)request库简介:处理HTTP请求的第三方库,建立在urllib3库的基础上 (2)常用函数 get(url[,timeout = n ]), post delete,head,options,pu…

使用Python写的第一个网络爬虫程序

今天尝试使用python写一个网络爬虫代码,主要是想訪问某个站点,从中选取感兴趣的信息,并将信息依照一定的格式保存早Excel中. 此代码中主要使用到了python的以下几个功能,因为对python不熟悉,把代码也粘贴在以下. 1, 使用url打开站点网页 import urllib2 data = urllib2.urlopen(string_full_link).read().decode('utf8') print data 2,使用正則表達式匹配 import re #一般的英文匹配 r…

开发记录_自学Python写爬虫程序爬取csdn个人博客信息

每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料,自学写Python代码. 这次自学的历程,也打算及时的整理下来,发布在博客里. /******************这是程序员风格的分割线******************/ 2013.11.3_开工据说Python并不难,看过了python的代码之后也觉得确实, 代码很清爽,相比起C/C+…

Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量

今天,花了一个晚上的时间边学边做,搞出了我的第一个爬虫.学习Python有两个月了,期间断断续续,但是始终放弃,今天搞了一个小项目,有种丰收的喜悦.废话不说了,直接附上我的全部代码. # -*- coding:utf-8 -*- __author__ = 'Young' import re,urllib #urllib : 网页访问,返回网页的数据.内容 def my_get(ID):# 封装成函数方便调用 html = urllib.urlopen("https://read.douban.c…