python爬虫的一些心得

爬虫用于从网上得到目标数据，根据需要对其予以利用，加以分析，得到想要的实验成果。现在讲一讲我这两天学到的东西。

第一，爬虫的算法结构，包括以下几个方面：

（1）读取网络数据

（2）将获取的数据解析为目标格式，进而筛选出想要的数据

（3）将有用数据存于本地数据库中

第二，具体实施方案

（1）读取网络数据，需要用到urllib和urllib2两个库，和需要爬取数据的资源定位符URL。

通过url，将网页所有数据
1 request = urllib2.request(url)

 response = urllib2.response(request)

 html = response.read()

关于url的动态变化
 1 url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

 i=0

 for tim in range(1364774400,1365206400,86400):

    i=i+1

    if(i%180==0):

      time.sleep(15)

    ltime=time.localtime(tim)

    timeStr=time.strftime("%Y-%m-%d", ltime)

    url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

    url=url+timeStr

    print url

（2）利用BeautifulSoup将获取的数据解析为目标格式，进而筛选出想要的数据

 soup = BeautifulSoup(html,"html.parser")

 trs = soup.find("table",id="DaliyReportControl1_DataGridDataDic")

 length = len(trs.contents)

（3）利用Access，分三步：建立数据库连接 --> 打开一张表 --> 存储数据

 import win32com.client

 ##建立数据库连接

 conn = win32com.client.Dispatch(r'ADODB.Connection')

 DSN = 'PROVIDER=Microsoft.Jet.OLEDB.4.0;DATA SOURCE=D:/test.mdb;'

 conn.Open(DSN)

 ##打开一个记录集

 rs = win32com.client.Dispatch(r'ADODB.Recordset')

 rs_name = 'aircondition'#表名

 rs.Open('[' + rs_name + ']', conn, 1, 3)

 print rs.RecordCount
*************
   conn.Close()

 for x in range(2,length-1):

       if(len(trs.contents[x].contents)==8):

          rs.AddNew()

          rs.Fields('Station').Value=trs.contents[x].contents[2].string

          rs.Fields('AQI').Value=trs.contents[x].contents[3].string

          rs.Fields('Pollutants').Value=trs.contents[x].contents[4].string

          rs.Fields('Grade').Value=trs.contents[x].contents[5].string

          rs.Fields('Air_quality').Value=trs.contents[x].contents[6].string

          rs.Fields('updatedate').Value=timeStr

          rs.Update()

 ##         print str(x) + "***********8"

 ##         print trs.contents[x].contents[0].string + "," + trs.contents[x].contents[1].string + "," + trs.contents[x].contents[2].string + "," + trs.contents[x].contents[3].string + "," + trs.contents[x].contents[4].string + "," + trs.contents[x].contents[5].string + "," + trs.contents[x].contents[6].string + "," + trs.contents[x].contents[7].string

       elif(len(trs.contents[x].contents)==7):

          rs.AddNew()

          rs.Fields('Station').Value=trs.contents[x].contents[1].string

          rs.Fields('AQI').Value=trs.contents[x].contents[2].string

          rs.Fields('Pollutants').Value=trs.contents[x].contents[3].string

          rs.Fields('Grade').Value=trs.contents[x].contents[4].string

          rs.Fields('Air_quality').Value=trs.contents[x].contents[5].string

          rs.Fields('updatedate').Value=timeStr

          rs.Update()

 ##         print str(x) + "*******" + "7"

 ##         print trs.contents[x].contents[0].string + "," + trs.contents[x].contents[1].string +"," + trs.contents[x].contents[2].string + "," + trs.contents[x].contents[3].string + "," + trs.contents[x].contents[4].string + "," + trs.contents[x].contents[5].string + "," + trs.contents[x].contents[6].string

    print "**************"+str(i)+"***********" + str(timeStr)+"**************"

时间关系，并没有很仔细的归纳。以后有机会再整理吧。

python爬虫的一些心得的更多相关文章

python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
我的第一个Python爬虫——谈心得
2019年3月27日,继开学到现在以来,开了软件工程和信息系统设计,想来想去也没什么好的题目,干脆就想弄一个实用点的,于是产生了做“学生服务系统”想法.相信各大高校应该都有本校APP或超级课程表之类的 ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫相关
一.Python re模块的基本用法: https://blog.csdn.net/chenmozhe22/article/details/80601971 二.爬取网页图片 https://www. ...
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
自学Python十一 Python爬虫总结
通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得,我们渐渐发现他们有很多共性,总是要去获取一系列的链接,读取网页代码,获取所需内容然后重复上面的工作,当自己运用的越来越熟练之后我们就会尝试 ...
我的第一个 python 爬虫脚本
#!/usr/bin/env python# coding=utf-8import urllib2from bs4 import BeautifulSoup #res = urllib.urlopen ...

随机推荐

消息队列性能对比——ActiveMQ、RabbitMQ与ZeroMQ（译文）
Dissecting Message Queues 概述: 我花了一些时间解剖各种库执行分布式消息.在这个分析中,我看了几个不同的方面,包括API特性,易于部署和维护,以及性能质量..消息队列已经被分 ...
多线程条件通行工具——CountDownLatch
CountDownLatch的作用是,线程进入等待后,需要计数器达到0才能通行. CountDownLatch(int)构造方法,指定初始计数. await()等待计数减至0. await(long, ...
es6小白学习笔记(一)
1.let和const命令 1.es6新增了let和const命令,与var用法类似,但它声明的变量只在let所在的代码块内有效(块级作用域,es5只有全局和函数作用域) { let a = 1; v ...
信息安全－2：python之hill密码算法[原创]
转发注明出处:http://www.cnblogs.com/0zcl/p/6106513.html 前言: hill密码算法我打算简要介绍就好,加密矩阵我用教材上的3*3矩阵,只做了加密,解密没有做, ...
Win7安装MySQL-5.7.16过程
1.在C盘新建MYSQL文件夹:2.将mysql-5.7.16-winx64拷贝到C:\MYSQL文件夹下,更名为mysql-5.7.16:3.在mysql-5.7.16目录下,建my.ini文件,内 ...
mysql5.x升级至mysql5.7后导入之前数据库date出错的解决方法！
mysql5.x升级至mysql5.7后导入之前数据库date出错的解决方法! 修改mysql5.7的配置文件即可解决,方法如下: linux版:找到mysql的安装路径进入默认的为/usr/shar ...
邻接表的广度优先遍历(java版)
到 0 的权是 91 到 2 的权是 31 到 3 的权是 61 到 4 的权是 7 2 到 0 的权是 22 到 3 的权是 5 3 到 0 的权是 33 到 4 的权是 1 4 到 2 的权是 2 ...
javascript运动学教程
本文系笔者学习原生javascript动效的笔记.内容基于某非著名培训机构的视频教程.并重新做了归类整理.删除了一些过时的内容.并重做了GIF图,加上了自己的一些分析. 一. 运动学基础引子:从左到 ...
理解JavaScript中的“this”
对于javascript的初学者来说,一般对“this”关键字都感到非常迷惑.本文的目的旨在让你全面的了解“this”,理解在每一个情景下如何使用“this”,希望通过本文,可以帮助同学们不在害怕“t ...
android内部培训视频_第四节(1)_异步网络操作
第四节(1):异步网络操作一.结合asyncTask下载网络图片 1.定义下载类,继承自asyncTask,参数分别为:String(url地址),Integer(刻度,本例没有用到),BitMa ...

python爬虫的一些心得

python爬虫的一些心得的更多相关文章

随机推荐

热门专题