python爬虫的一些心得

爬虫用于从网上得到目标数据，根据需要对其予以利用，加以分析，得到想要的实验成果。现在讲一讲我这两天学到的东西。

第一，爬虫的算法结构，包括以下几个方面：

（1）读取网络数据

（2）将获取的数据解析为目标格式，进而筛选出想要的数据

（3）将有用数据存于本地数据库中

第二，具体实施方案

（1）读取网络数据，需要用到urllib和urllib2两个库，和需要爬取数据的资源定位符URL。

通过url，将网页所有数据
1 request = urllib2.request(url)

 response = urllib2.response(request)

 html = response.read()

关于url的动态变化
 1 url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

 i=0

 for tim in range(1364774400,1365206400,86400):

    i=i+1

    if(i%180==0):

      time.sleep(15)

    ltime=time.localtime(tim)

    timeStr=time.strftime("%Y-%m-%d", ltime)

    url="http://wsbs.bjepb.gov.cn/air2008/Air1.aspx?time="

    url=url+timeStr

    print url

（2）利用BeautifulSoup将获取的数据解析为目标格式，进而筛选出想要的数据

 soup = BeautifulSoup(html,"html.parser")

 trs = soup.find("table",id="DaliyReportControl1_DataGridDataDic")

 length = len(trs.contents)

（3）利用Access，分三步：建立数据库连接 --> 打开一张表 --> 存储数据

 import win32com.client

 ##建立数据库连接

 conn = win32com.client.Dispatch(r'ADODB.Connection')

 DSN = 'PROVIDER=Microsoft.Jet.OLEDB.4.0;DATA SOURCE=D:/test.mdb;'

 conn.Open(DSN)

 ##打开一个记录集

 rs = win32com.client.Dispatch(r'ADODB.Recordset')

 rs_name = 'aircondition'#表名

 rs.Open('[' + rs_name + ']', conn, 1, 3)

 print rs.RecordCount
*************
   conn.Close()

 for x in range(2,length-1):

       if(len(trs.contents[x].contents)==8):

          rs.AddNew()

          rs.Fields('Station').Value=trs.contents[x].contents[2].string

          rs.Fields('AQI').Value=trs.contents[x].contents[3].string

          rs.Fields('Pollutants').Value=trs.contents[x].contents[4].string

          rs.Fields('Grade').Value=trs.contents[x].contents[5].string

          rs.Fields('Air_quality').Value=trs.contents[x].contents[6].string

          rs.Fields('updatedate').Value=timeStr

          rs.Update()

 ##         print str(x) + "***********8"

 ##         print trs.contents[x].contents[0].string + "," + trs.contents[x].contents[1].string + "," + trs.contents[x].contents[2].string + "," + trs.contents[x].contents[3].string + "," + trs.contents[x].contents[4].string + "," + trs.contents[x].contents[5].string + "," + trs.contents[x].contents[6].string + "," + trs.contents[x].contents[7].string

       elif(len(trs.contents[x].contents)==7):

          rs.AddNew()

          rs.Fields('Station').Value=trs.contents[x].contents[1].string

          rs.Fields('AQI').Value=trs.contents[x].contents[2].string

          rs.Fields('Pollutants').Value=trs.contents[x].contents[3].string

          rs.Fields('Grade').Value=trs.contents[x].contents[4].string

          rs.Fields('Air_quality').Value=trs.contents[x].contents[5].string

          rs.Fields('updatedate').Value=timeStr

          rs.Update()

 ##         print str(x) + "*******" + "7"

 ##         print trs.contents[x].contents[0].string + "," + trs.contents[x].contents[1].string +"," + trs.contents[x].contents[2].string + "," + trs.contents[x].contents[3].string + "," + trs.contents[x].contents[4].string + "," + trs.contents[x].contents[5].string + "," + trs.contents[x].contents[6].string

    print "**************"+str(i)+"***********" + str(timeStr)+"**************"

时间关系，并没有很仔细的归纳。以后有机会再整理吧。

python爬虫的一些心得的更多相关文章

python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
python爬虫学习心得：中国大学排名(附代码)
今天下午花时间学习了python爬虫的中国大学排名实例,颇有心得,于是在博客园与各位分享首先直接搬代码: import requests from bs4 import BeautifulSoup ...
我的第一个Python爬虫——谈心得
2019年3月27日,继开学到现在以来,开了软件工程和信息系统设计,想来想去也没什么好的题目,干脆就想弄一个实用点的,于是产生了做“学生服务系统”想法.相信各大高校应该都有本校APP或超级课程表之类的 ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫相关
一.Python re模块的基本用法: https://blog.csdn.net/chenmozhe22/article/details/80601971 二.爬取网页图片 https://www. ...
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
自学Python十一 Python爬虫总结
通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得,我们渐渐发现他们有很多共性,总是要去获取一系列的链接,读取网页代码,获取所需内容然后重复上面的工作,当自己运用的越来越熟练之后我们就会尝试 ...
我的第一个 python 爬虫脚本
#!/usr/bin/env python# coding=utf-8import urllib2from bs4 import BeautifulSoup #res = urllib.urlopen ...

随机推荐

LINQ to SQL Select查询
1. 查询所有字段 using (NorthwindEntities context = new NorthwindEntities()) { var order = from n in contex ...
2016/12/28_javascript
今天学习的主要内容: javascript: 1.if语句,switch语句,while循环以及for循环: 1)if语句 if(boolean){}; if(boolean){} else if(b ...
iOS 10 跳转系统设置
苦心人天不负, 为了项目终于把 iOS 10 跳转系统设置的方法给搞定了, 很欣慰. http://www.cnblogs.com/lurenq/p/6189580.html iOS 10 跳转系统设 ...
SEO：权重如何做到从0到1
SEO:权重如何做到从0到1 [写于2016年9月]我真的好久好久没到我的博客上去看过了,今天突然登上 seo.chinaz.com,搜索 dkplus.iteye.com,发现自己的博客在百度收录中 ...
超千个节点OpenStack私有云案例（1）：CERN 5000+ 计算节点私有云
CERN:欧洲核子研究组织本文根据以下几篇文章整理而来: https://www.openstack.org/summit/tokyo-2015/videos/presentation/unveil ...
python 常用第三方模块
除了内建的模块外,Python还有大量的第三方模块. 基本上,所有的第三方模块都会在https://pypi.python.org/pypi上注册,只要找到对应的模块名字,即可用pip安装. 本章介绍 ...
chrome拓展开发实战：页面脚本的拦截注入
原文请访问个人博客:chrome拓展开发实战:页面脚本的拦截注入目前公司产品的无线站点已经实现了业务平台组件化,所有业务组件的转场都是通过路由来完成,而各个模块是通过requirejs进行统一管理, ...
海量数据处理利器greenplum——初识
简介及适用场景如果想在数据仓库中快速查询结果,可以使用greenplum. Greenplum数据库也简称GPDB.它拥有丰富的特性: 第一,完善的标准支持:GPDB完全支持ANSI SQL 200 ...
ABP源码分析十七：DTO 自动校验的实现
对传给Application service对象中的方法的DTO参数,ABP都会在方法真正执行前自动完成validation(根据标注到DTO对象中的validate规则). ABP是如何做到的? 思 ...
使用python crontab设置linux定时任务
熟悉linux的朋友应该知道在linux中可以使用crontab设置定时任务.可以通过命令crontab -e编写任务.当然也可以直接写配置文件设置任务. 但是有时候希望通过脚本自动设置,比如我们应用 ...

python爬虫的一些心得

python爬虫的一些心得的更多相关文章

随机推荐

热门专题