孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4

(完整学习过程屏幕记录视频地址在文末)

今天在上一天的基础上继续完成对我的第一个代码程序的书写。

直接上代码。详细过程见文末屏幕录像。

```

import requests

from bs4 import BeautifulSoup

import re

import datetime

import pymongo

import _mty

import _mf

import _mbs4

import _mmongo

import _mre

import _mdb

def msgbox(info,titletext='孤荷凌寒的DB模块对话框QQ578652607',style=0,isShowErrMsg=False):

return _mty.msgboxGhlh(info,titletext,style,isShowErrMsg)

def myfirst(s,h):

c2=_mdb.conLocaldbGhlh('C:\ProgramData\SQLITE3\slone.s3db')

lstNm=['id','title','newdate','source','content','adddate']

lstType=['int','string','date','str','memo','date']

lstLong=[0,255,0,255,0,0]

lstNull=['not null','not null','not null','null','not null','null']

lstPrimary=[True,False,False,False,False,False]

lstAuto=[True,False,False,False,False,False]

strt='news163'

a=_mdb.newTablePlusGhlh('sqlite',c2,strt,lstNm,lstType,lstLong,lstNull,lstPrimary,lstAuto)

msgbox(str(a))

cursor=c2.cursor()

cursor.execute('select * from ' + strt + ';')

#-------------------------

r=requests.get(s,headers=h)

#print(r.text) #r.text得到的是页面源html代码

_mf.writeAllTextToTxtFileGhlh('1.txt',r.text)

bs=BeautifulSoup(r.text,features="lxml") #第二个参数指明了解析器,得到的是一个beautifulsoup对象

s=bs.prettify()

_mf.writeAllTextToTxtFileGhlh('2.txt',str(s))

rs=bs.select('.bigsize') #选择指定style样式表的html标签元素

for i in rs:

ele=i.find_all('a') #每个h5标签下只有一个a标签

strls=ele[0].get('href')

#msgbox(strls) #取出地址

getcontentpage(strls,h,cursor,strt)

#break

#---------------------

c2.commit()

cursor.execute('select * from ' + strt
+ ';')

data=cursor.fetchall

for i in data:

msgbox(str(i))

def getcontentpage(strurl,h,cursor,strt):

r=requests.get(strurl,headers=h)

_mf.writeAllTextToTxtFileGhlh('3.txt',r.text)

bs=BeautifulSoup(r.text,features="lxml") #第二个参数指明了解析器,得到的是一个beautifulsoup对象

s=bs.prettify()

_mf.writeAllTextToTxtFileGhlh('4.txt',str(s))

#---------------------------

#eletemp=bs.find_all("#epContentLeft")
#现在eletemp是一个rs集合对象

#上一句是错误的,通过html标签对象的id值来查找应当使用的方法是:select方法

eletemp=bs.select('#epContentLeft') #list

#msgbox(str(type(eletemp)))

eletitleparent=eletemp[0] #bs.element.Tag

#msgbox(str(type(eletitleparent)))

eletitle=eletitleparent.h1

elesource=eletitleparent.div #elesource这种对象现在被称为:bs.element.Tag对象,可以被转换为列表,但不是列表

#msgbox(str(elesource))

strtitle=_mbs4.getAllTextGhlh(eletitle)

strdate=list(elesource)[0]

strdate=_mre.getDateAndTimeString(strdate)

strsource=_mbs4.getAllTextGhlh(elesource.a)

#msgbox(strtitle)

#msgbox(strsource)

#msgbox(strdate)

#取正文

elecontent=bs.select('#endText') #所有的正文内容都这个div中,elecotent是一个List?

strcontent=_mbs4.getAllTextGhlh(elecontent)

data={

u'标题':strtitle,

u'日期':strdate,

u'来源':strsource,

u'内容':strcontent,

u'添加日期':datetime.datetime.now().__format__('%Y-%m-%d
%H:%M:%S')

}

#print(data)

#c=_mmongo.conMongoDbGhlh('localhost')

#db=c.news163

#jh=db.first

#isok=_mmongo.addNewDataGhlh(jh,data)

#msgbox(isok)

cursor.execute("insert into
" + strt + "(title,newdate,source,content,adddate)
values('" + strtitle + "','1983/1/1','" +
strsource + "','" + strcontent + "','" +
datetime.datetime.now().__format__('%Y-%m-%d') + "');")

strurl='http://tech.163.com/special/techscience/'

header={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'Accept-Encoding':'gzip,
deflate',

'Accept-Language':'zh-CN,zh;q=0.9',

'Cache-Control':'max-age=0',

'Connection':'keep-alive',

'Cookie':'_ntes_nuid=4c64ad6c80e3504f05302ac133efb277;
_ntes_nnid=eb7c24e0daf48e922e31dc81e431fde2,1536978956105; Province=023;
City=023; NNSSPID=acab5be191004a2b81a3a6ee60f516dc; NTES_hp_textlink1=old;
UM_distinctid=1683adcaeaf2f8-0e31bcdad8532c-3c604504-144000-1683adcaeb094d;
vjuids=-7a5afdb26.1683adccded.0.d9d34439a4e48; vjlast=1547175776.1547175776.30;
ne_analysis_trace_id=1547175775731; s_n_f_l_n3=7476c45eb02177f91547175775852;
vinfo_n_f_l_n3=7476c45eb02177f9.1.0.1547175775852.0.1547176062972',

'Host':'tech.163.com',

'If-Modified-Since':'Fri, 11
Jan 2019 03:01:05 GMT',

'Referer':'http://tech.163.com/',

'Upgrade-Insecure-Requests':'1',

'User-Agent':'Mozilla/5.0
(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/63.0.3239.132 Safari/537.36'

}

header2={

'Host':'tech.163.com',

'User-Agent':'Mozilla/5.0
(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/63.0.3239.132 Safari/537.36'

}

myfirst(strurl,header2)

```

二、为了解决上一天没有将爬到的文章的发布日期整理好的问题,使用了正则表达式来解决。

【_mre.py】

```

#此模块封装常用正则表达式相关搜索与查找结果等函数方法

import re

import _mty

import _cl #常用常量模块

mrdErrString='' #供其它模块使用的全局变量了,实时保存了各函数执行时的错误信息

def msgbox(info,titletext='孤荷凌寒的RE模块对话框QQ578652607',style=0,isShowErrMsg=False):

return
_mty.msgboxGhlh(info,titletext,style,isShowErrMsg)

#------------------

def getKuoHaoAndContentValue(strlong,isincludequanjiaokuohao=True,isTanLan=True,isresultincludekuohao=True,isShowMsg=False):

'''

此函数返回从一个字符串中寻找圆括号对及其其中的内容的结果字符串(从左起第一个符合条件的字符串)

支持指定是否忽略半角或全角括号

'''

try:

strS=''

if
isincludequanjiaokuohao==True:

if
isTanLan==True:

strS=r'[((].*[))]' #贪婪模式

else:

strS=r'[((].*?[))]' #最小化模式,非贪婪模式

else:

if
isTanLan==True:

strS=r'\(.*\)'

else:

strS=r'\(.*?\)'

matchObj=re.search(strS,strlong,re.S) #re.S是为了让.表示除了换行符的任一字符。

if
matchObj!=None:

strR=matchObj.group()

if
isresultincludekuohao==True:

return strR

else:

#如果不要括号本身,只要括号里面的内容,那么

if
isincludequanjiaokuohao==False:

if
isTanLan==True:

strS=r'[(](.*)[)]' #贪婪模式

else:

strS=r'[(](.*?)[)]'

else:

if
isTanLan==True:

strS=r'[((](.*)[))]' #贪婪模式

else:

strS=r'[((](.*?)[))]'

lstA=re.findall(strS,
strR)  #初步理解已经按括号分组,即自动 将各个括号 中的内容提取并组成了一个列表,具体 没有 理解

if lstA!=None:

if len(lstA)>0:

strR=lstA[0] #所以这里只取列表中第一个元素

return strR

else:

return ''

else:

return ''

else:

return ''

except Exception as e:

mrdErrString='返回从一个字符串中寻找圆括号对及其其中的内容的结果字符串时失败:\n' + str(e) + '\n此函数由【孤荷凌寒】创建,QQ:578652607'

if
isShowMsg==True:

msgbox(mrdErrString)

return ''

else:

pass

finally:

pass

def getWithOutKuoHaoAndContentValue(strlong,isincludequanjiaokuohao=True,isTanLan=True,isresultincludekuohao=True,isShowMsg=False):

'''

此函数先找出一个字符串中寻找圆括号对及其其中的内容的结果字符串(从左起第一个符合条件的字符串)

然后返回除去这些内容后的内容

支持指定是否忽略半角或全角括号

'''

try:

strS=getKuoHaoAndContentValue(strlong,isincludequanjiaokuohao,isTanLan,isresultincludekuohao,isShowMsg)

strR=strlong.replace(strS,'')

return strR

except Exception as e:

mrdErrString='返回从一个字符串中寻找圆括号对及其其中的内容的结果字符串时失败:\n' + str(e) + '\n此函数由【孤荷凌寒】创建,QQ:578652607'

if
isShowMsg==True:

msgbox(mrdErrString)

return ''

else:

pass

finally:

pass

#-----返回一个符合严格要求条件的日期与时间组合的字符串

def getDateAndTimeString(strlong,isShowMsg=False):

try:

matchObj=re.search(_cl.RE_GHLH_DATE_TIME_STRING,strlong)

return
matchObj.group()

except Exception as e:

mrdErrString='返回从一个字符串中寻找标准的日期和时间组合的结果字符串时失败:\n' + str(e) + '\n此函数由【孤荷凌寒】创建,QQ:578652607'

if
isShowMsg==True:

msgbox(mrdErrString)

return ''

else:

pass

finally:

pass

```

三、其它感受

今天已经成功将爬到的第一页记录写入mongodb数据库,得益于之前将MongoDb数据库研究得比较全面,写好了大部分通用函数,因此 整个过程非常流畅。

而随后尝试写入sqlite3数据库时,错误不断,究其原因在于之前专门学习各种关系型数据库时,还没有完全完善各种不同数据库的通用操作函数
,比如数据的插入新增修改等都还显得非常棘手。

这就意味着如果提前做好这些通用函数的编写是实际编程时是可以实现简化和节约时间的,这就为什么需要一步步打好基础的原因,那现在看来,正因为如此我的的学习就因为关系型数据库的没有完全掌握而出现了耽搁和时间的浪费问题了。

——————————

今天整理的学习笔记完成,最后例行说明下我的自学思路:

根据过去多年我自学各种编程语言的经历,认为只有真正体验式,解决实际问题式的学习才会有真正的效果,即让学习实际发生。在2004年的时候我开始在一个乡村小学自学电脑 并学习vb6编程语言,没有学习同伴,也没有高师在上,甚至电脑都是孤岛(乡村那时还没有网络),有的只是一本旧书,在痛苦的自学摸索中,我找到适应自己零基础的学习方法:首先是每读书的一小节就作相应的手写笔记,第二步就是上机测试每一个笔记内容是否实现,其中会发现书中讲的其实有出入或错误,第三步就是在上机测试之后,将笔记改为电子版,形成最终的修订好的正确无误的学习笔记

通过反复尝试错误,在那个没有分享与交流的黑暗时期我摸黑学会了VB6,尔后接触了其它语言,也曾听过付费视频课程,结果发现也许自己学历果然太低,就算是零基础的入门课程,其实也难以跟上进度,讲师的教学多数出现对初学者的实际情况并不了解的情况,况且学习者的个体也存在差异呢?当然更可怕的是收费课程的价格往往是自己难以承受的。

于是我的所有编程学习都改为了自学,继续自己的三步学习笔记法的学习之路。

当然自学的最大问题是会走那么多的弯路,没有导师直接输入式的教学来得直接,好在网络给我们带来无限搜索的机会,大家在网络上的学习日志带给我们共享交流的机会,而QQ群等交流平台、网络社区的成立,我们可以一起自学,互相批评交流,也可以获得更有效,更自主的自学成果。

于是我以人生已过半的年龄,决定继续我的编程自学之路,开始学习python,只希望与大家共同交流,一个人的独行是可怕的,只有一群人的共同前进才是有希望的。

诚挚期待您的交流分享批评指点!欢迎联系我加入从零开始的自学联盟。

这个时代互联网成为了一种基础设施的存在,于是本来在孤独学习之路上的我们变得不再孤独,因为网络就是一个新的客厅,我们时刻都可以进行沙龙活动。

非常乐意能与大家一起交流自己自学心得和发现,更希望大家能够对我学习过程中的错误给予指点——是的,这样我就能有许多免费的高师了——这也是分享时代,社区时代带来的好福利,我相信大家会的,是吧!

根据完全共享的精神,开源互助的理念,我的个人自学录制过程是全部按4K高清视频录制的,从手写笔记到验证手写笔记的上机操作过程全程录制,但因为4K高清文件太大均超过5G以上,所以无法上传至网络,如有需要可联系我QQ578652607对传,乐意分享。上传分享到百度网盘的只是压缩后的720P的视频。

我的学习过程录像百度盘地址分享如下:(清晰度:1280x720)

链接:https://pan.baidu.com/s/1hTYQvh6h2USDfG1_ILZehA

提取码:uazl

Bilibili:

https://www.bilibili.com/video/av40813430/

喜马拉雅语音笔记:

https://www.ximalaya.com/keji/19103006/154016634

孤荷凌寒自学python第七十四天开始写Python的第一个爬虫4的更多相关文章

  1. 孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9并使用pydocx模块将结果写入word文档

    孤荷凌寒自学python第七十九天开始写Python的第一个爬虫9 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天终于完成了对docx模块针对 ...

  2. 孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8

    孤荷凌寒自学python第七十八天开始写Python的第一个爬虫8 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 到今天止基本完成了对docx模块针 ...

  3. 孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7

    孤荷凌寒自学python第七十七天开始写Python的第一个爬虫7 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 今天的学习仍然是在纯粹对docx模 ...

  4. 孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6

    孤荷凌寒自学python第七十六天开始写Python的第一个爬虫6 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 不过由于对python-docx模 ...

  5. 孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5

    孤荷凌寒自学python第七十五天开始写Python的第一个爬虫5 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...

  6. 孤荷凌寒自学python第七十三天开始写Python的第一个爬虫3

    孤荷凌寒自学python第七十三天开始写Python的第一个爬虫3 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...

  7. 孤荷凌寒自学python第七十二天开始写Python的第一个爬虫2

    孤荷凌寒自学python第七十二天开始写Python的第一个爬虫2 (完整学习过程屏幕记录视频地址在文末) 今天在上一天的基础上继续完成对我的第一个代码程序的书写. 直接上代码.详细过程见文末屏幕录像 ...

  8. 孤荷凌寒自学python第七十一天开始写Python的第一个爬虫

    孤荷凌寒自学python第七十一天开始写Python的第一个爬虫 (完整学习过程屏幕记录视频地址在文末) 在了解了requests模块和BeautifulSoup模块后,今天开始真正写一个自己的爬虫代 ...

  9. 孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3

    孤荷凌寒自学python第七十天学习并实践beautifulsoup对象用法3 (完整学习过程屏幕记录视频地址在文末) 今天继续学习beautifulsoup对象的属性与方法等内容. 一.今天进一步了 ...

随机推荐

  1. Several ports (8005, 8080, 8009) required by Tomcat v8.5 Server at localhost are already in use. The server may already be running in another process, or a system process may be using the port. To sta

    eclipse出现:Several ports (8005, 8080, 8009) required by Tomcat v8.5 Server at localhost are already i ...

  2. andorid 网络通信最简单demo

    要和后台进行通信 一开始发现接不到数据 后来发生了线程错误 在网上查到:在一些高版本中,与网络通信的操作因为要花费比较大的时间,所以应该放在单独的线程中去做. 但为什么一些网上demo没有放在单独的线 ...

  3. GOPL第三章练习题3.3 3.4代码

    练习3.3是peak展示为红色,valley展示为蓝色. 练习3.4是将svg图像打印到浏览器中. // Copyright © 2016 Alan A. A. Donovan & Brian ...

  4. Entity Framework 一

    本篇主要介绍:EntityFramework简介, 实体框架架构图, EF版本 实体框架: 编写和管理数据访问的ADO.Net代码是一件单调乏味的工作.微软已经提供了一个名为“实体框架”的O / RM ...

  5. LeetCode17.电话号码的字母组合 JavaScript

    给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合. 给出数字到字母的映射如下(与电话按键相同).注意 1 不对应任何字母. 示例: 输入:"23" 输出:[&quo ...

  6. SpringBoot非官方教程 | 第二十一篇: springboot集成JMS

    转载请标明出处: http://blog.csdn.net/forezp/article/details/71024024 本文出自方志朋的博客 springboot对JMS提供了很好的支持,对其做了 ...

  7. linux下通过源码安装git

    1.移除旧版本git [root@Git ~]# git --version ## 查看自带的版本git version 1.8.3.1 [root@Git ~]# yum remove git ## ...

  8. Oracle 差异性增量 和 累计增量 原理(转)

    RMAN一个强大的功能是支持增量备份,增量备份中心思想就是减少备份的数据量,我们不需要在从头开始备份了,只需要备份自上次已备份之后的数据块即可.   Oracle 9i 共有五种级别 0 1 2 3 ...

  9. raid概述与CentOS7.4中raid5的搭建与测试

    前言 一.raid的定义与作用 raid(独立冗余磁盘阵列).raid技术通过把多个硬盘设备组合成一个容量更大的,安全性更好的磁盘阵列.把数据切割成许多区段后分别放在不同的物理磁盘上,然后利用分散读写 ...

  10. springmvc重定向请求。

    SpringMVC重定向传参数的实现(来自网友) 验证了我说的,从model层中拿来的数据,不管什么类型,都是通过隐含模型,中转,放入request中的.除非你特意把这些数据放到session域中. ...