Python--（爬虫与数据库的连接）

（每一天都是属于你的！）

Python对于初学后巩固基础的人还是更多的来接触python爬虫会更好一些，在Python爬虫中包含很多基础部分知识，并且在项目中会提升你的成功感！加油！

我在工作之余时间，把Python的爬虫基础内容整理了一下，资料因为太多所以都放在QQ群内了，需要的可以来---607021567。

今天整理了一个两个网站的小说阅读平台的爬虫，将两个网站的小说可按自有的格式抓取下来自动生成txt文件。

项目介绍：

　　--Python爬虫

　　　　--模块：requests，BeautifulSoup，time

　　　　--分析：request模块作用于网站的连接与处理，BeautifulSoup作用于源码中的代码分析与抓取，time主要是在我们抓取的过程中加入时间限制（这个主要是应对有网站监控的，这里我们就不需要了）

因为这里没有涉及到数据库相关的操作，所以没有对数据库的相关详细内容，但是我会将Python与mongodb、MySQL、Sqlserver的连接方式的代码会附赠在下面。

一、网页分析：

首先步步分析网页内容：https://www.booktxt.net/6_6453/2529786.html，cookie信息--F12键。

这里面有很多广告，不过可以不用去理它们，首先获取到我们需要的网址：

 # -*- coding:utf-8 -*-

 import requests

 from bs4 import BeautifulSoup

 import time

 def project(url,page):

     #url='http://www.23us.so/files/article/html/1/1809/877404.html' #大主宰

     #url='http://www.23us.so/files/article/html/6/6100/2193573.html' #天下无双

     #url='https://www.booktxt.net/6_6453/2529786.html' #元尊

     headers={"Cookie": "jieqiVisitId=article_articleviews%3D6453; cscpvrich87",

         "Host": "www.booktxt.net",

              "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0",

              "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"}

     r =requests.get(url,headers,timeout=30)

     h = r.content

这里主要使用request模块获取网址的源码，h--就是我们所获取的源码，你可以测试的时候print出来。

二、源码分析

我们这里直接在网页中来查看源码：网页中右键查看源码。

这里我们注意到文本的内容包含在<div id="content">的标签内，所以接下来我们使用bs4来处理。

 soup = BeautifulSoup(h, "html.parser")

 a1 = soup.find('div',class_="bookname").h1

 text_da(a1.get_text().encode('utf-8')+'\n\n\n')

 a = soup.find('div',id='content')

 text_da(a.get_text().encode('utf-8')+'\n\n\n')

每一行分开解释：

1、使用BeautifulSoup模块，其中"html.parser"是模块内置函数，对源码的分析，这样我们就获取到网址的bs4源码。

2、首先是获取小说中的标题，soup.find--是获取源码中第一个div标签class=“bookname”下的h1标签，当前我们获取到h1标签所有内容包括标签，但是我们需要获取到文本内容。

3、获取获得标签内的文本内容--a1.get_text()，这里的encode('utf-8')是将我们获取的内容需要转码，不然是乱码的状态。

4、获取我们主要的文本内容--同理，需要获得文本内容的标签div

5、获得文本内容。

三、分页操作

因为我们浏览的页面会有分页，所有这里也是我们需要注意的地方。

这里的下一章按钮，就是我们的突破点：

  b = soup.find('div',class_='bottem2')

  if b:

      a = b.find_all('a')

      #shuurl = 'http://www.23us.so'+a[-1]['href']

      shuurl = 'https://www.booktxt.net' + a[-2]['href']

      #print shuurl

      page=page+1

      project(shuurl,page)

我们在源码中获取到的下一章的网址位于a标签内。

3行、--我们获取所有的a标签。

5行、a[-2]是获取我们倒数第二个标签也就是我们的下一章标签，【’href‘】--是获得a标签内的href的内容也就是我们的地址，这里需要拼接字符串。

7行、是抓取的注释内容，稍后在源码中你会看到效果

8行、有的小伙伴注意到了，这里是调用函数，函数的名字就是我们一开始定义的函数，就是它自己本身。

四、写入文件

接下来，我们的主要价值数据获取到，但是我们需要它成为txt文件，所以我写了一个函数，在上面的函数体中直接调用就可以了。

 def text_da(text):

     fo = open("foo.txt", "a")

     fo.write(text)

     # 关闭打开的文件

     fo.close()

五、启动函数

最后一步，就是我们的启动程序代码。

 if __name__ == '__main__':

     page=1

     url = 'https://www.booktxt.net/6_6453/2529786.html'  # 元尊

     project(url,page)

这里主要是python的内置函数，作为启动py文件内的函数。

六、源码

哦！忘了源码-----

 # -*- coding:utf-8 -*-

 import requests

 from bs4 import BeautifulSoup

 import time

 def project(url,page):

     #url='http://www.23us.so/files/article/html/1/1809/877404.html' #大主宰

     #url='http://www.23us.so/files/article/html/6/6100/2193573.html' #天下无双

     #url='https://www.booktxt.net/6_6453/2529786.html' #元尊

     headers={"Cookie": "jieqiVisitId=article_articleviews%3D6453; cscpvrich8793_fidx=4; __tins__19219364=%7B%22sid%22%3A%201527749231776%2C%20%22vd%22%3A%204%2C%20%22expires%22%3A%201527751067272%7D; __51cke__=; __51laig__=4; Hm_lvt_6949867c34e7741ebac3943050f04833=1527749232; Hm_lpvt_6949867c34e7741ebac3943050f04833=1527749267; cscpvcouplet8792_fidx=4; cscpvrich8791_fidx=4",

         "Host": "www.booktxt.net",

              "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0",

              "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"}

     r =requests.get(url,headers,timeout=30)

     h = r.content

     #print h

     soup = BeautifulSoup(h, "html.parser")

     #a = soup.find('dd',id='contents')

     #print a.get_text()

     a1 = soup.find('div',class_="bookname").h1

     text_da(a1.get_text().encode('utf-8')+'\n\n\n')

     a = soup.find('div',id='content')

     text_da(a.get_text().encode('utf-8')+'\n\n\n')

     print '第'+str(page)+'章！'

     #b = soup.find('dd',id='footlink')

     b = soup.find('div',class_='bottem2')

     if b:

         a = b.find_all('a')

         #shuurl = 'http://www.23us.so'+a[-1]['href']

         shuurl = 'https://www.booktxt.net' + a[-2]['href']

         #print shuurl

         page=page+1

         project(shuurl,page)

 def text_da(text):

     fo = open("foo.txt", "a")

     fo.write(text)

     # 关闭打开的文件

     fo.close()

 if __name__ == '__main__':

     page=1

     url = 'https://www.booktxt.net/6_6453/2529786.html'  # 元尊

     project(url,page)

对了！还有Python对于数据库的连接操作，我这里直接就贴源码了，其中很多的内容我都注释了！不懂的可以加群---607021567（需要验证信息，因为我不知道来的是朋友还是敌人）

 # -*- coding:utf-8 -*-

 import pymongo

 from pymongo import MongoClient

 import json

 #MONGODB

 #连接

 client = MongoClient('mongodb://localhost')

 db = client.test

 table='test'

 #db[table].insert({'user_id':2,'name':'zhu'})

 #db[table].update({'name':'zhu'},{'$set':{'user_id':2}})

 #db[table].remove({'name':'zhu'})

 #查询结果排序（key：1或者-1）升序或者降序

 a = db[table].find().sort("user_id",1)

 print a

 for i in a:

     print i

 #db.authenticate('test','test')

 """table = 'imi_product'

 a = db[table].find({'partno':'NEN1FX6'}).limit(1)

 detailList = []

 for i in a:

         if (i.get("specs")):

                 specary = i.get("specs")

                 for i in specary:

                     detailList.append({"left": i, "right": specary[i]})

 print detailList

 for i in detailList:

     print i.get('right')

 #查询和增加

 #db[table].insert({'sn':1,'b':'b'})

 #更改

 #db[table].update({'sn':1},{'$set':{'b':'sda'}})

 #删除

 #删除name=lisi的全部记录

 #db[table].remove({'sn': 1})

 #删除集合里的所有记录

 #db.users.remove()

 #    (>)  大于 - $gt

 #    (<)  小于 - $lt

 #    (>=)  大于等于 - $gte

 #    (<= )  小于等于 - $lte

 #a = db[table]

 #print a.find_one()"""

 #SQLSERVER

 """import pyodbc

 import MySQLdb

 MSSQL_INFO = {"hostname":"localhost","username":"","password":"","dbname":"oneice"}

 strconn= 'DRIVER={SQL Server};SERVER='+MSSQL_INFO.get("hostname")+';DATABASE='+MSSQL_INFO.get("dbname")+';UID='+MSSQL_INFO.get("username")+';PWD='+MSSQL_INFO.get("password")

 db = pyodbc.connect(strconn)

 sqldb = db.cursor()

 #查询

 sql = 'select * from news where news_id=1'

 #添加

 sql ="insert into news (news_title,news_author,news_summary,news_content,news_pic) values ('haha','happy','Iriji','little','12dsa')"

 #删除

 sql ="delete from news where news_id=5"

 sqldb.execute(sql)

 sqldb.commit()

 #查询

 row = sqldb.fetchone()

 print row[1]

 #存储过程

 sqldb.execute("{call 存储过程名字 (参数)}", '上传的参数')

 q = sqldb.fetchone()/fetchall()

 sqldb.commit()

 if q:

     print q[1]"""

这里包含这Python调用SQLSERVER的存储过程和基本操和MONGODB的基本操作！

Python--（爬虫与数据库的连接）的更多相关文章

Python与Mysql 数据库的连接，以及查询。
python与mysql数据库的连接: pymysql是python中对数据库的连接模块:因此应当首先安装pymysql数据库模块. 执行pip install pymysql 命令. 然后在pyth ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫30 | scrapy后续，把「糗事百科」的段子爬下来然后存到数据库中
上回我们说到 python爬虫29 | 使用scrapy爬取糗事百科的例子,告诉你它有多厉害! WOW!! scrapy awesome!! 怎么会有这么牛逼的框架 wow!! awesome!! 用 ...
python爬虫26 | 把数据爬取下来之后就存储到你的MySQL数据库。
小帅b说过在这几篇中会着重说说将爬取下来的数据进行存储上次我们说了一种 csv 的存储方式这次主要来说说怎么将爬取下来的数据保存到 MySQL 数据库接下来就是学习python的正确姿势真 ...
小白学 Python 爬虫（5）：前置准备（四）数据库基础
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
python爬虫：爬取易迅网价格信息，并写入Mysql数据库
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处 ...
Python爬虫：爬取某网站关键词对应商品ID，且存入DB2数据库
公司研发不给力,我就自己写了一个,专门爬关键词对应的商品ID. 其中还学会了用Python操作DB2数据库.Python发送邮件.写日志文件.处理浏览器访问限制. #!/usr/bin/python# ...

随机推荐

SSH免密登录实现
现在先想要把项目部署到linux系统中通过使用maven添加tomcat插件可以做到,右击项目配置这里的url,是部署到哪里的意思(比如我们现在将这个项目部署到以下系统的tomcat中) 此处只有 ...
flexbuilder 开发工具
https://www.cnblogs.com/xuling/archive/2010/02/15/1668580.html
linux学习--2019-04-22
1.写命令,vi编辑器 1)vi 文件名 2) 按 ‘i’ 进入编辑模式 3)编写完成后,按Esc,然后输入 “:wq” 推出编辑.(“q!”不存盘,强制退出vi) 2.命令补全 “Tab” 3.获取 ...
P2733 家的范围 Home on the Range-弱DP
P2733 家的范围 Home on the Range 思路 :转化为以每个点为右下角的最大正方形的边长 #include<bits/stdc++.h> using namespace ...
centos docker-ce安装
懂得自然懂 https://yeasy.gitbooks.io/docker_practice/content/install/centos.html
Java链表基本操作和Java.util.ArrayList
Java链表基本操作和Java.util.ArrayList 今天做了一道<剑指offer>上的一道编程题“从尾到头打印链表”,具体要求如下:输入一个链表,按链表值从尾到头的顺序返回一个A ...
DICOM图像转出为bmp格式图像方法（matlab程序实现）
在matlab中用dicomread读取dicom文件后,生成一个MxN矩阵(对应图像像素个数),每个像素灰度数据是int16格式但是bmp图像灰度是int8格式的(灰度范围0~255),所以若想把 ...
关于resharper激活
resharper 是一款非常强大的vs辅助开发插件,提供了很多快捷操作功能,本人已经离不开它了,但是resharper总会遇到lincese过期,需要激活的问题,现在提供以下方式,仅供参考 1.打开 ...
我们来谈谈最近最热门的微信小程序
最近微信小程序真是火到不行,我们的经理大人也就此给我做了一定的培训.他讲的太好,我实在忍不住跟大家简单分享一下: 1.什么是微信小程序? 一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦 ...
Oracle DBLINK的相关知识整理
一.DBLINK(Database Link)概念 dblink,顾名思义就是数据库的链接.当我们要跨本地数据库访问另一个数据库中的表的数据时,在本地数据库中就必须要创建远程数据库的dblink,通过 ...

Python--（爬虫与数据库的连接）

Python--（爬虫与数据库的连接）的更多相关文章

随机推荐

热门专题