手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）

概念

网络爬虫就是按照一定的规则，自动抓取互联网信息的程序或脚本。其本质就是模拟浏览器打开网页，获取网页中我们需要的数据。

基本流程

准备工作（构建流程）
获取数据
解析内容
保存数据

1. 准备工作

'''

#执行流程

def main(a):

    print("hello",a)

main(2)

if __name__ == '__main__':      #当程序执行时

    main(1)             #调用函数

'''

'''

#引入模块

#引入自定义的模块

# from test1 import t1

#引入系统的模块

import os

import sys

#引入第三方的模块

import re

'''

from bs4 import BeautifulSoup    #网页解析，获取数据

import re       #正则表达式，进行文字匹配

import urllib.request,urllib.error      #制定url，获取网页数据

import xlwt     #进行excel操作

import sqlite3      #进行sqlite数据库操作

下载第三方模块文件：file——setting——project——python interpreter—— +

2. 构建流程

def main():

    baseurl = "https://movie.douban.com/top250"

    #1.爬取网页

    datalist = getData(baseurl)

    savepath = ".\\豆瓣电影top250.xls"

    #3.保存数据

    saveData(savepath)

#爬取网页

def getData(baseurl):

    datalist = []

    # 2.逐一解析数据

    return datalist

#保存数据

def saveData(savepath):

    print("save....")

if __name__ == '__main__':

    main()

3. 获取数据

#获取单个指定url网页的内容

def askUrl(url):

    head = {        #模拟浏览器头部信息，向豆瓣服务器发送消息

        "User-Agent": "Mozilla / 5.0(Linux; Android 6.0; Nexus 5 Build / MRA58N) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 110.0.0.0 Mobile Safari / 537.36 Edg / 110.0.1587.50"

    }

            #用户代理：告诉豆瓣服务器我们是什么类型的机器、浏览器，本质上是告诉服务器，我们可以接受什么样的文件内容

    request = urllib.request.Request(url,headers=head)

    html = ""

    try:

        response = urllib.request.urlopen(request)

        html = response.read().decode("utf-8")

        print(html)

    except urllib.error.URLError as e:

        if hasattr(e,"code"):

            print(e.code)

        if hasattr(e,"reason"):

            print(e.reason)

    return html

4. 解析内容

#影片详情的规则

findLink = re.compile(r'<a href="(.*?)"')

#影片图片的规则

findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)

#影片片名

findTitle = re.compile(r'<span class="title">(.*)</span>')

#影片的评分

findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')

#评价人数

findJudge = re.compile(r'<span>(\d*)人评价</span>')

#概况

findInq = re.compile(r'<span class="inq">(.*)</span>')

#影片相关内容

findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

 # 2.逐一解析数据

        soup = BeautifulSoup(html,"html.parser")

        for item in soup.find_all("div",class_ = "item"):   #查找符合要求的字符串，形成列表

            # print(item)         #测试：查看电影item全部信息

            # break

            data = []

            item = str(item)

            #影片详情的链接

            link = re.findall(findLink,item)[0]     #re库通过正则表达式查找指定的字符串

            data.append(link)           #添加链接

            imgSrc = re.findall(findImgSrc,item)[0]

            data.append(imgSrc)         #添加图片

            titles = re.findall(findTitle,item) #名字可能只有中文名，没有外文名，需要区分一下

            if len(titles) == 2:

                ctitle = titles[0]

                data.append(ctitle)

                otitle = titles[1].replace("/","")      #去掉无关符号

                data.append(otitle)

            else:

                data.append(titles[0])

                data.append(" ")            #外文名留空

            rating = re.findall(findRating,item)[0]

            data.append(rating)             #添加评分

            judgeNum = re.findall(findJudge,item)[0]

            data.append(judgeNum)           #添加评价人数

            inq = re.findall(findInq,item)

            # data.append(inq)                #添加概述

            if len(inq) != 0:

                inq = inq[0].replace("。","")        #去掉句号

                data.append(inq)

            else:

                data.append(" ")        #留空

            bd = re.findall(findBd,item)[0]

            bd = re.sub("<br(\s+)?/>(s+)?"," ",bd)

            bd = re.sub("/"," ",bd)     #替换/

            data.append(bd.strip())     #去掉前后空格

            datalist.append(data)           #把处理好的一部电影信息放入dataList

    print(datalist)

    return datalist

5.保存数据

(1)保存数据到excel

#保存数据

def saveData(datalist,savepath):

    workbook = xlwt.Workbook(encoding="utf-8",style_compression=0)

    worksheet = workbook.add_sheet("豆瓣电影top250",cell_overwrite_ok=True)

    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")

    for i in range(0,8):

        worksheet.write(0,i,col[i]) #列名

    for i in range(0,250):

        print("第%d条"%(i+1))

        data = datalist[i]

        for j in range(0,8):

            worksheet.write(i+1,j,data[j])

    workbook.save(savepath)

（2）保存数据到SQLite

 # savepath = "豆瓣电影top250.xls"

    dbpath = "movie.db"

    #3.保存数据

    # saveData(datalist,savepath)

    saveData2DB(datalist,dbpath)

def saveData2DB(datalist,dbpath):

    init_db(dbpath)

    conn = sqlite3.connect(dbpath)

    cur = conn.cursor()

    for data in datalist:

        for index in range(len(data)):

            if index == 4 or index == 5:

                continue

            data[index]  = '"'+data[index]+'"'

        sql = '''

                insert into movie250(

                info_link,pic_link,cname,ename,score,rated,introduction,info)

                values(%s)'''%",".join(data)

        cur.execute(sql)

        conn.commit()

    cur.close()

    conn.close()

def init_db(dbpath):

    sql = '''

        create table movie250

        (

        id integer primary key autoincrement,

        info_link text,

        pic_link text,

        cname varchar,

        ename varchar,

        score numeric,

        rated numeric,

        introduction text,

        info text

        )

    '''  #创建数据库

    conn = sqlite3.connect(dbpath)

    cursor = conn.cursor()

    cursor.execute(sql)

    conn.commit()

    conn.close()

完整代码

from bs4 import BeautifulSoup    #网页解析，获取数据

import re       #正则表达式，进行文字匹配

import urllib.request,urllib.error      #制定url，获取网页数据

import xlwt     #进行excel操作

#影片详情的规则

findLink = re.compile(r'<a href="(.*?)"')

#影片图片的规则

findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)

#影片片名

findTitle = re.compile(r'<span class="title">(.*)</span>')

#影片的评分

findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')

#评价人数

findJudge = re.compile(r'<span>(\d*)人评价</span>')

#概况

findInq = re.compile(r'<span class="inq">(.*)</span>')

#影片相关内容

findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

def main():

    baseurl = "https://movie.douban.com/top250?start="

    #1.爬取网页

    datalist = getData(baseurl)

    savepath = "豆瓣电影top250.xls"

    #3.保存数据

    saveData(datalist,savepath)

#爬取网页

def getData(baseurl):

    datalist = []

    for i in range(0,10):

        url = baseurl + str(i * 25)

        html = askUrl(url)

        # 2.逐一解析数据

        soup = BeautifulSoup(html,"html.parser")

        for item in soup.find_all("div",class_ = "item"):   #查找符合要求的字符串，形成列表

            # print(item)         #测试：查看电影item全部信息

            # break

            data = []

            item = str(item)

            #影片详情的链接

            link = re.findall(findLink,item)[0]     #re库通过正则表达式查找指定的字符串

            data.append(link)           #添加链接

            imgSrc = re.findall(findImgSrc,item)[0]

            data.append(imgSrc)         #添加图片

            titles = re.findall(findTitle,item) #名字可能只有中文名，没有外文名，需要区分一下

            if len(titles) == 2:

                ctitle = titles[0]

                data.append(ctitle)

                otitle = titles[1].replace("/","")      #去掉无关符号

                data.append(otitle)

            else:

                data.append(titles[0])

                data.append(" ")            #外文名留空

            rating = re.findall(findRating,item)[0]

            data.append(rating)             #添加评分

            judgeNum = re.findall(findJudge,item)[0]

            data.append(judgeNum)           #添加评价人数

            inq = re.findall(findInq,item)

            if len(inq) != 0:

                inq = inq[0].replace("。","")        #去掉句号

                data.append(inq)

            else:

                data.append(" ")        #留空

            bd = re.findall(findBd,item)[0]

            bd = re.sub("<br(\s+)?/>(s+)?"," ",bd)

            bd = re.sub("/"," ",bd)     #替换/

            data.append(bd.strip())     #去掉前后空格

            datalist.append(data)           #把处理好的一部电影信息放入dataList

    print(datalist)

    return datalist

#获取单个指定url网页的内容

def askUrl(url):

    head = {        #模拟浏览器头部信息，向豆瓣服务器发送消息

        "User-Agent": "Mozilla / 5.0(Linux; Android 6.0; Nexus 5 Build / MRA58N) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 110.0.0.0 Mobile Safari / 537.36 Edg / 110.0.1587.50"

    }

            #用户代理：告诉豆瓣服务器我们是什么类型的机器、浏览器，本质上是告诉服务器，我们可以接受什么样的文件内容

    request = urllib.request.Request(url,headers=head)

    html = ""

    try:

        response = urllib.request.urlopen(request)

        html = response.read().decode("utf-8")

        # print(html)

    except urllib.error.URLError as e:

        if hasattr(e,"code"):

            print(e.code)

        if hasattr(e,"reason"):

            print(e.reason)

    return html

#保存数据

def saveData(datalist,savepath):

    workbook = xlwt.Workbook(encoding="utf-8",style_compression=0)

    worksheet = workbook.add_sheet("豆瓣电影top250",cell_overwrite_ok=True)

    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")

    for i in range(0,8):

        worksheet.write(0,i,col[i]) #列名

    for i in range(0,250):

        print("第%d条"%(i+1))

        data = datalist[i]

        for j in range(0,8):

            worksheet.write(i+1,j,data[j])

    workbook.save(savepath)

if __name__ == '__main__':

    main()

    print("爬取完毕")

最后，整个爬虫就学完了，剩下的是前端页面展示。在此之前我还要总结一下爬虫的流程，总结出来的才是爬虫的精髓。另外，老师现在要求的数据都是保存程json，我却json是什么都不知道，感觉前路漫漫，步履维艰。现在web还在看MyBatis，公考进度几乎停滞，开学已经第四周。进度如此，心中多少有些悲怆。总之，还是抓紧抽时间总结，而且学的越深，进度越慢，自己要抓紧调整，考虑计划是否需要变动，一定要坚持！

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）的更多相关文章

python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml impor ...
python3 爬虫---爬取豆瓣电影TOP250
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...
Python爬虫-爬取豆瓣电影Top250
#!usr/bin/env python3 # -*- coding:utf-8-*- import requests from bs4 import BeautifulSoup import re ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
python爬虫 Scrapy2-- 爬取豆瓣电影TOP250
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed
好吧,我又开始折腾豆瓣电影top250了,只是想试试各种方法,看看哪一种的方法效率是最好的,一直进行到这一步才知道 scrapy的强大,尤其是和selector结合之后,速度飞起.... 下面我就采用 ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...

随机推荐

变速精灵+百D网盘
首先找一下相对低一点版本的客户端,比如7.26.10 https://issuepcdn.baidupcs.com/issue/netdisk/yunguanjia/BaiduNetdisk_7.26 ...
基础命令:dd、tar、ln、find、逻辑符号、alisa别名、md5sun校验、lrzsz文件上传下载、wget
目录 3.0 dd读取.转换并输出数据 3.1 压缩 (tar.zip).解压缩(tar xf.unzip) 3.2 ln软硬链接 3.2.1 软链接: 3.2.2 硬链接: 3.3 find文件查找 ...
虚拟机为什么ping不通主机
在虚拟机里各种操作都正常.就是ping不通主机.为什么? NAT模式下(网络地址转换模式),虚拟机后网络适配器就会出现VMnet8网卡: 把VMnet8的ip4设定成你主机同段IP.这个VMnet8地 ...
Docker中的Gitlab数据迁移
一.选择版本 GitLab 12.2或更高版本: docker exec -t gitlab-backup create GitLab 12.1和更早版本: gitlab-rake gitla ...
HTB-UnderPass
该靶机nmap扫描udp发现161端口snmp服务,利用snmpwalk扫描得到目录信息,使用dirsearch扫描得到一个yml文件,存放数据库账号密码,记录下来,此时需要登录口,使用字典扫描拼接/ ...
spring_声明式事务： @Transactional
例子. <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://ww ...
python之request请求后响应的数据从中获取指定值
request请求后响应的数据为字典类型,从中获取指定值如上图,需要获取Code的值,或者Msg的值首先把response通过内置json解码器解码输出 response = response. ...
python爬虫爬取B站视频字幕，简单的数据处理（pandas将字幕写入到CSV文件中）
上文,我们爬取到B站视频的字幕:https://www.cnblogs.com/becks/p/14540355.html 这篇,讲讲怎么把爬到的字幕写到CSV文件中,以便用于后面的分析本文主要用到 ...
SparkSql 写 Es
官方文档 key 备注 es.write.operation index(默认)添加新数据,旧数据被替换,重新索引;create添加新数据,数据存在抛出异常;update 更新现有数据,不存在抛出异常 ...
EF Core 中避免 SQL 注入的三种写法
SQL 注入攻击可能会对我们的应用程序产生严重影响,导致敏感数据泄露.未经授权的访问和应用程序受损.EF Core 提供了三种内置机制来防止 SQL 注入攻击. 1.利用 LINQ 查询语法和参数化查 ...

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）

概念

基本流程

1. 准备工作

2. 构建流程

3. 获取数据

4. 解析内容

5.保存数据

完整代码

手把手教你网络爬虫（爬取豆瓣电影top250，附带源代码）的更多相关文章

随机推荐

热门专题