BS4爬取豆瓣电影

爬取豆瓣top250部电影

####创建表：

#connect.py

from sqlalchemy import  create_engine

# HOSTNAME='localhost'

# PORT='3306'

# USERNAME='root'

# PASSWORD='123456'

# DATABASE='douban'

db_url='mysql+pymysql://root:123456@localhost:3306/douban?charset=utf8'

engine=create_engine(db_url)

#创建映像

from sqlalchemy.ext.declarative import  declarative_base

Base=declarative_base(engine)

#创建会话

from sqlalchemy.orm import sessionmaker

Session=sessionmaker(engine)

session=Session()

##################创建表

from sqlalchemy import  Column,String,Integer,DateTime

from datetime import datetime

class Douban(Base):

    __tablename__='douban'

    id=Column(Integer,primary_key=True,autoincrement=True)

    name=Column(String(50))

    author=Column(String(100),nullable=True)

    actor=Column(String(100))

    time=Column(String(50))

    country=Column(String(100))

    type=Column(String(100))

    createtime=Column(DateTime,default=datetime.now)

    def __repr__(self):

        return '<Douban(id=%s,name=%s,author=%s,actor=%s,time=%s,country=%s,type=%s,createtime=%s)>'%(

            self.id,

            self.name,

            self.author,

            self.actor,

            self.time,

            self.country,

            self.type,

            self.creatime

        )

if __name__=='__main__':

    Base.metadata.create_all()

    # user=Douban()

    # user.type='你好'

    # user.country='你'

    # user.author='666'

    # user.actor='你好啊'

    # session.add(user)

    # session.commit()

    ###爬取数据并保存到数据库：

    #douban.py

import requests,re

from bs4 import BeautifulSoup

import time,datetime

# import pymysql

# conn=pymysql.connect(host='127.0.0.1',user='root',passwd='123456',db='mysql',charset='utf8')

# cur=conn.cursor()

# cur.execute('use douban;')

# cur.execute("insert into douban.douban(author,actor,country) VALUES('aa','bb','bb')")

# conn.commit()

#导入sqlalchemy

from connect import Douban,session

headers={'Referer':'https://movie.douban.com/explore',

         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; '

                       'WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

def get_html(x):

    num = 0

    for n in range(x+1):

        url='https://movie.douban.com/top250?start=%s&filter='%(n*25)

        html=requests.get(url,headers=headers).text

        soup=BeautifulSoup(html,'lxml')

        # print(type(soup))

        content_all=soup.select('div[class="item"]')

        for m in content_all:

            num+=1

            title=m.select('span[class="title"]')[0].string

            print(title)

            content=m.select('div[class="bd"] > p[class=""]')[0]

        #返回字符串迭代器

            text=content.stripped_strings

            li = []

            for i in text:

                i=str(i)

                # print(i)

                li.append(i)

            print(li)

        #获取演员和国家列表

            author_list=li[0].split('\xa0\xa0\xa0')

            country_list=li[1].split('\xa0/\xa0')

            # print(author_list)

            # print(country_list)

        #从列表取出数据

            author=author_list[0]

            actor=author_list[1]

            time=country_list[0]

            country=country_list[1]

            type=country_list[2]

            print(author)

            print(actor)

            print(time)

            print(country,type+'\n\n')

            print('总共获取%s' % num)

            #第一种插入方式特别注意，此处用单双引号来区分内容，且%s要加引号，否则会报错

            # sql="insert into douban(name,author,actor,time,country,type) VALUES('%s','%s','%s','%s','%s','%s')"%(

            #     title,

            #     author,

            #     actor,

            #     time,

            #     country,

            #     type

            # )

            # cur.execute(sql)

            # conn.commit()

          ### 第二种插入方法，使用sqlalchemy插入

            data=Douban(name=title,

                        author=author,

                        actor=actor,

             #字符串格式需转换成日期格式

                        time=time,

                        # time=datetime.strptime(time,'%Y')

                        country=country,

                        type=type,

                        )

            session.add(data)

            session.commit()

if __name__=='__main__':

    x=input('输入数字:')

    x=int(x)

    get_html(x)

    # conn.close()

BS4爬取豆瓣电影的更多相关文章

urllib+BeautifulSoup无登录模式爬取豆瓣电影Top250
对于简单的爬虫任务,尤其对于初学者,urllib+BeautifulSoup足以满足大部分的任务. 1.urllib是Python3自带的库,不需要安装,但是BeautifulSoup却是需要安装的. ...
python2.7爬取豆瓣电影top250并写入到TXT，Excel，MySQL数据库
python2.7爬取豆瓣电影top250并分别写入到TXT,Excel,MySQL数据库 1.任务爬取豆瓣电影top250 以txt文件保存以Excel文档保存将数据录入数据库 2.分析电影 ...
Python开发爬虫之静态网页抓取篇：爬取“豆瓣电影 Top 250”电影数据
所谓静态页面是指纯粹的HTML格式的页面,这样的页面在浏览器中展示的内容都在HTML源码中. 目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/t ...
爬取豆瓣电影排行top250
功能描述V1.0: 爬取豆瓣电影排行top250 功能分析: 使用的库 1.time 2.json 3.requests 4.BuautifulSoup 5.RequestException 上机实验 ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
python 爬取豆瓣电影评论，并进行词云展示及出现的问题解决办法
本文旨在提供爬取豆瓣电影<我不是药神>评论和词云展示的代码样例 1.分析URL 2.爬取前10页评论 3.进行词云展示 1.分析URL 我不是药神短评第一页url https://mo ...
Python爬取豆瓣电影top
Python爬取豆瓣电影top250 下面以四种方法去解析数据,前面三种以插件库来解析,第四种以正则表达式去解析. xpath pyquery beaufifulsoup re 爬取信息:名称评分 ...
python 爬取豆瓣电影短评并wordcloud生成词云图
最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站 [实验名称] 爬取豆瓣电影<千与千寻>的评论并生成词云 1. 利用爬虫获得电影评论的文本数据 2. 处理文本数据生成词云图第一步, ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

随机推荐

Python学习之高级特性
切片在Python基础篇里,我们知道Python的可序列对象可以通过索引号(下标)来引用对象元素,索引号可以由0开始从左向右依次获取,可以从-1开始由右向左获取.这种方法可以帮助我们依次获取我们想要 ...
1016-01-首页16-计算配图的frame----MJExtention的使用
-------HWPhoto.h--------------------------------------------- #import <Foundation/Foundation.h> ...
POJ-3126 BFS,埃式筛选及黑科技
题目大意:给定两个四位素数a b,要求把a变换到b,变换的过程要保证每次变换出来的数都是一个四位素数,而且当前这步的变换所得的素数与前一步得到的素数只能有一个位不同,而且每步得到的 ...
笔记-unittest实战
笔记-unittest实战 1. 框架图 2. 用例编写自己的测试用例类,继承于基类 class ApiTestCase(unittest.TestCase): setUp方法会 ...
is 和 == 的区别,utf和gbk的转换,join用法
is 和 == 的区别 # is 比较的是内存地址 # == 比较的是值 a = 'alex' b = 'alex' #int,str(小数据池)会被缓存,为了节约内存 print(id(a),id( ...
树&二叉树&哈夫曼树
1.树需要注意的两点:n(n>=0)表示结点的个数,m表示子树的个数 (1)n>0时,树的根节点是唯一的. (2)m>0时,子树的个数没有限制. 结点的度和树的度 (1)结点的度是 ...
sprintf()函数使用异常
调试STM32F103,比如如下代码:使用springf函数,这个函数是把最后两个参数先格式化成字符串 ,输出到ERROR_STRING,如果他们合并的长度大于30会出现深情况? ] sprintf( ...
atomic integer 实现
public final int getAndAddInt(Object o, long offset, int delta) { int v; do { v = getIntVolatile(o, ...
《数据结构与算法分析：C语言描述》复习——第十章“算法设计技巧”——Huffman编码
2014.07.06 16:47 简介: 给定一段有固定符号集合S构成的文本T,集合S中总共有n种符号.如果对于每种符号,使用一种不同的由‘0’和‘1’构成的位字符串来代替,比如: ‘a’->‘ ...
风格指南--C++
0.避免多重包含是学编程时基本的要求; 1. 前置声明是为了降低编译依赖,防止修改一个头文件引发多米诺效应; 2. 内联函数的合理使用可提高代码执行效率; 3. ‐inl.h 可提高代码可读性 (一般 ...

BS4爬取豆瓣电影

BS4爬取豆瓣电影的更多相关文章

随机推荐

热门专题