python 豆瓣top250

豆瓣电影

import re

import requests

headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"}

url='https://movie.douban.com/top250'

proxies={

    'http':'http://123.207.96.189:80'

}           #防止被锁ip

word=0

while True:

    if word == 250:

        break

    p={'start':word}

    movie=requests.get(url,proxies=proxies,headers=headers,params=p)

    word=word+25

    abc=movie.text

    pattern=re.compile('<div class="item">.*?<em class="">(.*?)</em>.*? <a href="(.*?)">.*?<span class="title">(.*?)'

                    '</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;'

                    '(.*?)</span>.*?<p class="">.*?                           (.*?)&nbsp;&nbsp;&nbsp;(.*?)<br>'

                    '.*? property=(.*?)</span>.*?<span class="inq">(.*?)</span>',re.S)   #正则表达式     re.S 使得.匹配换行符  re.I 忽略大小写

    #print(pattern.findall(abc))

    for i in pattern.findall(abc):

        print(i)

豆瓣示例2

import requests

import re

import json

def param_html(url):

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; "

                            "Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"}

    proxies = {

        'http': 'http://123.207.96.189:80'

    }

    response=requests.get(url,headers=headers,proxies=proxies)

    text=response.text

    pattern = re.compile('<div class="item">.*?<em class="">(.*?)</em>.*?src="(.*?)" class=".*?<a href="(.*?)">.*?'

                        '<span class="title">(.*?)'

                        '</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;'

                        '(.*?)</span>.*?<p class="">.*?                           (.*?)&nbsp;&nbsp;&nbsp;(.*?)<br>'

                        '.*? property=(.*?)</span>.*?<span class="inq">(.*?)</span>', re.S)  # 正则表达式

    # re.S 使得.匹配换行符  re.I 忽略大小写

    # print(pattern.findall(abc))

    results=pattern.findall(text)     #生成符合正则表达式的小列表

    for i in results:        #输出小列表内容

        print(i)

    for i in results:

        down_jpg(i[1])    #把小列表里的第二个值传给down_jpg （url）

        yield {

            '排名':i[0],

            '电影名':i[3],

            '英文名':i[4],

            '港台地区':i[5]

        }         #使用1次此函数就会递归50个小字典 将小列表的值递归出来

def down_jpg(url):

    r=requests.get(url)

    regix=re.compile('/public/(.*?)$',re.S)         #以 /public/(.*?)结尾的 所以要加$

    filename=regix.search(url).group(1)

    with open(filename,'wb') as  f:

        f.write(r.content)

def write_txt(str_obj):

    with open('film.txt','a',encoding='utf-8') as f:

        f.write(json.dumps(str_obj,ensure_ascii=False))

            #追加写   以dumps形式

def main():

    for i in range(0,26,25):

        url='https://movie.douban.com/top250?start='+str(i)

        for j in param_html(url):     #将50个小字典写入文件

            write_txt(j)

main()

示例3

import re

import requests

import json

headers = {"User-Agent": "Mozilla/5.0"

" (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"}

proxies = {

    'http': 'http://123.207.96.189:80'

}

def get_html(proxies,headers):

    url='https://movie.douban.com/top250'

    word=0

    while True:

        if word == 50:

            break

        p={'start':word}

        movie=requests.get(url,proxies=proxies,headers=headers,params=p)

        word=word+25

        text=movie.text

        pattern=re.compile('<div class="item">.*?<em class="">(.*?)</em>.*?src="(.*?)" class="".*?<a href="(.*?)">.*?'

                        '<span class="title">(.*?)'

                        '</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;'

                        '(.*?)</span>.*?<p class="">.*?                           (.*?)&nbsp;&nbsp;&nbsp;(.*?)<br>'

                        '.*? property=(.*?)</span>.*?<span class="inq">(.*?)</span>',re.S)   #正则表达式

        for i in pattern.findall(text):

            yield {

                    '排名':i[0],

                    '电影名':i[3],

                    '英文名':i[4],

                    '港台地区':i[5],

                    '图片链接':i[1],

            }

def get_movie_brief():

    with open('movie.txt','a',encoding='utf-8') as f:

        for i in get_html(proxies,headers):

            f.write(json.dumps(i,ensure_ascii=False))

def get_movie_pic(proxies,headers):

    for i in get_html(proxies,headers):

        url=i['图片链接']

        re=requests.get(url,proxies=proxies,headers=headers)

        pic=re.content

        filename=str(i['排名'])+'.png'

        with open(filename,"wb") as f:

            f.write(pic)

get_movie_brief()

get_movie_pic(proxies,headers)

python 豆瓣top250的更多相关文章

python 豆瓣top250电影的爬取
我们先看一下豆瓣的robot.txt 然后我们查看top250的网页链接和源代码通过对比不难发现网页间只是start数字发生了变化. 我们可以知道电影内容都存在ol标签下的 div class属性为 ...
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...
Forward团队-爬虫豆瓣top250项目-项目总结
托管平台地址:https://github.com/xyhcq/top250 小组名称:Forward团队组长:马壮成员:李志宇.刘子轩.年光宇.邢云淇.张良我们这次团队项目内容是爬取豆瓣电影T ...
Forward团队-爬虫豆瓣top250项目-项目进度
项目地址:https://github.com/xyhcq/top250 我们的项目是爬取豆瓣top250的电影的信息,在做这个项目前,我们都没有经验,完全是从零开始,过程中也遇到了很多困难,不过我们 ...
正则表达式和豆瓣Top250的爬取练习
datawhale任务2-爬取豆瓣top250 正则表达式豆瓣250页面分析完整代码参考资料正则表达式正则表达式的功能用于实现字符串的特定模式精确检索或替换操作. 常用匹配模式常用修饰符 ...
豆瓣Top250爬取
第一次做爬虫项目,真的开心,非常顺利爬出了豆瓣Top250的电影 @^_^@ 自从今年6月份就开始自学python,断断续续一直没好好学.直到看了‘’老男孩python3全栈教育‘’,才有所收获.但是 ...
14、使用csv和excel存储豆瓣top250电影信息
记得我们第三关的时候爬取了豆瓣TOP250的电影名/评分/推荐语/链接,现在呢,我们要把它们存储下来,记得用今天课上学的csv和excel,分别存储下来哦- URL htt ...
《Forward团队-爬虫豆瓣top250项目-开发文档》
码云地址:https://github.com/xyhcq/top250 模块功能:获取豆瓣top250网页的源代码,并分析. def getHTMLText(url,k): # 获取网页源代码 tr ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...

随机推荐

IPv6 寻址方式简介
在计算机网络中,寻址模式是指在网络上托管地址的机制.IPv6 提供了多种类型的模式,可以通过这些模式对单个主机进行寻址.也可以同时对多个主机进行寻址或者寻址最近距离的主机. 单播寻址在单播寻址方式 ...
Identity Server 4 从入门到落地（二）—— 理解授权码模式
Identity Server 的目的是认证和授权,我们需要理解认证和授权的工作过程.这就需要了解OAuth 2.0的四种授权模式,下面这张图是授权码模式的工作过程,至少我在一开始看得一头雾水: 现在 ...
数值分析：矩阵奇异值分解(Numpy实现)
1. 奇异值分解(SVD) (1)奇异值分解已知矩阵\(\bm{A} \in \R^{m \times n}\), 其奇异值分解为: \[\bm{A} = \bm{U}\bm{S}\bm{V}^T ...
什么是GP、LP、PE、VC、FOF？
GP GP是General Partner的缩写,意思是普通合伙人.投资者经常听到的一些基金.风投等投资公司采用的就是普通合伙人的制度,在美国等发达国家,普通合伙人很常见. 其实,说白了,GP最开始指 ...
Apache RocketMQ分布式消息传递和流数据平台及大厂面试宝典v4.9.2
概述 **本人博客网站 **IT小神 www.itxiaoshen.com 定义 Apache RocketMQ官网地址 https://rocketmq.apache.org/ Latest rel ...
Python3调用C程序（超详解）
Python3调用C程序(超详解) Python为什么要调用C? 1.要提高代码的运算速度,C比Python快50倍以上 2.对于C语言里很多传统类库,不想用Python重写,想对从内存到文件接口这样 ...
初学者如何吃透一个Java项目
不少初学者朋友在学习Java过程中,会对着视频敲Java项目,其中遇到的BUG还能解决,但就是每次敲完一个项目,就感觉很空虚,项目里面的知识点感觉懂了但又好像没懂这些朋友应该怎样才能掌握一个项目所用 ...
C语言中的各种字符串输入方法
C语言从stdin读取一行字符串的几种方法 gets gets函数的头文件是<stdio.h>,原型如下: char *gets(char *s); gets从stdin中读入一行内容到s ...
CPU如何同时运行多个进程？
1 # -*- coding: utf-8 -*- 2 import re 3 mem = [x for x in re.split('[\r|\n]', ''' 4 store a 1 5 add ...
Spark(二十一)【SparkSQL读取Kudu，写入Kafka】
目录 SparkSQL读取Kudu,写出到Kafka 1. pom.xml 依赖 2.将KafkaProducer利用lazy val的方式进行包装, 创建KafkaSink 3.利用广播变量,将Ka ...

python 豆瓣top250

豆瓣电影

豆瓣示例2

示例3

python 豆瓣top250的更多相关文章

随机推荐

热门专题