python 豆瓣top250

豆瓣电影

import re

import requests

headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"}

url='https://movie.douban.com/top250'

proxies={

    'http':'http://123.207.96.189:80'

}           #防止被锁ip

word=0

while True:

    if word == 250:

        break

    p={'start':word}

    movie=requests.get(url,proxies=proxies,headers=headers,params=p)

    word=word+25

    abc=movie.text

    pattern=re.compile('<div class="item">.*?<em class="">(.*?)</em>.*? <a href="(.*?)">.*?<span class="title">(.*?)'

                    '</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;'

                    '(.*?)</span>.*?<p class="">.*?                           (.*?)&nbsp;&nbsp;&nbsp;(.*?)<br>'

                    '.*? property=(.*?)</span>.*?<span class="inq">(.*?)</span>',re.S)   #正则表达式     re.S 使得.匹配换行符  re.I 忽略大小写

    #print(pattern.findall(abc))

    for i in pattern.findall(abc):

        print(i)

豆瓣示例2

import requests

import re

import json

def param_html(url):

    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; "

                            "Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"}

    proxies = {

        'http': 'http://123.207.96.189:80'

    }

    response=requests.get(url,headers=headers,proxies=proxies)

    text=response.text

    pattern = re.compile('<div class="item">.*?<em class="">(.*?)</em>.*?src="(.*?)" class=".*?<a href="(.*?)">.*?'

                        '<span class="title">(.*?)'

                        '</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;'

                        '(.*?)</span>.*?<p class="">.*?                           (.*?)&nbsp;&nbsp;&nbsp;(.*?)<br>'

                        '.*? property=(.*?)</span>.*?<span class="inq">(.*?)</span>', re.S)  # 正则表达式

    # re.S 使得.匹配换行符  re.I 忽略大小写

    # print(pattern.findall(abc))

    results=pattern.findall(text)     #生成符合正则表达式的小列表

    for i in results:        #输出小列表内容

        print(i)

    for i in results:

        down_jpg(i[1])    #把小列表里的第二个值传给down_jpg （url）

        yield {

            '排名':i[0],

            '电影名':i[3],

            '英文名':i[4],

            '港台地区':i[5]

        }         #使用1次此函数就会递归50个小字典 将小列表的值递归出来

def down_jpg(url):

    r=requests.get(url)

    regix=re.compile('/public/(.*?)$',re.S)         #以 /public/(.*?)结尾的 所以要加$

    filename=regix.search(url).group(1)

    with open(filename,'wb') as  f:

        f.write(r.content)

def write_txt(str_obj):

    with open('film.txt','a',encoding='utf-8') as f:

        f.write(json.dumps(str_obj,ensure_ascii=False))

            #追加写   以dumps形式

def main():

    for i in range(0,26,25):

        url='https://movie.douban.com/top250?start='+str(i)

        for j in param_html(url):     #将50个小字典写入文件

            write_txt(j)

main()

示例3

import re

import requests

import json

headers = {"User-Agent": "Mozilla/5.0"

" (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0"}

proxies = {

    'http': 'http://123.207.96.189:80'

}

def get_html(proxies,headers):

    url='https://movie.douban.com/top250'

    word=0

    while True:

        if word == 50:

            break

        p={'start':word}

        movie=requests.get(url,proxies=proxies,headers=headers,params=p)

        word=word+25

        text=movie.text

        pattern=re.compile('<div class="item">.*?<em class="">(.*?)</em>.*?src="(.*?)" class="".*?<a href="(.*?)">.*?'

                        '<span class="title">(.*?)'

                        '</span>.*?<span class="title">&nbsp;/&nbsp;(.*?)</span>.*?<span class="other">&nbsp;/&nbsp;'

                        '(.*?)</span>.*?<p class="">.*?                           (.*?)&nbsp;&nbsp;&nbsp;(.*?)<br>'

                        '.*? property=(.*?)</span>.*?<span class="inq">(.*?)</span>',re.S)   #正则表达式

        for i in pattern.findall(text):

            yield {

                    '排名':i[0],

                    '电影名':i[3],

                    '英文名':i[4],

                    '港台地区':i[5],

                    '图片链接':i[1],

            }

def get_movie_brief():

    with open('movie.txt','a',encoding='utf-8') as f:

        for i in get_html(proxies,headers):

            f.write(json.dumps(i,ensure_ascii=False))

def get_movie_pic(proxies,headers):

    for i in get_html(proxies,headers):

        url=i['图片链接']

        re=requests.get(url,proxies=proxies,headers=headers)

        pic=re.content

        filename=str(i['排名'])+'.png'

        with open(filename,"wb") as f:

            f.write(pic)

get_movie_brief()

get_movie_pic(proxies,headers)

python 豆瓣top250的更多相关文章

python 豆瓣top250电影的爬取
我们先看一下豆瓣的robot.txt 然后我们查看top250的网页链接和源代码通过对比不难发现网页间只是start数字发生了变化. 我们可以知道电影内容都存在ol标签下的 div class属性为 ...
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...
Forward团队-爬虫豆瓣top250项目-项目总结
托管平台地址:https://github.com/xyhcq/top250 小组名称:Forward团队组长:马壮成员:李志宇.刘子轩.年光宇.邢云淇.张良我们这次团队项目内容是爬取豆瓣电影T ...
Forward团队-爬虫豆瓣top250项目-项目进度
项目地址:https://github.com/xyhcq/top250 我们的项目是爬取豆瓣top250的电影的信息,在做这个项目前,我们都没有经验,完全是从零开始,过程中也遇到了很多困难,不过我们 ...
正则表达式和豆瓣Top250的爬取练习
datawhale任务2-爬取豆瓣top250 正则表达式豆瓣250页面分析完整代码参考资料正则表达式正则表达式的功能用于实现字符串的特定模式精确检索或替换操作. 常用匹配模式常用修饰符 ...
豆瓣Top250爬取
第一次做爬虫项目,真的开心,非常顺利爬出了豆瓣Top250的电影 @^_^@ 自从今年6月份就开始自学python,断断续续一直没好好学.直到看了‘’老男孩python3全栈教育‘’,才有所收获.但是 ...
14、使用csv和excel存储豆瓣top250电影信息
记得我们第三关的时候爬取了豆瓣TOP250的电影名/评分/推荐语/链接,现在呢,我们要把它们存储下来,记得用今天课上学的csv和excel,分别存储下来哦- URL htt ...
《Forward团队-爬虫豆瓣top250项目-开发文档》
码云地址:https://github.com/xyhcq/top250 模块功能:获取豆瓣top250网页的源代码,并分析. def getHTMLText(url,k): # 获取网页源代码 tr ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...

随机推荐

SpringBoot引入第三方jar的Bean的三种方式
在SpringBoot的大环境下,基本上很少使用之前的xml配置Bean,主要是因为这种方式不好维护而且也不够方便. 因此本篇博文也不再介绍Spring中通过xml来声明bean的使用方式. 一.注解 ...
CF814E An unavoidable detour for home
考虑有每个最短路只有一条. 那么我们建出最短路树后,显然所有的非树边都是同层之间的横叉边. 那么我们考虑设\(f(i,j,k,z)\)为我们考虑到了第\(i\)个点,此时他被我们分配到了\(p\)层, ...
深入理解 OpenFOAM 环境变量与编译
操作系统选择由于 OpenFOAM 在 Linux 平台开发和测试,在非 Linux 平台无法直接对软件进行编译和安装,所以在非 Linux 平台上最简便方法是使用 docker 容器运行 Open ...
R语言与医学统计图形-【13】ggplot2几何对象之盒形图
ggplot2绘图系统--几何对象之盒形图参数: geom_boxplot(mapping = , #lower,middle,upper,x,ymax,ymin必须(有默认) #alpha/col ...
perl 数组快速去除重复元素
这里记录两种perl数组去重的办法,一种利用哈希(hash),一种直接利用perl自带的模块List::MoreUtils内部的函数uniq. 一.利用hash去重示例代码如下: 1 #!/usr/ ...
SQL-join（inner join）、left join、right join、full join
0.JOIN 类型有时我们需要从两个或更多的表中获取结果,数据库中的表可通过键将彼此联系起来.每个表中都有一个主键,主键(Primary Key)是一个列,值都唯一.这样做的目的是在不重复每个表中的 ...
sig mesh 培训-18304
1.mesh 的传输速率 ---有效数据最长的长度是10个字节 ---最小时间间隔是10ms,重传1次 --建议数据包之间不少于100ms 1S = 10*10 =100个字节 2.目前telink ...
Vector总结及部分底层源码分析
Vector总结及部分底层源码分析 1. Vector继承的抽象类和实现的接口 Vector类实现的接口 List接口:里面定义了List集合的基本接口,Vector进行了实现 RandomAcces ...
C语言之内核中的struct list_head 结构体
以下地址文章解释很好 http://blog.chinaunix.net/uid-27122224-id-3277511.html 对下面的结构体分析 1 struct person 2 { 3 in ...
巩固javaweb第九天
巩固内容: HTML <base> 元素 <base> 标签描述了基本的链接地址/链接目标,该标签作为HTML文档中所有的链接标签的默认链接: <head> < ...

python 豆瓣top250

豆瓣电影

豆瓣示例2

示例3

python 豆瓣top250的更多相关文章

随机推荐

热门专题