Python进阶练习与爬取豆瓣T250的影片相关信息

（一）Python进阶练习

正所谓要将知识进行实践，才会真正的掌握

于是就练习了几道题：求素数，求奇数，求九九乘法表，字符串练习

import re

#求素数

i=1;

flag=0

while(i<=100):

    flag=0

    j=2;

    while(j<i):

        if(i%j==0):

            flag=1

            break;

        j=j+1

    if(flag==0):

        print(i,end=' ')

    i=i+1

#求奇数

for i in range(1,101):

    if(i%2==1):

        print(i,end=' ')

#字符串练习

str="你好$$$我正在学 Python@#@#现在需要&*&*&修改字符串"

k=str.replace('$$$','').replace('@#@#',' ').replace('&*&*&',' ')

print(k)

p=re.sub('[$@#&*]',' ',str)

print(p)

#九九乘法表

for i in range(1,10):

    for j in range(1,i+1):

        print("%d*%d=%d\t" %(j,i,i*j),end="")

    print("")

（二）爬取静态网页

这次我们练习的实战是爬取静态网页，豆瓣T250电影的名字

首先我们分析一页有25个电影，我们想要250个，进行下一页的时候他的链接地址变成“https://movie.douban.com/top250?start=25”同理每翻一页就会增加25.我们就可以对这250个数据进行爬取了

我们要获取的信息是：电影名字，导演与主演以及时间类型，豆瓣评分，多少人评价

将这些信息存入到txt里面

import requests

from bs4 import BeautifulSoup

def get_movie():

    url = 'https://movie.douban.com/top250'  #请求地址

    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}#创建头部信息

    movie_list=[]

    for i in range(0,10):

        url = 'https://movie.douban.com/top250?start='+str(i*25)

        response=requests.get(url,headers=headers)

        soup=BeautifulSoup(response.text,"html.parser")

        div_list = soup.find_all('div', class_='info')

        for each in div_list:

            title = each.find('div', class_="hd").span.text.strip()

            info = each.find('div', class_='bd').p.text.strip()

            info = info.replace('\\n', '').replace('\\xa0', '')

            info = ' '.join(info.split())

            star = each.find('span', class_='rating_num').text.strip()

            people = each.find('div', class_='star').contents[7].text.strip()

            movie_list.append([title, info, star, people])

    return movie_list

movie=[]

movie=get_movie()

with open("Top_movie_250.txt","a+",encoding="utf-8") as f:

    for i in range(len(movie)):

        f.write(str(movie[i]))

        f.write("\n")

    f.close()

txt展示：

日期	开始时间	结束时间	中断时间	净时间	活动
3/12	20：30	21：45	0	75	python练习与爬取T25的名字
3/12	22：00	22：30	5	25	爬取T250电影的名字，导演，评分等

总学习时长：100分钟，净代码行数：90行

Python进阶练习与爬取豆瓣T250的影片相关信息的更多相关文章

爬取豆瓣网图书TOP250的信息
爬取豆瓣网图书TOP250的信息,需要爬取的信息包括:书名.书本的链接.作者.出版社和出版时间.书本的价格.评分和评价,并把爬取到的数据存储到本地文件中. 参考网址:https://book.doub ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...
Python爬虫入门：爬取豆瓣电影TOP250
一个很简单的爬虫. 从这里学习的,解释的挺好的:https://xlzd.me/2015/12/16/python-crawler-03 分享写这个代码用到了的学习的链接: BeautifulSoup ...
基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
python实例：自动爬取豆瓣读书短评，分析短评内容
思路: 1.打开书本“更多”短评,复制链接 2.脚本分析链接,通过获取短评数,计算出页码数 3.通过页码数,循环爬取当页短评 4.短评写入到txt文本 5.读取txt文本,处理文本,输出出现频率最高的 ...
python爬虫+正则表达式实例爬取豆瓣Top250的图片
直接上全部代码新手上路代码风格可能不太好 import requests import re from fake_useragent import UserAgent #### 用来伪造爬头部信息 ...
python3爬取豆瓣排名前250电影信息
#!/usr/bin/env python # -*- coding: utf-8 -*- # @File : doubanmovie.py # @Author: Anthony.waa # @Dat ...
Python网络爬虫 - 爬取中证网银行相关信息
最终版:07_中证网(Plus -Pro).py # coding=utf-8 import requests from bs4 import BeautifulSoup import io impo ...
Python的scrapy之爬取豆瓣影评和排名
基于scrapy框架的爬影评爬虫主程序: import scrapy from ..items import DoubanmovieItem class MoviespiderSpider(scra ...

随机推荐

ACG记录整理
资料来源日文维基百科 bangumi番组计划中文维基百科百度百科豆瓣电影资料类型テレビアニメ‎ OVA‎ アニメ映画‎ Webアニメ‎ 内容说明番名,带超链接介绍,尽量选用国内网站介绍, ...
常用的SQL优化
转自:https://www.cnblogs.com/Cheney222/articles/5876382.html 一.优化 SQL 语句的一般步骤 1 通过 show status 命令了解各种 ...
蓝桥杯-2016CC-卡片换位
卡片换位你玩过华容道的游戏吗?这是个类似的,但更简单的游戏.看下面 3 x 2 的格子在其中放5张牌,其中A代表关羽,B代表张飞,* 代表士兵.还有一个格子是空着的. 你可以把一张牌移动到相邻的空 ...
DB2数据库多行一列转换成一行一列
在db2中遇到多行一列转为一行一列的需求时,用db2函数 LISTAGG可以实现该功能.语法如下: SELECT [分组的字段 ] , LISTAGG([需要聚合的字段名], ',') FRO ...
浅尝HTML5之canvas
转自:http://segmentfault.com/a/1190000000661407/ HTML5新标签 HTML5新引入header,footer,article,section,aside和 ...
inventor卸载/完美解决安装失败/如何彻底卸载清除干净inventor各种残留注册表和文件的方法
在卸载inventor重装inventor时发现安装失败,提示是已安装inventor或安装失败.这是因为上一次卸载inventor没有清理干净,系统会误认为已经安装inventor了.有的同学是新装 ...
windows下apache运行环境搭建
apache的安装要求: 1,不要安装到有中文的目录中: 2,尽量将apache,php,mysql安装到一个总的目录,便于管理.(如都建立在amp目录下,然后在该目录下分别建立apache,php ...
吴裕雄--天生自然python学习笔记：Python3 模块
Python3 模块在前面的几个章节中我们脚本上是用 python 解释器来编程,如果你从 Python 解释器退出再进入,那么你定义的所有的方法和变量就都消失了. 为此 Python 提供了一个办 ...
读书笔记之数字图像处理的MATLAB实现（第2版）
Ionic3学习笔记（十四）使用 videogular2 实现视频播放以及遇到的一些问题
本文为原创文章,转载请标明出处目录使用 videogular2 安装增加图标.字体支持导入 module 举个例子遇到的问题 iOS 端自动进入全屏播放 Android 端 autoplay ...

Python进阶练习与爬取豆瓣T250的影片相关信息

Python进阶练习与爬取豆瓣T250的影片相关信息的更多相关文章

随机推荐

热门专题