爬虫基本库request使用—爬取猫眼电影信息

　　使用request库和正则表达式爬取猫眼电影信息。

1.爬取目标

　　猫眼电影TOP100的电影名称，时间，评分，等信息，将结果以文件存储。

2.准备工作

　　安装request库。

3.代码实现

 import json

 import requests

 from requests.exceptions import RequestException

 import re

 import time

 def get_one_page(url):

     try:

         headers = {

             'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'

         }

         response = requests.get(url, headers=headers)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         return None

 def parse_one_page(html):

     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                          + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                          + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

     items = re.findall(pattern, html)

     for item in items:

         yield {

             'index': item[0],

             'image': item[1],

             'title': item[2],

             'actor': item[3].strip()[3:],

             'time': item[4].strip()[5:],

             'score': item[5] + item[6]

         }

 def write_to_file(content):

     with open('result.txt', 'a', encoding='utf-8') as f:

         f.write(json.dumps(content, ensure_ascii=False) + '\n')

 def main(offset):

     url = 'http://maoyan.com/board/4?offset=' + str(offset)

     html = get_one_page(url)

     for item in parse_one_page(html):

         print(item)

         write_to_file(item)

 if __name__ == '__main__':

     for i in range(10):

         main(offset=i * 10)

         time.sleep(2)

爬虫基本库request使用—爬取猫眼电影信息的更多相关文章

Python3爬取猫眼电影信息
Python3爬取猫眼电影信息 import json import requests from requests.exceptions import RequestException import ...
python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜
本次主要爬取Top100电影榜单的电影名.主演和上映时间, 同时保存为excel表个形式, 其他相似榜单也都可以依葫芦画瓢首先打开要爬取的网址https://maoyan.com/board/4, ...
利用正则+requests爬取猫眼电影信息
import json # from multiprocessing import Pool import requests from requests.exceptions import Reque ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
爬虫（七）：爬取猫眼电影top100
一:分析网站目标站和目标数据目标地址:http://maoyan.com/board/4?offset=20目标数据:目标地址页面的电影列表,包括电影名,电影图片,主演,上映日期以及评分. 二:上代 ...
python应用-爬取猫眼电影top100
import requests import re import json import time from requests.exceptions import RequestException d ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...

随机推荐

广义高斯分布(GGD)和非对称广义高斯分布(AGGD)
<No-Reference Image Quality Assessment in the Spatial Domain>,BRISQUE. 1. 广义高斯分布,generalized G ...
Ubuntu下caffe：用自己的图片训练并测试AlexNet模型
参考博客:https://blog.csdn.net/eereere/article/details/79118645#commentBox 目录 1.准备图片 2. 将图片路径写入txt 参考这 ...
使用idea断点调试时出现no executable code found at line问题
问题描述今天突然碰到了这样的一个问题: 使用断点调试时,断点的地方出现了一个叉号,而不是对勾,这就让我非常无奈了. 调了一天,终于把这个问题解决了,还是要记录一下的. 问题情况如下: 除了这里,de ...
用户使用API函数对创建的文件进行读写操作
HANDLE handle; //定义文件句柄 ]; //定义缓冲区 int i; //接收实际操作的字节数 CString str; //定义字符串变量 handle = ::CreateFile( ...
vue form 验证
vue 验证 <Form :model="formModel" label-position="center" :label-width="90 ...
干货 | 京东云Kubernetes集群+Traefik实战
摘要 Traefik支持丰富的annotations配置,可配置众多出色的特性,例如:自动熔断.负载均衡策略.黑名单.白名单.所以Traefik对于微服务来说简直就是一神器. 利用Traefik,并结 ...
吴裕雄--天生自然MySQL学习笔记：MySQL 删除数据库
使用普通用户登陆 MySQL 服务器,可能需要特定的权限来创建或者删除 MySQL 数据库,所以使用 root 用户登录,root 用户拥有最高权限. 在删除数据库过程中,务必要十分谨慎,因为在执行删 ...
Linux中Tomcat 自动设置CATALINA_HOME方法
Linux中Tomcat 自动设置CATALINA_HOME方法在服务器部署中,我们经常会出现“在一个服务器上运行多个tomcat服务”的情况. 使用如下方法设置,可以无限复制平移扩展Tomcat, ...
ASP.NET ZERO 学习导航菜单
定义PageNames和PermissionName PageNames : Web/App_Start/Navigation/PageNames.cs public const string Das ...
LeetCode——324. 摆动排序 II
给定一个无序的数组 nums,将它重新排列成 nums[0] < nums[1] > nums[2] < nums[3]... 的顺序. 示例 1: 输入: nums = [1, 5 ...

爬虫基本库request使用—爬取猫眼电影信息

1.爬取目标

2.准备工作

3.代码实现

爬虫基本库request使用—爬取猫眼电影信息的更多相关文章

随机推荐

热门专题