Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）

 # encoding:utf-8

 from requests.exceptions import RequestException

 import requests

 import re

 import json

 from multiprocessing import Pool

 def get_one_page(url):

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         return None

 def parse_one_page(html):

     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                          +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                           +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)

     items = re.findall(pattern, html)

     # print(items)

     for item in items:

         yield {

             'index': item[0],

             'image': item[1],

             'title': item[2],

             'actor': item[3].strip()[3:],

             'time': item[4].strip()[5:],

             'score': item[5]+item[6]

         }

 def write_to_file(content):

     with open('MaoyanTop100.txt', 'a', encoding='utf-8') as f:

         f.write(json.dumps(content, ensure_ascii=False)+'\n')

         f.close()

 def main(offset):

     url = "http://maoyan.com/board/4?offset="+str(offset)

     html = get_one_page(url)

     # print(html)

     # parse_one_page(html)

     for item in parse_one_page(html):

         print(item)

         write_to_file(item)

 if __name__ == '__main__':

     pool = Pool()

     # for i in range(10):

     #     main(i*10)

     # 加快效率

     pool.map(main, [i*10 for i in range(10)])

效果图：

更新（获取封面以及影片简介）：

 # encoding:utf-8

 from requests.exceptions import RequestException

 import requests

 import json

 import re

 from urllib import request

 from bs4 import BeautifulSoup

 def get_one_page(url):

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         return None

 def parse_one_page(html):

     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?href="(.*?)".*?data-src="(.*?)".*?name"><a'

                          +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                           +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)

     items = re.findall(pattern, html)

     # print(items)

     for item in items:

         yield {

             'index': item[0],

             'jump': item[1],

             'image': item[2],

             'title': item[3],

             'actor': item[4].strip()[3:],

             'time': item[5].strip()[5:],

             'score': item[6]+item[7]

         }

 def parse_summary_page(url):

     # url = 'https://maoyan.com/films/1203'

     head = {}

     # 使用代理

     head['User - Agent'] = 'User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'

     req = request.Request(url, headers=head)

     response = request.urlopen(req)

     html = response.read()

     # 创建request对象

     soup = BeautifulSoup(html, 'lxml')

     # 找出div中的内容

     soup_text = soup.find('span', class_='dra')

     # 输出其中的文本

     # print(soup_text.text)

     return soup_text

 def write_to_file(content):

     with open('newMaoyanTop100.txt', 'a', encoding='utf-8') as f:

         f.write(json.dumps(content, ensure_ascii=False)+'\n')

         f.close()

 def main(offset):

     url = "http://maoyan.com/board/4?offset="+str(offset*10)

     html = get_one_page(url)

     for item in parse_one_page(html):

         # print(item['number'])

         # print(item['jump'])

         jump_url = "https://maoyan.com"+str(item['jump'])

         item['summary'] = str(parse_summary_page(jump_url)).replace("<span class=\"dra\">","").replace("</span>","")

         print(item)

         write_to_file(item)

     # 写txt

     # for item in parse_one_page(html):

     #     write_to_file(item['title'])

     # 爬取100张图片

     # path = 'E:\\myCode\\py_test\\MaoyanTop100\\images\\'

     # for item in parse_one_page(html):

     #     urllib.request.urlretrieve(item['image'], '{}{}.jpg'.format(path, item['index']))

 if __name__ == '__main__':

     for i in range(10):

         main(i)

Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）的更多相关文章

requests和正则表达式爬取猫眼电影Top100练习
1 import requests 2 import re 3 from multiprocessing import Pool 4 from requests.exceptions import R ...
python3.6 利用requests和正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException from multiprocessing import Pool im ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
爬虫练习之正则表达式爬取猫眼电影Top100
#猫眼电影Top100import requests,re,timedef get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Window ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
python爬虫从入门到放弃（九）之 Requests+正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException import re import json from multipro ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...

随机推荐

find 命令查找
find 查找文件和目录 find /home -name "" find 后接查找的目录,-name 后指定需要查找的文件名文件名可以用*表示所有find /home -nam ...
20170720 Celery 异步任务处理到Sql Server 发生死锁
-- 1. 异常提示情况如下: 需要解决为什么引起死锁 -- 叹气原因: 在使用Celery 启用了配置参数 CELERYD_CONCURRENCY = 10 表示开了10块线程池. 有好处, ...
strncat、strcat
strncat函数 2007年03月15日 20:32:00 阅读数:13676 函数原型:extern char *strncat(char *dest,char *src,int n) 参数说明: ...
SaltStack 数据系统 Grains Pillar
grains 先来一个很好用的命令 # salt '*' grains.items \\基本上输出了所有你想要的信息 192.168.100.138: ---------- SSDs: biosrel ...
nodejs 网上下载图片到本地，并判断图片路径是否存在
var http = require("http"); var fs = require("fs"); var server = http.createServ ...
数据库页已标记为 RestorePending，可能表明磁盘已损坏。要从此状态恢复，请执行还原操作。
错误提示: 消息 829,级别 21,状态 1,第 1 行数据库 ID 15,页 (1:21826) 已标记为 RestorePending,可能表明磁盘已损坏.要从此状态恢复,请执行还原操作. 引 ...
Hybrid设计--离线更新
首先server端和前端做一个增量发布系统 ,1.就是把一个增量包发布到一个版本的Native上去,让他做更新.2.后台对这个增量包的到达率或者成功的更新做一个统计.这是比较复杂的. 离线更新的机制: ...
How to compile and install Snort from source code on Ubuntu
http://www.tuicool.com/articles/v6j2Ab Snort is by far the most popular open-source network intrusio ...
JAVA编程思想学习笔记5-chap13-15-斗之气5段
1.String对象不可变,一旦发生字符变换或者变长度,一定是新建了一个String private final char value[]; 2.字符串+与+=:唯二操作符重载 "aaa&q ...
字符串ASCII码排序
在对接第三方支付渠道的时候,第三方会要求参数按照ASCII码从小到大排序. 如下是渠道方有关生成签名规则的java代码示例: //初始化0010merkey.private文件: String mer ...

Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）

Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）的更多相关文章

随机推荐

热门专题