Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）

 # encoding:utf-8

 from requests.exceptions import RequestException

 import requests

 import re

 import json

 from multiprocessing import Pool

 def get_one_page(url):

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         return None

 def parse_one_page(html):

     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'

                          +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                           +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)

     items = re.findall(pattern, html)

     # print(items)

     for item in items:

         yield {

             'index': item[0],

             'image': item[1],

             'title': item[2],

             'actor': item[3].strip()[3:],

             'time': item[4].strip()[5:],

             'score': item[5]+item[6]

         }

 def write_to_file(content):

     with open('MaoyanTop100.txt', 'a', encoding='utf-8') as f:

         f.write(json.dumps(content, ensure_ascii=False)+'\n')

         f.close()

 def main(offset):

     url = "http://maoyan.com/board/4?offset="+str(offset)

     html = get_one_page(url)

     # print(html)

     # parse_one_page(html)

     for item in parse_one_page(html):

         print(item)

         write_to_file(item)

 if __name__ == '__main__':

     pool = Pool()

     # for i in range(10):

     #     main(i*10)

     # 加快效率

     pool.map(main, [i*10 for i in range(10)])

效果图：

更新（获取封面以及影片简介）：

 # encoding:utf-8

 from requests.exceptions import RequestException

 import requests

 import json

 import re

 from urllib import request

 from bs4 import BeautifulSoup

 def get_one_page(url):

     try:

         response = requests.get(url)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         return None

 def parse_one_page(html):

     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?href="(.*?)".*?data-src="(.*?)".*?name"><a'

                          +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                           +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)

     items = re.findall(pattern, html)

     # print(items)

     for item in items:

         yield {

             'index': item[0],

             'jump': item[1],

             'image': item[2],

             'title': item[3],

             'actor': item[4].strip()[3:],

             'time': item[5].strip()[5:],

             'score': item[6]+item[7]

         }

 def parse_summary_page(url):

     # url = 'https://maoyan.com/films/1203'

     head = {}

     # 使用代理

     head['User - Agent'] = 'User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6788.400 QQBrowser/10.3.2843.400'

     req = request.Request(url, headers=head)

     response = request.urlopen(req)

     html = response.read()

     # 创建request对象

     soup = BeautifulSoup(html, 'lxml')

     # 找出div中的内容

     soup_text = soup.find('span', class_='dra')

     # 输出其中的文本

     # print(soup_text.text)

     return soup_text

 def write_to_file(content):

     with open('newMaoyanTop100.txt', 'a', encoding='utf-8') as f:

         f.write(json.dumps(content, ensure_ascii=False)+'\n')

         f.close()

 def main(offset):

     url = "http://maoyan.com/board/4?offset="+str(offset*10)

     html = get_one_page(url)

     for item in parse_one_page(html):

         # print(item['number'])

         # print(item['jump'])

         jump_url = "https://maoyan.com"+str(item['jump'])

         item['summary'] = str(parse_summary_page(jump_url)).replace("<span class=\"dra\">","").replace("</span>","")

         print(item)

         write_to_file(item)

     # 写txt

     # for item in parse_one_page(html):

     #     write_to_file(item['title'])

     # 爬取100张图片

     # path = 'E:\\myCode\\py_test\\MaoyanTop100\\images\\'

     # for item in parse_one_page(html):

     #     urllib.request.urlretrieve(item['image'], '{}{}.jpg'.format(path, item['index']))

 if __name__ == '__main__':

     for i in range(10):

         main(i)

Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）的更多相关文章

requests和正则表达式爬取猫眼电影Top100练习
1 import requests 2 import re 3 from multiprocessing import Pool 4 from requests.exceptions import R ...
python3.6 利用requests和正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException from multiprocessing import Pool im ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
爬虫练习之正则表达式爬取猫眼电影Top100
#猫眼电影Top100import requests,re,timedef get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Window ...
Requests+正则表达式爬取猫眼电影(TOP100榜)
猫眼电影网址:www.maoyan.com 前言:网上一些大神已经对猫眼电影进行过爬取,所用的方法也是各有其优,最终目的是把影片排名.图片.名称.主要演员.上映时间与评分提取出来并保存到文件或者数据库 ...
Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100
import requests from requests.exceptions import RequestException import re import json # from multip ...
python爬虫从入门到放弃（九）之 Requests+正则表达式爬取猫眼电影TOP100
import requests from requests.exceptions import RequestException import re import json from multipro ...
整理requests和正则表达式爬取猫眼Top100中遇到的问题及解决方案
最近看崔庆才老师的爬虫课程,第一个实战课程是requests和正则表达式爬取猫眼电影Top100榜单.虽然理解崔老师每一步代码的实现过程,但自己敲代码的时候还是遇到了不少问题: 问题1:获取respo ...
14-Requests+正则表达式爬取猫眼电影
'''Requests+正则表达式爬取猫眼电影TOP100''''''流程框架:抓去单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果.正则表达式分析:根据HTML代码分析 ...

随机推荐

MySQL的并行复制多线程复制MTS(Multi-Threaded Slaves)
MySQL的并行复制多线程复制MTS(Multi-Threaded Slaves) http://www.tuicool.com/articles/m2Unmeq 姜承饶简称MTS:基于binlog ...
vue-自定义pc端键盘-动画
<template> <div class="keyboard"> <div class="keyboard_key"> & ...
Observer（__ob__: Observer）对象添加属性
重点通过这句话给对象添加属性: this.$set(r,'upshow',false); 在data中定义laws来装从接口中请求到数据 data(){ return{ laws:[],//法律依据 ...
Python第三弹--------文件和异常
文件读取: pi_digits.txt 3.1415926535 8979323846 2643383279 file_reader.py with open('pi_digits.txt') ...
[LeetCode] 110. Balanced Binary Tree_Easy tag: DFS
Given a binary tree, determine if it is height-balanced. For this problem, a height-balanced binary ...
Hadoop2.6的DataNode启动不了
2016-05-04 18:14:51,990 INFO org.apache.hadoop.ipc.Server: IPC Server Responder: starting 2016-05-04 ...
MySQL--3约束和修改数据表总结
python开源数据库gadfly安装排除错误
从sourceforge.net上下载的,结果需要仔细看网页才能找到下载地址.下载zip包,它没有把下载地址放在显眼的地方. 安照提示,python setup.py结果提示出错.看帮助文件,需要运行 ...
iOS 开发笔记-控制器翻页
找了一天,终于找到了两个能用的. 1.https://github.com/wangmchn/WMPageController 2.https://github.com/everettjf/EVTTa ...
FZU 1683 纪念SlingShot(矩阵水)
纪念SlingShot [题目链接]纪念SlingShot [题目类型]矩阵水 &题解: 这代码调了十多分钟,结果是Mul没返回值,好zz啊. 令sum(n)=sum(n-1)+f(n) 那么 ...

Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）

Requests+BeautifulSoup+正则表达式爬取猫眼电影Top100（名称，演员，评分，封面，上映时间，简介）的更多相关文章

随机推荐

热门专题