requests+正则表达式提取猫眼电影top100

 #requests+正则表达式提取猫眼电影top100

 import requests

 import re

 import json

 from requests.exceptions import RequestException

 from multiprocessing import Pool

 def get_one_page(url):

     headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER'}

     try:

         response = requests.get(url,headers = headers)

         if response.status_code == 200:

             return response.text

         else:

             return None

     except RequestException:

         return None

 def parse_one_page(html):

     pattern = re.compile(r'<dd>.*?board-index.*?">(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)

     results = re.findall(pattern,html)#这一步生成的其实是由元组组成的列表，列表的每一个元素是元组，元组则有前面正则表达式提取的电影名称，地址，演员名，上映时间，排序，评分等，这个列表怎么用，是一个很重要的问题

     for result in results:

         yield{

             'index':result[0],

             'add':result[1],

             'title':result[2],

             'actor':result[3].strip(),

             'time':result[4].strip(),

             'score':result[5]+result[6]

         }#生成器，返回一个个由键值对组成的字典

 def save_one_page(content):

     with open('D://result.txt','a',encoding='utf-8') as f:#当重新打开的时候，由于文件是gbk编码的，默认用gbk去打开，而此时打开的是unicode，所以无法打开，解决的方法是改变目标文件的编码

         f.write(json.dumps(content,ensure_ascii=False)+'\n')#这里表示用中文写入，即gbk，回到上一步

         '''如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如xml，但更好的方法是序列化为json，因为，json表现出来就是一个字符串，可以被所有语言读取，

         也可以方便地存储到磁盘或者通过网络传输，json不仅是标准格式，并且比xml还快，而且可以在web页面中读取，非常方便。

         将Python对象序列化为json用json.dumps(obj),意为把对象倾倒进入json

         将json转换成python用json.loads(obj)意为把json对象加载出来'''

 def main():

     for i in range(10):

         url = 'http://maoyan.com/board/4'+'?offset='+str(i*10)

         html = get_one_page(url)

         results = parse_one_page(html)

         for item in results:

             print(item)

             save_one_page(item)

 if __name__=='__main__':

     main()

 #多进程版

 import requests

 import re

 import json

 from requests.exceptions import RequestException

 from multiprocessing import Pool

 def get_one_page(url):

     headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER'}

     try:

         response = requests.get(url,headers = headers)

         if response.status_code == 200:

             return response.text

         else:

             return None

     except RequestException:

         return None

 def parse_one_page(html):

     pattern = re.compile(r'<dd>.*?board-index.*?">(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S)

     results = re.findall(pattern,html)#这一步生成的其实是由元组组成的列表，列表的每一个元素是元组，元组则有前面正则表达式提取的电影名称，地址，演员名，上映时间，排序，评分等，这个列表怎么用，是一个很重要的问题

     for result in results:

         yield{

             'index':result[0],

             'add':result[1],

             'title':result[2],

             'actor':result[3].strip(),

             'time':result[4].strip(),

             'score':result[5]+result[6]

         }#生成器，返回一个个由键值对组成的字典

 def save_one_page(content):

     with open('D://result.txt','a',encoding='utf-8') as f:#当重新打开的时候，由于文件是gbk编码的，默认用gbk去打开，而此时打开的是unicode，所以无法打开，解决的方法是改变目标文件的编码

         f.write(json.dumps(content,ensure_ascii=False)+'\n')#这里表示用中文写入，即gbk，回到上一步

         '''如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，比如xml，但更好的方法是序列化为json，因为，json表现出来就是一个字符串，可以被所有语言读取，

         也可以方便地存储到磁盘或者通过网络传输，json不仅是标准格式，并且比xml还快，而且可以在web页面中读取，非常方便。

         将Python对象序列化为json用json.dumps(obj),意为把对象倾倒进入json

         将json转换成python用json.loads(obj)意为把json对象加载出来'''

 def main(pagenum):

     url = 'http://maoyan.com/board/4?offset='+str(pagenum)

     html = get_one_page(url)

     results = parse_one_page(html)

     for item in results:

         print(item)

         save_one_page(item)

 if __name__=='__main__':

     pool = Pool()

     pool.map(main,[x*10 for x in range(10)])

requests+正则表达式提取猫眼电影top100的更多相关文章

1.requests+正则表达式爬猫眼电影TOP100
import requests from requests.exceptions import RequestException def get_one_page(url):try: response ...
requests + 正则表达式获取 ‘猫眼电影top100’。
使用进程池Pool 提高爬取数据的速度. 1 # !/usr/bin/python 2 # -*- coding:utf-8 -*- 3 import requests 4 from request ...
使用requests爬取猫眼电影TOP100榜单
Requests是一个很方便的python网络编程库,用官方的话是"非转基因,可以安全食用".里面封装了很多的方法,避免了urllib/urllib2的繁琐. 这一节使用reque ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
用requests库爬取猫眼电影Top100
这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...
爬虫练习之正则表达式爬取猫眼电影Top100
#猫眼电影Top100import requests,re,timedef get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Window ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
【爬虫综合作业】猫眼电影TOP100分析
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075 一.爬虫对象猫眼电影TOP100排行榜二.代码如下 im ...

随机推荐

Java中常见的数据结构
---恢复内容开始--- 常用的有四种: 堆栈结构: 算法第一站应用场景:括号匹配,算式计算, 队列结构: 常用于排队购物应用场景:排队购物,打印机任务调度. 数组结构: 查找快(利用下标,指哪打 ...
vue技术解析二之组件通信
--------------------------动画效果----------------------------------- <transition name="router-f ...
【Docker】 Swarm简单介绍
[Swarm] Swarm是Docker官方提供的一款集群管理工具,其主要作用是把若干台Docker主机抽象为一个整体,并且通过一个入口统一管理这些Docker主机上的各种Docker资源.Swarm ...
Nginx目录浏览功能
要给其他人提供一个patch的下载地址,于是想用nginx的目录浏览功能来做,需要让其他人看到指定一个目录下的文件列表,然后让他自己来选择该下载那个文件:效果如图. 实现步骤:在虚拟主机配置文件里面开 ...
RabbitMQ 通信过程
Rabbit MQ的通信过程 MQ全称为Message Queue, 是一种分布式应用程序的的通信方法,是消费-生产者模型的典型的代表,producer往消息队列中不断写入消息,而另一端consume ...
记一次sqoop同步到mysql
工作中需要用到将hive的数据导一份到mysql中,需求是这样的:hive每天会产生一份用户标签(tag)发生变化的结果表user_tag,这份结果同步到mysql中,并且保持一份全量表,存储当前用户 ...
dom4j 最常用最简单的用法（转）
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforg ...
打印十字图 JAVA 递归实现
这个是我自己想的,头疼了一个下午,不过还好.做出来了.在网上找这道题但没有找到用递归的做法. /*递归思想实现 * 标题:打印十字图小明为某机构设计了一个十字型的徽标(并非红十字会啊),如下所示(可 ...
gitignore忽略规则
我们用git提交本地代码时,有些文件或日志是不需要提交的,这个时候可以用.gitignore来解决这个问题: 首先,我们需要创建一个.gitignore文件,用命令输入 touch .gitignor ...
用python实现简单购物车功能
all_asset = 0 i1 = input("请输入总资产:") all_asset = int(i1) goods = [ {'name':'电脑','price':199 ...

requests+正则表达式提取猫眼电影top100

requests+正则表达式提取猫眼电影top100的更多相关文章

随机推荐

热门专题