猫眼 top_100 爬取 ___只完成了第一页

# python 3.7

from urllib.request import Request,urlopen

import time,re,csv

class Maoyan(object):

    def __init__(self):

        self.header = {

        'Connection': 'keep - alive',

            'Cookie': 'uuid_n_v=v1; uuid=16B52300EED311E8A50EC9D5D894D382A1072CB6CA3D4BAA95D7EA39B1BB3637; _lxsdk_cuid=1673eb37e1fc8-011175d5446e19-424f0928-13c680-1673eb37e20c8; _lxsdk=16B52300EED311E8A50EC9D5D894D382A1072CB6CA3D4BAA95D7EA39B1BB3637; _csrf=6597fe121a59ff12f8bf1b793cb7d29274a118e066c86f8bf88b8e765b7d4dad; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; __mta=145127947.1542945209936.1542945209936.1542954826219.2; _lxsdk_s=1673f4639ac-357-82a-15d%7C%7C4',

            'Host': 'maoyan.com',

            'Referer': 'http://maoyan.com/board',

            'Upgrade - Insecure - Requests': 1,

            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'

        }

    def get_page(self,url):

        res = urlopen(Request(url =url,headers=self.header)).read()

        self.parsePage(res.decode())

    def parsePage(self,res):

        patten = 'data-val="{.*?}">(.*?)</a></p>\s+<p class="star">\s+(.*?)\s+</p>\s+<p class="releasetime">(.*?)</p>'

        a = re.findall(patten,res)

        self.write(a)

    def write(self,a):

        for i in a:

            with open('11.csv','a+',newline='',encoding='gbk') as f:

                a = csv.writer(f)

                a.writerow(list(i))

    def wordon(self):

        pass

if __name__ == '__main__':

    a = Maoyan()

    a.get_page('http://maoyan.com/board/4?offset=0')

猫眼 top_100 爬取 ___只完成了第一页的更多相关文章

python之如何爬取一篇小说的第一章内容
现在网上有很多小说网站,但其实,有一些小说网站是没有自己的资源的,那么这些资源是从哪里来的呢?当然是“偷取”别人的数据咯.现在的问题就是,该怎么去爬取别人的资源呢,这里便从简单的开始,爬取一篇小说的第 ...
猫眼电影爬取(二)：requests+beautifulsoup，并将数据存储到mysql数据库
上一篇通过requests+正则爬取了猫眼电影榜单,这次通过requests+beautifulsoup再爬取一次(其实这个网站更适合使用beautifulsoup库爬取) 1.先分析网页源码可以看 ...
猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库
前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括:电影排名.电影名称.上映时间.分数 2 ...
猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库
还是以猫眼电影为例,这次用pyquery库进行爬取 1.简单demo,看看如何使用pyquery提取信息,并将提取到的数据进行组合 # coding: utf-8 # author: hmk impo ...
通过python的urllib.request库来爬取一只猫
我们实验的网站很简单,就是一个关于猫的图片的网站:http://placekitten.com 代码如下: import urllib.request respond = urllib.request ...
正则爬取某段子网站前20页段子(request库)
首先还是谷歌浏览器抓包对该网站数据进行分析,结果如下: 该网站地址:http://www.budejie.com/text 该网站数据都是通过html页面进行展示,网站url默认为第一页,http:/ ...
爬取百度贴吧前1000页内容（requests库面向对象思想实现）
此程序以李毅吧为例子,以面向对象的设计思想实现爬取保存网页数据,暂时并未用到并发处理,以后有机会的话会加以改善首先去百度贴吧分析贴吧地址栏中url后的参数,找到分页对应的参数pn,贴吧名字对应的参数 ...
前端反爬虫策略--font-face 猫眼数据爬取
1 .font-face定义了字符集,通过unicode去印射展示. 2 .font-face加载网络字体,我么可以自己创建一套字体,然后自定义一套字符映射关系表例如设置0xefab是映射字符1, ...
Scrapy爬取遇到的一点点问题
学了大概一个月Scrapy,自己写了些东东,遇到很多问题,这几天心情也不大好,小媳妇人也不舒服,休假了,自己研究了很久,有些眉目了利用scrapy 框架爬取慕课网的一些信息步骤一:新建项目 scr ...

随机推荐

小程序实现fadeIn 渐变的效果
const winHeight = wx.getSystemInfoSync().windowHeight Page({ data: { logs: [] }, onLoad: function () ...
使用PHP实现命令模式（转）
<?php /** * 命令模式 2010-08-21 sz * @author phppan.p#gmail.com http://www.phppan.com * 哥学社成员(http:// ...
mysql使用truncate截断带有外键的表时报错--解决方案
报错内容如:1701 - Cannot truncate a table referenced in a foreign key constraint 一.为什么要使用truncate 使用trunc ...
maven执行过程中抛出的各类异常信息
价值各类异常信息分类举例 maven源代码的模块maven-core里的各类*Exception命名的class包含里,maven执行过程中打印的各类异常日志内容比如如下错误错误信息分别来自( ...
docker 删除不用的镜像
1.删除悬空的镜像 docker image prune -a -f 2.删除悬空的镜像 docker container prune -f 3.定时清空镜像和脚本 [root@VM_0_42_cen ...
Java面试 - 什么是单例设计模式，为什么要使用单例设计模式，如何实现单例设计模式(饿汉式和懒汉式)？
什么是单例设计模式? 单例设计模式就是一种控制实例化对象个数的设计模式. 为什么要使用单例设计模式? 使用单例设计模式可以节省内存空间,提高性能.因为很多情况下,有些类是不需要重复产生对象的. 如果重 ...
S3. Android 消息推送
[概要] 消息推送
zabbix 批量添加web场景监控
公司有大量测试环境的url需要监控是否能够访问,即url状态不为200即报警.状态为200即正常.因url比较多,且经常发生改变,如通过web场景配置(我没配过)会比较繁琐,工作量比较大.通过网上查找 ...
《Mysql 锁 - 概述》
一:锁类型(加锁范围区分类型) - MySQL里面的锁可以分为:全局锁.表级锁.行级锁. 二:全局锁 - 作用 - 对整个数据库实例加锁. - 加锁方式 - MySQL提供加全局读锁的方法:Flus ...
Html大段文本自适应换行显示-SSM
只处理前端: <style> .ctl{ table-layout:fixed } .ctl td{ word-break:break-all } </style> <d ...

猫眼 top_100 爬取 ___只完成了第一页

猫眼 top_100 爬取 ___只完成了第一页的更多相关文章

随机推荐

热门专题