python抓取猫眼电影列表

抓取地址：http://maoyan.com/board/4

分析url分页规则:http://maoyan.com/board/4?offset=0

其中offset参数值为0到90

用到的库:

PyQuery：html解析器,语法类似jquery

fake_useragent;用于伪造头部浏览器信息,防爬虫屏蔽
相关代码:

import requests

from requests.exceptions import RequestException

from pyquery import PyQuery as pq

from fake_useragent import UserAgent

from multiprocessing import Pool

import json

def gethtml(offset):

     try:

         ua = UserAgent()

        #防爬虫机制,加入头部信息

         headerinfo={

                    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",

                    "Accept-Encoding":"gzip, deflate",

                    "Accept - Language": "zh - CN, zh;q = 0.9",

                      "Cookie":"uuid=1A6E888B4A4B29B16FBA1299108DBE9CE735E380ECAF25EF34C1CC12335D50D6; _csrf=e8acf6c957d5647db54a08ec5ec00849f7c0ef59dffcfa41e04822d7d8c5a730; _lxsdk_cuid=162a8e9c82bc8-0047562353d544-5e163117-1fa400-162a8e9c82bc8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CE735E380ECAF25EF34C1CC12335D50D6; __mta=56065556.1523252316455.1523252362387.1523252369506.6; _lxsdk_s=162a8e9c82b-699-947-0cd%7C%7C14",

                       "Host": "maoyan.com",

                       "Proxy-Connection": "keep-alive",

                       "Upgrade-Insecure-Requests": "",

                        "User-Agent":ua.random

             }

         respsonse= requests.get("http://maoyan.com/board/4?offset="+str(offset), headers=headerinfo)

         if respsonse.status_code==200:

             return respsonse.text

         return None

     except RequestException as ex :

        print(ex)

     return None

def getContent(offset):

    result=gethtml(offset)

    p=pq(result)

    for item in p(".board-wrapper dd").items():

        print(item('.name').text())

        write_to_file({"title":item('.name').text(),

            "actor":item('.star').text()[3:],

            "releasetime":item('.releasetime').text()[5:],

            "score":item('.score').text()})

##写入到文件中

def write_to_file(content):

   with open('maoyan.txt','a',encoding='utf-8') as f:

       f.write(json.dumps(content,ensure_ascii=False)+"\n")

       f.close()

if __name__ == '__main__':

    #开启线程池，使用多线程抓取

      p=Pool()

      p.map(getContent,[i*10 for  i in range(0,10)])

python抓取猫眼电影列表的更多相关文章

Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...
Python Spider 抓取猫眼电影TOP100
""" 抓取猫眼电影TOP100 """ import re import time import requests from bs4 im ...
使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...
使用Request+正则抓取猫眼电影（常见问题）
目前使用Request+正则表达式,爬取猫眼电影top100的例子很多,就不再具体阐述过程! 完整代码github:https://github.com/connordb/Top-100 总结一下,容 ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
Python：python抓取豆瓣电影top250
一直对爬虫感兴趣,学了python后正好看到某篇关于爬取的文章,就心血来潮实战一把吧. 实现目标:抓取豆瓣电影top250,并输出到文件中 1.找到对应的url:https://movie.douba ...
python 爬取猫眼电影top100数据
最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取猫眼电影TOP100榜单数据 ...
Python抓取豆瓣电影top250!
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:404notfound 一直对爬虫感兴趣,学了python后正好看到 ...

随机推荐

Alpha冲刺第7天
Alpha第7天 1.团队成员郑西坤 031602542 (队长) 陈俊杰 031602504 陈顺兴 031602505 张胜男 031602540 廖钰萍 031602323 雷光游 03160 ...
FuelPHP 系列（一） ------ Oil 命令
之前用过 Laravel,框架自带的 artisan 命令,用得爽到爆.现在工作需要,要学习 FuelPHP,首先看到框架目录结构,有 coposer.json 框架可以用 composer 管理,一 ...
防止短时间js 重复执行
function debounce(fn, delay) { // 持久化一个定时器 timer let timer = null; // 闭包函数可以访问 timer return function ...
【Revit API】创建共享参数
话不多说,直接上代码 var app = doc.Application; app.SharedParametersFilename = sharedParamFilePath; Definition ...
[COGS 2551] 新型武器
图片加载可能有点慢,请跳过题面先看题解,谢谢这个题好多解法啊... 可以主席树,可以按深度将操作排序离线做我这里是动态开点线段树,对每一个深度种一棵线段树,下标是节点的\(dfs\)序然后这个做 ...
Path Sum II - LeetCode
目录题目链接注意点解法小结题目链接 Path Sum II - LeetCode 注意点不要访问空结点解法解法一:递归,DFS.每当DFS搜索到新节点时,都要保存该节点.而且每当找出一 ...
实战：使用SVN+apache搭建一个版本控制服务器
今天讲的内容: 实战:使用SVN+apache搭建一个版本控制服务器每天: 10:00 晚上:21:00 服务端:xuegod63.cn IP:192.168.10.63 服务概述: SVN(s ...
SQL Server 事务与隔离级别实例讲解
上班途中,你在一处ATM机前停了下来.正当你在敲入密码的时候,你的一位家人也正在镇上的另一处TAM机上输入密码.你打算从某个还有500元余额的账户上转出400元,而你的家人想从同一账户取走300元.倘 ...
Excel：一维表和二维表互转
一.一维表转二维表数据源: 一份流水账式的值班表,为了便于打印张贴,现在需要使其变成这样的样式: 也就是从一维表变成传说中的二维表. 1.新建查询依次单击[数据]→[新建查询] →[从文件]→[从 ...
Java基础-SSM之mybatis多对多关联
Java基础-SSM之mybatis多对多关联作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.准备测试环境(创建数据库表) 1>.创建teas,stus,links表 u ...

python抓取猫眼电影列表

python抓取猫眼电影列表的更多相关文章

随机推荐

热门专题