爬虫实战1：使用requests和正则爬取电影信息

代码如下

 # coding=utf-8

 import requests

 from requests.exceptions import RequestException

 import re

 import json

 from multiprocessing import Pool  #引入进程池

 def get_one_page(url):

     headers = {

         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '

                       'Chrome/65.0.3325.181 Safari/537.36'

     }

     try:

         response = requests.get(url, headers=headers)

         if response.status_code == 200:

             return response.text

         return None

     except RequestException:

         return None

 def parse_one_page(html):

     #得到排名，简报，标题，主演,上映时间，分数

     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a.*?>(.*?)</a>'

                          '.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'

                          '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)

     items = re.findall(pattern, html)

     #对输出内容进行格式化,将原先的元组格式转化为字典

     for item in items:

         yield {

             'index': item[0],

             'image': item[1],

             'title': item[2],

             'actor': item[3].strip()[3:],

             'time': item[4].strip()[5:],

             'score': item[5]+item[6]

         }

 #json.dumps方法将字典转变为字符串

 #encoding和下面的ascii如果不写的话resul.txt文件内容为乱码

 def write_to_file(content):

     with open('result.txt', 'a', encoding='utf-8') as f:

         f.write(json.dumps(content, ensure_ascii=False) + '\n')

         f.close()

 #offset用来表示不同页面

 def main(offset):

     url = 'http://maoyan.com/board/4?offset=' + str(offset)

     html = get_one_page(url)

     for item in parse_one_page(html):

         print(item)

         write_to_file(item)

 if __name__ == '__main__':

     '''

     抓取top100的影片信息的一般方法，i*10的原因是网址上每页offset是按10的倍数变化的

     for i in range(10):

         main(i*10)

 '''

     #使用进程池提高效率

     pool = Pool()

     pool.map(main, [i*10 for i in range(10)])

使用pyquery简单实现

from pyquery import PyQuery as pq

headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}


def write_to_file(content):
    with open('result.txt', 'a') as f:
        f.write(content)

def main(offset):

    url='http://maoyan.com/board/4?offset=' + str(offset)

    doc=pq(url, headers=headers)

    dd=doc('dd').text()

    for x in dd.split(" "):

        print(x)

        print('\n')
        write_to_file(x + '\n')

        """
        合些的话可以如下        
        c=''.join([x, '\n'])
        print(c)
        """
 

if __name__ == '__main__':

    for i in range(10):

        main(i*10)

爬虫实战1：使用requests和正则爬取电影信息的更多相关文章

爬虫系列(十) 用requests和xpath爬取豆瓣电影
这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 1.网页分析 (1)分析 URL 规律我们首先使用 Chrome 浏览器打开豆瓣电影 T ...
爬虫系列(十一) 用requests和xpath爬取豆瓣电影评论
这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 1.网页分析 (1)翻页我们还是使用 Chrome 浏览器打开豆瓣电影中某一部电影的评论进行分析 ...
Node.js 爬虫爬取电影信息
Node.js 爬虫爬取电影信息我的CSDN地址:https://blog.csdn.net/weixin_45580251/article/details/107669713 爬取的是1905电影 ...
python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）
相关代码已经修改调试成功----2017-4-13 详情代码请移步我的github:https://github.com/pujinxiao/sina_spider 一.说明 1.目标网址:新浪微博 ...
requests+lxml+xpath爬取电影天堂
1.导入相应的包 import requests from lxml import etree 2.原始ur url="https://www.dytt8.net/html/gndy/dyz ...
一个简单python爬虫的实现——爬取电影信息
最近在学习网络爬虫,完成了一个比较简单的python网络爬虫.首先为什么要用爬虫爬取信息呢,当然是因为要比人去收集更高效. 网络爬虫,可以理解为自动帮你在网络上收集数据的机器人. 网络爬虫简单可以大致 ...
python3爬虫-通过selenium登陆拉钩，爬取职位信息
from selenium import webdriver from selenium.common.exceptions import NoSuchElementException from se ...
爬虫实战【11】Python获取豆瓣热门电影信息
之前我们从猫眼获取过电影信息,而且利用分析ajax技术,获取过今日头条的街拍图片. 今天我们在豆瓣上获取一些热门电影的信息. 页面分析首先,我们先来看一下豆瓣里面选电影的页面,我们默认选择热门电影, ...
爬虫实例之使用requests和Beautifusoup爬取糗百热门用户信息
这次主要用requests库和Beautifusoup库来实现对糗百的热门帖子的用户信息的收集,由于糗百的反爬虫不是很严格,也不需要先登录才能获取数据,所以较简单. 思路,先请求首页的热门帖子获得用户 ...

随机推荐

理解ServletRequest和ServletResponse
博客地址:http://blog.51cto.com/lavasoft/275586
ASP.NET 网页动态添加客户端脚本
在System.Web.UI.Page类中包含了RegisterStarupScript()和RegisterClientScriptBlock()两个方法,使用这两个方法可以实现向Web页面动态添加 ...
使用twised实现一个EchoServer
ProtocolsProtocols描述了如何以异步的方式处理网络中断时间,HTTP.DNS已经IMAP是应用应用层协议中的例子,Protocols实现了IProtocol接口,它饱和如下的方法 ma ...
9-eclispe中右键BuildPath没有了
Eclipse 右上角的代码视图,选择Java就好了!
Windows c++程序的基本结构
Windows c++程序的基本结构 1.一个完整的Windows应用程序通常由五种类型的文件组成 C语言源程序文件头文件模块定义文件资源描述文件项目文件 2.Windows应用程序构成基本框 ...
这样的UX设计师简历，HR分分钟给你来电话
BLS调查显示,软件开发和IT,用户体验设计,产品经理和项目管理这三个职位在未来有非凡的发展前景.其中,用户体验设计师是目前最有需求的创意产业工作之一.10年里就业增长率高达22.1%,工作岗位数3, ...
HDU 3157 Crazy Circuits (有源汇上下界最小流)
题意:一个电路板,上面有N个接线柱(标号1~N) 还有两个电源接线柱 + - 然后是给出M个部件正负极的接线柱和最小电流,求一个可以让所有部件正常工作的总电流. 析:这是一个有源汇有上下界的 ...
FCLK、HCLK、PCLK
一,PLL S3C2440 CPU主频可达400MHz,开发板上的外接晶振为12M,通过时钟控制逻辑的PLL(phase locked loop,锁相环电路)来倍频这个系统时钟.2440有两个P ...
解决 sublime text 3 右键菜单栏出现多余的菜单项分隔符的问题
很早之前装了一个插件 JavaScript Completions,虽然还没有用过它的高级功能,但随着 sublime text 3 逐渐成为我主要的编程工具,最近发现在右键点击文件出现的菜单栏中,菜 ...
leancloud 云引擎
可以部署网站的云端,云代码的升级版.

爬虫实战1：使用requests和正则爬取电影信息

爬虫实战1：使用requests和正则爬取电影信息的更多相关文章

随机推荐

热门专题