使用Request+正则抓取猫眼电影（常见问题）

目前使用Request+正则表达式，爬取猫眼电影top100的例子很多，就不再具体阐述过程！

完整代码github：https://github.com/connordb/Top-100

总结一下，容易出错的问题有：

1.没有加请求头，导致输出没有具体信息！

headers={
    "User-Agent": "Mozilla / 5.0(Windows NT 6.1) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 67..3396.99 Safari / 537.36" 
}
2.正则出问题：

这个没有好的办法，只能写一点，然后打印输出，看看是否正确输出，常见的问题：另起一行要有+号；另起一行的时候头尾要有引号；
具体要抓取的内容要用（）；

pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?title="(.*?)".*?star">(.*?)</p>.*?setime">(.*?)</p>'
                   +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>',re.S)

3.写入文件出现问题：

在写入文件的时候，当你输入f.write(content)会报错，报错内容显示只能写入字符串格式，而不是字典格式，此时解决办法是写入

f.write(json.dumps(conten))

当你成功输出数据时，发现没有换行，此时加入换行符

f.write(json.dumps(conten)+'/n')

当你成功输出数据时，发现汉字没有显示出来，此时需要把with open('maoyan.txt','a')改为

with open('maoyan.txt','a'，encoding='utf-8'),

f.write(json.dumps(conten))改为f.write(json.dumps(conten，ensure_ascii=False))

数据输出保存成功！

接下来我们比较一下加多进程的好处：

#!/usr/bin/python

# -*- coding:<utf-8> -*-

import requests

import time

from requests.exceptions import RequestException

import re

import json

def get_one_page(url):

    try:

        headers={

            "User-Agent": "Mozilla / 5.0(Windows NT 6.1) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 67..3396.99 Safari / 537.36"

        }

        response=requests.get(url,headers=headers)

        if response.status_code==200:

            return response.text

        return None

    except RequestException:

        return None

def parse_one_page(html):

    pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?title="(.*?)".*?star">(.*?)</p>.*?setime">(.*?)</p>'

                       +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>',re.S)

    items=re.findall(pattern,html)

    #print(items)

    for item in items:

        yield{

            'index':item[0],

            'name':item[1],

            'actor':item[2].strip()[3:],

            'date':item[3].strip()[5:],

            'grade':item[4]+item[5]

        }

def write_to_file(content):

    with open('maoyan1.txt','a',encoding='utf-8') as f:

        f.write(json.dumps(content,ensure_ascii=False)+'\n')

        f.close

def main(offset):

    url='http://maoyan.com/board/4?offset='+str(offset)

    html=get_one_page(url)

    parse_one_page(html)

    for item in parse_one_page(html):

        print(item)

        write_to_file(item)

    #print(html)

if __name__ == '__main__':

    start=time.time()

    for i in range(10):

        main(i*10)

    end=time.time()

    print('运行时间：',end-start)

　输出结果为：运行时间： 1.7671008110046387

当加入多进程以后：

#!/usr/bin/python

# -*- coding:<utf-8> -*-

import requests

import time

from requests.exceptions import RequestException

import re

import json

from multiprocessing import Pool

def get_one_page(url):

    try:

        headers={

            "User-Agent": "Mozilla / 5.0(Windows NT 6.1) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 67..3396.99 Safari / 537.36"

        }

        response=requests.get(url,headers=headers)

        if response.status_code==200:

            return response.text

        return None

    except RequestException:

        return None

def parse_one_page(html):

    pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?title="(.*?)".*?star">(.*?)</p>.*?setime">(.*?)</p>'

                       +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>',re.S)

    items=re.findall(pattern,html)

    #print(items)

    for item in items:

        yield{

            'index':item[0],

            'name':item[1],

            'actor':item[2].strip()[3:],

            'date':item[3].strip()[5:],

            'grade':item[4]+item[5]

        }

def write_to_file(content):

    with open('maoyan1.txt','a',encoding='utf-8') as f:

        f.write(json.dumps(content,ensure_ascii=False)+'\n')

        f.close

def main(offset):

    url='http://maoyan.com/board/4?offset='+str(offset)

    html=get_one_page(url)

    parse_one_page(html)

    for item in parse_one_page(html):

        print(item)

        write_to_file(item)

    #print(html)

if __name__ == '__main__':

    start=time.time()

    # for i in range(10):

    #     main(i*10)

    pool=Pool()

    pool.map(main,[i*10 for i in range(10)])

    end=time.time()

    print('运行时间：',end-start)

    #main()

此时输出结果：运行时间： 1.0980627536773682

所以：

不加多进程运行时间： 1.7671008110046387，加多进程运行时间：1.0980627536773682

因此加了进程池以后，大大提高了代码运行速度！

使用Request+正则抓取猫眼电影（常见问题）的更多相关文章

Python爬虫【三】利用requests和正则抓取猫眼电影网上排名前100的电影
#利用requests和正则抓取猫眼电影网上排名前100的电影 import requests from requests.exceptions import RequestException imp ...
(python3爬虫实战-第一篇）利用requests+正则抓取猫眼电影热映口碑榜
今天是个值得纪念了日子,我终于在博客园上发表自己的第一篇博文了.作为一名刚刚开始学习python网络爬虫的爱好者,后期本人会定期发布自己学习过程中的经验与心得,希望各位技术大佬批评指正.以下是我自己做 ...
Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
requests+正则表达式抓取猫眼电影top100 一.首先我们先分析下网页结构可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推. 二.< ...
Python Spider 抓取猫眼电影TOP100
""" 抓取猫眼电影TOP100 """ import re import time import requests from bs4 im ...
爬虫基本库request使用—爬取猫眼电影信息
使用request库和正则表达式爬取猫眼电影信息. 1.爬取目标猫眼电影TOP100的电影名称,时间,评分,等信息,将结果以文件存储. 2.准备工作安装request库. 3.代码实现 impor ...
利用request和re抓取猫眼电影排行
import requests import re import time def get_one_page(url): headers = { 'User-Agent': 'Mozilla/5.0 ...
python抓取猫眼电影列表
抓取地址:http://maoyan.com/board/4 分析url分页规则:http://maoyan.com/board/4?offset=0 其中offset参数值为0到90 用到的库: P ...
抓取猫眼电影top100的正则、bs4、pyquery、xpath实现方法
import requests import re import json import time from bs4 import BeautifulSoup from pyquery import ...
requests+正则爬取猫眼电影前100
最近复习功课,日常码农生活. import requests from requests.exceptions import RequestException import re import jso ...

随机推荐

自动化测试基础篇--Selenium文件上传send_keys
摘自https://www.cnblogs.com/sanzangTst/p/8358165.html 文件上传是web页面上很常见的一个功能,自动化成功中操作起来却不是那么简单. 一般分两个场景:一 ...
python第一百一十天--Django 5
#####################################中间件################################################ settings.py ...
monkey_recorder录制monkeyrunner脚本
转载:monkey_recorder录制monkeyrunner脚本 1. 你必须有android sdk, sdk的tools文件家里有一个monkeyrunner.bat.2. 将如下内容拷贝 ...
【转】10条你不可不知的css规则
10条你不可不知的css规则 Posted on 2006-12-20 10:33 雨中太阳阅读(343) 评论(1) 编辑收藏 :[译]10条你不可不知的css规则正文: Published D ...
Vue技巧小结（持续更新）
1. 动态生成的input自动focus 背景: input元素在需要时才插入DOM,这时元素用autofocus属性第一次是可以获取焦点,但是如果有第二个,就不再生效,所以得另外的办法. 方法: / ...
Windows10反安装报错error code 2502 2503
先找系统TEMP目录,一般为C:\windows\temp,打开这个目录的权限,为这个目录中的User用户添加权限为完全控制,现在再反安装就不会报错了. 注:原因就是因为系统运行时需要用到临时文件的目 ...
C - 继续畅通工程最小生成树
省政府“畅通工程”的目标是使全省任何两个村庄间都可以实现公路交通(但不一定有直接的公路相连,只要能间接通过公路可达即可).现得到城镇道路统计表,表中列出了任意两城镇间修建道路的费用,以及该道路是否已经 ...
【HNOI2016】最小公倍数
[HNOI2016]最小公倍数容易想到先将所有边按\(a\)排序,然后处理\(b\).(然后我就不会了我们按\(a\)的权值分块,处理\(a\)权值位于第\(k\)个块的询问的时候,我们先将询问按 ...
前端导出excel表
前端导出excel表方式一: 前端js实现 : https://www.cnblogs.com/zhangym118/p/6235801.html 方式二: java后端实现: https://bl ...
Error: client: etcd cluster is unavailable or misconfigured; error #0: dial tcp 127.0.0.1:4001: getsockopt: connection refused
配置docker网络flannel时,配置etcd的key的时候出现以下错误 Error: client: etcd cluster is unavailable or misconfigured; ...

使用Request+正则抓取猫眼电影（常见问题）

使用Request+正则抓取猫眼电影（常见问题）的更多相关文章

随机推荐

热门专题