爬虫_豆瓣电影top250 （正则表达式）

一样的套路，就是多线程还没弄

 import requests

 import re

 import json

 headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'

 def get_one_page(url):

     try:

         html = requests.get(url, headers={'User-Agent':'headers'})

         if html.status_code == 200:

             return html.text

         return None

     except RequestsException:

         return None

 def write_txt(content):

     with open('result.txt', 'a', encoding='utf-8') as f:

         f.write(json.dumps(content, ensure_ascii=False) + '\n')

         f.close

 def parse_one_page(html):

     # <em class="">(\d+)</em>

     # .*?href="(.*?)/">.*?

     # other">(\w+)</span

     match = re.compile('.*?<em class="">(.*?)</em>.*?href="(.*?)/">.*?"title">(.*?)</span.*?other">(.*?)</span', re.S)

     results = re.findall(match, html)

     for item in results:

         yield{

             'range': item[0],

             'movie_main_page': item[1],

             'movie_title': item[2],

             'other_name': item[3].strip()[13:]

         }

     # print(results)

 def main():

     for start in range(0, 250, 25):

         url = 'https://movie.douban.com/top250?start=' + str(start)

         html = get_one_page(url)

         for item in parse_one_page(html):

             print(item)

             write_txt(item)

 if __name__ == '__main__':

     main()

运行结果

爬虫_豆瓣电影top250 （正则表达式）的更多相关文章

<爬虫实战>豆瓣电影TOP250（三种解析方法）
1.豆瓣电影排行.py # 目标:爬取豆瓣电影排行榜TOP250的电影信息 # 信息包括:电影名字,上映时间,主演,评分,导演,一句话评价 # 解析用学过的几种方法都实验一下①正则表达式.②Beaut ...
【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...
第一个爬虫经历----豆瓣电影top250(经典案例)
因为要学习数据分析,需要从网上爬取数据,所以开始学习爬虫,使用python进行爬虫,有好几种模拟发送请求的方法,最基础的是使用urllib.request模块(python自带,无需再下载),第二是r ...
Python 爬虫：豆瓣电影Top250，包括电影导演、类型、年份、主演
结果输出到文本文件中. import codecs import requests from bs4 import BeautifulSoup headers={'User-Agent': 'Mozi ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
利用python2.7正则表达式进行豆瓣电影Top250的网络数据采集及MySQL数据库操作
转载请注明出处利用python2.7正则表达式进行豆瓣电影Top250的网络数据采集 1.任务采集豆瓣电影名称.链接.评分.导演.演员.年份.国家.评论人数.简评等信息将以上数据存入MySQL数 ...
练习：一只豆瓣电影TOP250的爬虫
练习:一只豆瓣电影TOP250爬虫练习:一只豆瓣电影TOP250爬虫 ①创建project ②编辑items.py import scrapyclass DoubanmovieItem(scrapy ...
scrapy爬虫框架教程（二）-- 爬取豆瓣电影TOP250
scrapy爬虫框架教程(二)-- 爬取豆瓣电影TOP250 前言经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大 ...

随机推荐

Python_练习题_49
# 3.用map来处理字符串列表,把列表中所有人都变成sb,比方alex_sb name=['alex','wupeiqi','yuanhao','nezha'] def func(item): re ...
543A - Writing Code（二维动态规划）
题意:现在要写m行代码,总共有n个文件,现在给出第i个文件每行会出现v[i]个bug,问你在bug少于b的条件下有多少种安排分析:定义dp[i][j][k],i个文件,用了j行代码,有k个bug 状 ...
Feel Good POJ - 2796 （前缀和+单调栈）（详解）
Bill is developing a new mathematical theory for human emotions. His recent investigations are dedic ...
iOS 判断当前网络状态的三种方法
http://www.cocoachina.com/ios/20171103/21039.html 在项目中,为了好的用户体验,有些场景必须线判断网络状态,然后才能决定改干嘛.比如视频播放,需要线判断 ...
Python_函数的初识、函数的返回值、函数的参数
1.函数的初识 def关键字空格函数名(与变量名命名规则相同):英文冒号函数体执行函数:函数名+() 函数是以功能为导向的. def login(): pass def register(): ...
asp.net mvc或者其他程序无法打开excel——解决方案，C#处理Excel文件
问题描述:今天处理Excel时遇到一个问题,本地使用Microsoft.Jet.OLEDB.4.0处理,正常完成了需求, 上传到服务器后发生了异常,通过排查发现问题出现在对Excel文件的读取上,然后 ...
# 【Python3练习题 008】判断101-200之间有多少个素数，并输出所有素数。
lst = []for i in range(100): #建立 101-200 的列表 lst.append(101+i) for i in range(101, 201): #除数为 101-20 ...
java的数据类型：基本数据类型和引用数据类型
Java数据类型的基本概念数据类型在计算机语言里面,是对内存位置的一个抽象表达方式,可以理解为针对内存的一种抽象的表达方式. 开始接触每种语言的时候,都会存在对数据类型的认识,有复杂的,有复杂的,各 ...
Velocity中为什么要使用{}来明确标识变量
原因比如在页面中,页面中有一个$someonename,此时,Velocity将把someonename作为变量名,若我们程序是想在someone这个变量的后面紧接着显示name字符,则上面的标签 ...
vue-cli 上传图片上传到OSS（阿里云）
https://help.aliyun.com/document_detail/32068.html?spm=5176.doc32069.6.304.Qc4SUs(看) https://help.al ...

爬虫_豆瓣电影top250 （正则表达式）

爬虫_豆瓣电影top250 （正则表达式）的更多相关文章

随机推荐

热门专题