爬虫之爬取电影天堂（request）

#需要通过代码打开https://www.dytt8.net/网站，拿到网站内容

from urllib.request import urlopen #拿到urlopen

import re

content = urlopen("https://www.dytt8.net/").read().decode("gbk")

#获取到最新电影的部分链接

#正则表达式，匹配字符串

lst = re.findall("最新电影下载</a>]<a href='(.*?)'",content,re.S)

for item in lst:

    #3.拼接出子页面的网址

    one_page_content = urlopen("https://www.dytt8.net/" + item).read().decode("gbk")

    one_page_lst = re.findall(

        '<div id="Zoom">.*?◎片　　名\u3000(.*?)<br />.*?<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(.*?)">',

        one_page_content, re.S)

    print(one_page_lst)

#4.获取电影名称和电影链接保存在txt文件

    movie_name=  one_page_lst[0][0]

    download_url=one_page_lst[0][1]

    #文件操作

    f=open("movie.txt",mode="w",encoding="utf-8")

    f.write("电影名："+movie_name+"\n")

    f.write("下载链接："+download_url)

    print("一个完成了")

    f.close()

爬虫之爬取电影天堂（request）的更多相关文章

scrapy框架用CrawlSpider类爬取电影天堂.
本文使用CrawlSpider方法爬取电影天堂网站内国内电影分类下的所有电影的名称和下载地址 CrawlSpider其实就是Spider的一个子类. CrawlSpider功能更加强大(链接提取器,规 ...
Python爬取电影天堂指定电视剧或者电影
1.分析搜索请求一位高人曾经说过,想爬取数据,要先分析网站今天我们爬取电影天堂,有好看的美剧我在上面都能找到,算是很全了. 这个网站的广告出奇的多,用过都知道,点一下搜索就会弹出个窗口,伴随着滑稽 ...
python利用requests和threading模块，实现多线程爬取电影天堂最新电影信息。
利用爬到的数据,基于Django搭建的一个最新电影信息网站: n1celll.xyz (用的花生壳动态域名解析,服务器在自己的电脑上,纯属自娱自乐哈.) 今天想利用所学知识来爬取电影天堂所有最新电影 ...
14.python案例：爬取电影天堂中所有电视剧信息
1.python案例:爬取电影天堂中所有电视剧信息 #!/usr/bin/env python3 # -*- coding: UTF-8 -*- '''======================== ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
requests+lxml+xpath爬取电影天堂
1.导入相应的包 import requests from lxml import etree 2.原始ur url="https://www.dytt8.net/html/gndy/dyz ...
requests+BeautifulSoup | 爬取电影天堂全站电影资源
import requests import urllib.request as ur from bs4 import BeautifulSoup import csv import threadin ...

随机推荐

java操作mongo
语法正确时,字段不匹配时,Mongo并不会抛出异常,这在语句调试时需多加注意. mongo自身的时间存储格式与java中的并不是完全匹配,Mongo采用UTC格式,而java中一般为GMT格式,有个时 ...
基于webpack4+vue-cli3项目的换肤功能
起因最近因公司需求,需要实现主题换肤功能,不仅仅是颜色的更改,还需要包括图片,字体等文件等更换,因此在百度里各种实现方案后,决定根据scss+style-loader/useable做换肤. 项目开 ...
MyBatis从入门到精通：update用法、delete用法
update用法: 1.接口类中添加的方法: int updateById(SysUser sysUser); 2.映射文件中添加的代码: <update id="updateById ...
Hadoop FAQ
测试环境: Hadoop 2.6.0-cdh5.7.1 apache-kylin-2.0.0-bin kylin运行check-env.sh时,报如下警告: WARN util.NativeCodeL ...
Shiro authentication for Apache Zeppelin
Overview Apache Shiro is a powerful and easy-to-use Java security framework that performs authentica ...
python基础知识五各类型数据方法补充，转换，分类，编码+坑中菜
3.9各类型数据方法补充,转换,分类,编码,坑中菜 3.9.1数据类型方法补充 1.str:不可变补充方法 s1.capitalize():首字母大写 s1 = "alex" s ...
作为前端程序员的她凭什么成为Judy团队第一位助教？
Judy团队第一位助教-俊英子:正直,阳光,向上,自律,优秀的女孩,当然这些词语还是无法描述出她的优秀英子,我们第一次的时候,2月25号,下午16:26分,她突然发了一段长的文字我. 她说她一直在读 ...
安卓图片加载框架--Universal-Image-Loader
今天来介绍图片加载的框架Android-Universal-Image-Loader GITHUB上的下载路径为:https://github.com/nostra13/Android-Univers ...
Spring:定时任务定时器 Quartz的使用
Quartz的使用方式配置文件方式一.引入依赖  <!-- https://mvnrepository.com/artifact/or ...
UTF-16 -- 顶级程序员也会忽略的系统编码问题，JDK 错了十年！
Unicode(统一码.万国码.单一码)是计算机科学领域里的一项业界标准,包括字符集.编码方案等.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一 ...

爬虫之爬取电影天堂（request）

爬虫之爬取电影天堂（request）的更多相关文章

随机推荐

热门专题