Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207

1、昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单然后获取每个菜单下的电影url

2、今天是对电影url 进行再次解析获取下载地址并写入文件

4、python 代码

#coding:utf-8

import requests

from bs4 import BeautifulSoup as bs

#爬取入口

rooturl="http://www.ygdy8.com/index.html"

#获取网页源码

res=requests.get(rooturl)

#网站编码gb2312

res.encoding='gb2312'

#网页源码

html=res.text

soup=bs(html,'html.parser')

cate_urls = []

for cateurl in soup.select('.contain ul li a'):

    #网站分类标题

    cate_name=cateurl.text.encode('utf-8')

    #分类url 进行再次爬取

    cate_url="http://www.ygdy8.com/"+ cateurl['href']

    cate_urls.append(cate_url)

    print "网站一级菜单:",cate_name,"菜单网址：",cate_url

    # newdir = "E:/moive24/"+ cate_name

    # os.makedirs(newdir.decode("utf-8"))

    # print "创建分类目录成功------" + newdir

#每个菜单url 解析

for i in range(len(cate_urls)):

    cate_listurl=cate_urls[i]

    res = requests.get(cate_listurl)

    res.encoding = 'gb2312'

    html = res.text

    soup = bs(html, 'html.parser')

    print "正在解析第"+str(i+1)+"个链接",cate_urls[i]

    contenturls=[]

    contents=soup.select('.co_content8 ul')[0].select('a')

    #print contents

    for title in contents:

        moivetitle=title.text.encode('utf-8')

        moiveurl="http://www.ygdy8.com/"+ title['href']

        contenturls.append(moiveurl)

        print moivetitle,moiveurl

        # file_name=newdir +'/'+ moivetitle +'.txt'

        # print file_name

        # f = open(file_name.decode("utf-8"), "wb")

        # f.close()

        res = requests.get(moiveurl)

        res.encoding = 'gb2312'

        html = res.text

        soup = bs(html, 'html.parser')

        moive_sources=soup.select('#Zoom span tbody tr td a')

        for source in moive_sources:

            moive_source=source['href']

            #print moive_source

            f=open('E:/moive24/moive.txt','a')

            f.write(moive_source.encode("utf-8") + "\n")

            f.close

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207的更多相关文章

利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
Python 2.7_First_try_爬取阳光电影网_20161206
之前看过用Scrapy 框架建立项目爬取网页解析时候用的Xpath进行解析的网页元素这次尝试用select方法匹配元素 1.入口爬取页面 http://www.ygdy8.com/index.ht ...
python实战项目 — 爬取中国票房网年度电影信息并保存在csv
import pandas as pd import requests from bs4 import BeautifulSoup import time def spider(url, header ...
python爬虫：爬取易迅网价格信息，并写入Mysql数据库
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处 ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
Python爬取猪肉价格网并获取Json数据
场景猪肉价格网站: http://zhujia.zhuwang.cc/ 注: 博客: https://blog.csdn.net/badao_liumang_qizhi 关注公众号霸道的程序猿获 ...
python实战项目 — 爬取妹子图网，保存图片到本地
重点: 1. 用def函数 2. 使用 os.path.dirname("路径保存") , 实现每组图片保存在独立的文件夹中方法1: import requests from l ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...

随机推荐

python实现拷贝指定文件到指定目录
python实现这个功能非常简单,因为库太强大了 import os import shutil alllist=os.listdir(u"D:\\notes\\python\\资料\\&q ...
macos下sed小试
linux下替换是这么干的 sed -i "s/xxxxxxxxxx/video_capture_module/g" project.pbxproj 但是macos下略有不同,照搬 ...
JAVA生成TXT日志文件
/** * 生成日志文件(文件的位置在Tomcat的安装路径下) * @param str */ public static void LogForTXT(String str) { try { St ...
OpenMP对于嵌套循环应该添加多少个parallel for 分类： OpenMP C/C++ Linux 2015-04-27 14:48 53人阅读评论(0) 收藏
一个原则是:应该尽量少的使用parallelfor, 因为parallel for也需要时间开销.即: (1)如果外层循环次数远远小于内层循环次数,内层循环较多时,将parallel for加在内层循 ...
11-Java 界面设计
(一)Java界面设计概述 1.Java 界面设计的用途 2.AWT 简介 (1)Abstract Windows Toolkit 是最原始的工具包. 3.Swing 简介 4.SWT 简介 5.如何 ...
git配置管理
生成 SSH 公钥如前所述,许多 Git 服务器都使用 SSH 公钥进行认证. 为了向 Git 服务器提供 SSH 公钥,如果某系统用户尚未拥有密钥,必须事先为其生成一份. 这个过程在所有操作系统上 ...
bzoj3086: Coci2009 dvapravca
Description 给定平面上的 N 个点, 其中有一些是红的, 其他是蓝的.现在让你找两条平行的直线, 使得在保证不存在一个蓝色的点被夹在两条平行线之间,不经过任何一个点, 不管是蓝色 ...
make自动生成依赖文件的两种形式
最近编译源文件发现当修改头文件后,make并不会自动把包含此头文件的所有源文件重新编译,而每次都是需要把对应的中间文件清除才能重新编译,非常的麻烦.因此需要make自动对源文件所依赖的头文件进行管理, ...
Java事务处理全解析（五）—— Template模式
在本系列的上一篇文章中,我们讲到了使用TransactionManger和ConnectionHolder完成线程安全的事务管理,在本篇中,我们将在此基础上引入Template模式进行事务管理. Te ...
如何把项目部署到OSChina上
1. 在苹果电脑终端 ls -la 查看当前目录所有的隐藏文件 2. 删除 .ssh文件 rm -rf .ssh 3.创建一个隐藏的文件 mkdir .ssh 在查看 4.进入 .ssh ...

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207的更多相关文章

随机推荐

热门专题