Python 2.7_First_try_爬取阳光电影网

之前看过用Scrapy 框架建立项目爬取网页解析时候用的Xpath进行解析的网页元素这次尝试用select方法匹配元素

1、入口爬取页面 http://www.ygdy8.com/index.html

2、用到模块 requests(网页源码下载) BeautifulSoup4(网页解析)

3、思路：首先由入口爬取页面进行获取网页上方栏目及对应url 如下图

4、建立菜单url列表 for 循环再次进行解析爬取每个一级菜单下的具体电影title 和url

5、问题：每个菜单下的url 进行再次解析后由于网站内容不同 select 元素会出现非电影标题的连接和标题

6、python 代码

#coding:utf-8

import requests

from bs4 import BeautifulSoup as bs

#爬取入口

rooturl="http://www.ygdy8.com/index.html"

#获取网页源码

res=requests.get(rooturl)

#网站编码gb2312

res.encoding='gb2312'

#网页源码

html=res.text

soup=bs(html,'html.parser')

cate_urls = []

for cateurl in soup.select('.contain ul li a'):

    #网站分类标题

    cate_name=cateurl.text

    #分类url 进行再次爬取

    cate_url="http://www.ygdy8.com/"+ cateurl['href']

    cate_urls.append(cate_url)

    print "网站一级菜单:",cate_name,"菜单网址：",cate_url

#每个菜单url 解析

for i in range(len(cate_urls)):

    cate_listurl=cate_urls[i]

    res = requests.get(cate_listurl)

    res.encoding = 'gb2312'

    html = res.text

    soup = bs(html, 'html.parser')

    print "正在解析第"+str(i+1)+"个链接",cate_urls[i]

    contenturls=[]

    contents=soup.select('.co_content8 ul')[0].select('a')

    #print contents

    for title in contents:

        moivetitle=title.text

        moiveurl=title['href']

        contenturls.append(moiveurl)

        print moivetitle,moiveurl

print contenturls

8、运行结果

Python 2.7_First_try_爬取阳光电影网_20161206的更多相关文章

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207
1.昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单然后获取每个菜单下的电影url 2.今天是对电影url 进行再次解析获取下 ...
scrapy爬取阳光电影网全站资源
说一下我的爬取过程吧第一步: 当然是 scrapy startproject + 名字新建爬虫项目第二步: scrapy genspider -t crawl +爬虫名字+ 所爬取网站的 ...
Python 3.6 爬取BD电影网
2018-07-10 #coding:utf-8 #coding:utf-8 from lxml import etree import requests import pandas import t ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
零基础Python爬虫实现(爬取最新电影排行)
提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构要爬的部分,在ul标签下(包括li标签), 大致来说迭代li ...
python爬虫：爬取易迅网价格信息，并写入Mysql数据库
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处 ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...

随机推荐

WebDriver定位元素方法
如果把页面上的元素看作人的话,在现实世界如何找到某人呢?方法有三: 一.通过人本身的属性,例如他的姓名,手机号,身份证号,性别,这些可区别他人的属性.在web页面上的元素也有这些属性,例如,id.na ...
关于listview排序的说明
增加了排序属性后(即设置ListViewItemSorter属性),即便是把listview的内容全部清掉(listView.Items.Clear()),然后再重新添加行(listView.Item ...
ios学习之路
整合网络资源和自己的实际经验,表述于此. 1 Xcode详解非常实用的xcode介绍,详情请见外部链接http://demo.netfoucs.com/shulianghan/article/det ...
C#的输入、输出与运算符、数据类型
(1)Visual Studio.NET起始页启动Visual Studio.NET后,首先看到一个如下图所示的起始页.在起始页可以打开已有的项目或建立新的项目. (2)新建Visual1C# .n ...
hdu3078 伪LCA……
题意:有 n 点的一颗树,每个节点有格子的权值,现在有两种操作,修改一个点的权值,或者求两点之间的路径上的第 k 大的权值. 其实看到这个题,就在 YY 各种做法,询问后得到貌似可能是关于主席树.树链 ...
在笔记本电脑开通无线WIFI
1.Windows + R启动运行,输入services.msc进入服务 2.在服务中将Security Center服务从自动启动转为禁止启动 3.在服务中将Windows Firewall的启动类 ...
一步步构建自己的AngularJS(1)——项目初始化
Angular1距离2009年发布已经好多年了,Angular2也已经出了Beta版,估计今年就能正式发布.大多数人对于Angular1.X的认识仅限于能够在项目中使用,对于其中的深层原理知道的并不多 ...
Java开发常用Linux命令
1.查找文件 find / -name filename.txt根据名称查找/目录下的filename.txt文件. find . -name "*.xml"递归查找所有的xml文 ...
arcgis server 10.2安装后，忘记Manager的用户名和密码
arcgis server 10.2安装完毕后,需要创建站点,创建站点时,填写管理站点的用户名和密码.自己不小心,创建完毕后,给忘记了用户名和密码.求助Esri,解决方法如下: (1)找到arcgis ...
LeetCode "Design Tic-Tac-Toe"
We don't have to keep a complete chess board.. just counters! class TicTacToe { vector<int> cn ...

Python 2.7_First_try_爬取阳光电影网_20161206

Python 2.7_First_try_爬取阳光电影网_20161206的更多相关文章

随机推荐

热门专题