Python 3.6 爬取BD电影网

2018-07-10

#coding:utf-8

#coding:utf-8

from lxml import etree

import requests

import pandas

import time

page = 1

while True:

    if page >= 1:

        time.sleep(1)

        url = 'http://www.bd-film.co/movies/index_' + str(page) + '1.htm'

        headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36"}

        response = requests.get(url = url,headers = headers).content

        result = etree.HTML(response)

        page += 1

        m_url = []

        m_name = []

        movie_url = result.xpath("//div[@class='text-overflow']//a/@href")

        movie_name = result.xpath("//div[@class='text-overflow']//a/@title")

        for i in movie_url:

            i = i+ str(' ')

            m_url.append(i)

            m_url = list(m_url)

        for n in movie_name:

            m_name.append(n)

            m_name = list(m_name)

        for (i1,i2) in zip(m_url,m_name):

            i3 = i1 + i2

            print(i3)

        if page > 916:

            break

    else:

        break

　　爬虫简单脚本，后面会在这个基础上编写一个多线程。提高爬取速率。

Python 3.6 爬取BD电影网的更多相关文章

Python 2.7_Second_try_爬取阳光电影网_获取电影下载地址并写入文件 20161207
1.昨天文章http://www.cnblogs.com/Mr-Cxy/p/6139705.html 是获取电影网站主菜单然后获取每个菜单下的电影url 2.今天是对电影url 进行再次解析获取下 ...
Python 2.7_First_try_爬取阳光电影网_20161206
之前看过用Scrapy 框架建立项目爬取网页解析时候用的Xpath进行解析的网页元素这次尝试用select方法匹配元素 1.入口爬取页面 http://www.ygdy8.com/index.ht ...
利用Python网络爬虫爬取学校官网十条标题
利用Python网络爬虫爬取学校官网十条标题案例代码: # __author : "J" # date : 2018-03-06 # 导入需要用到的库文件 import urll ...
零基础Python爬虫实现(爬取最新电影排行)
提示:本学习来自Ehco前辈的文章, 经过实现得出的笔记. 目标网站 http://dianying.2345.com/top/ 网站结构要爬的部分,在ul标签下(包括li标签), 大致来说迭代li ...
python爬虫：爬取易迅网价格信息，并写入Mysql数据库
本程序涉及以下方面知识: 1.python链接mysql数据库:http://www.cnblogs.com/miranda-tang/p/5523431.html 2.爬取中文网站以及各种乱码处 ...
用python爬虫简单爬取笔趣网：类“起点网”的小说
首先:文章用到的解析库介绍 BeautifulSoup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能. 它是一个工具箱,通过解析文档为用户提供 ...
Python爬虫项目--爬取猫眼电影Top100榜
本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, ...
python实战项目 — 爬取校花网图片
重点: 1. 指定路径创建文件夹,判断是否存在 2. 保存图片文件 # 获得校花网的地址,图片的链接 import re import requests import time import os ...
scrapy爬取阳光电影网全站资源
说一下我的爬取过程吧第一步: 当然是 scrapy startproject + 名字新建爬虫项目第二步: scrapy genspider -t crawl +爬虫名字+ 所爬取网站的 ...

随机推荐

plsql Developer11的工具栏没有了如何找回来
以前都是用的plsql developer7,最常用的工具类如下: 这次下载了12,发现风格变了,经常用的执行.提交.回滚按钮都在会话菜单下了如何找回工具栏呢,如下操作:
mui的事件实现（持续更新）
长按事件: mui('.mui-scroll').on('longtap', '.index-tab-item', function(e) { alert("长按生效") }); ...
checkbox 全选
<template> <div class="hello"> <table> <tr> <th><input ty ...
Openresty最佳案例 | 第2篇：Lua入门
转载请标明出处: http://blog.csdn.net/forezp/article/details/78616622 本文出自方志朋的博客什么是lua Lua 是一种轻量小巧的脚本语言,用标准 ...
【2018 CCPC网络赛 1004】Find Integer（勾股数+费马大定理）
Problem Description people in USSS love math very much, and there is a famous math problem . give yo ...
BZOJ2580: [Usaco2012 Jan]Video Game(AC自动机)
Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 159 Solved: 110[Submit][Status][Discuss] Descriptio ...
mysql——查询重复数据，及删除重复数据只保留一条数据
查询 text 表中,user_name字段值重复的数据及重复次数 select user_name,count(*) as count from text 删除 text 表中,重复出现的数据只保留 ...
JVM——Java内存区域
一,概述: Java跟C++不同,在内存管理区域C++程序员拥有着最高权力,但是正是因为如此,所以C++程序员要照顾这个对象的生老病死,从创建到消亡都是由程序员决定的. 但是Java程序员在虚拟机的自 ...
Python3 operator模块关联代替Python2 cmp() 函数
Python2 cmp() 函数描述 cmp(x,y) 函数用于比较2个对象,如果 x < y 返回 -1, 如果 x == y 返回 0, 如果 x > y 返回 1. Python ...
监听浏览器返回，pushState，popstate 事件，window.history对象
在WebApp或浏览器中,会有点击返回.后退.上一页等按钮实现自己的关闭页面.调整到指定页面.确认离开页面或执行一些其它操作的需求.可以使用 popstate 事件进行监听返回.后退.上一页操作. 一 ...

Python 3.6 爬取BD电影网

Python 3.6 爬取BD电影网的更多相关文章

随机推荐

热门专题