1. 我们找到  爱奇艺电视剧的链接地址

  

  http://list.iqiyi.com/www/2/-------------11-1-1-iqiyi--.html

我们点击翻页发现爱奇艺的链接是这样的规律

  http://list.iqiyi.com/www/2/-------------11-2-1-iqiyi--.html

  http://list.iqiyi.com/www/2/-------------11-3-1-iqiyi--.html

2. 我们分析  http://list.iqiyi.com/www/2/-------------11-1-1-iqiyi--.html    请求过程

    

3.最后 粘贴出来代码

# coding:utf-8

import re
import json, time
from bs4 import BeautifulSoup import sys
reload(sys)
sys.setdefaultencoding('utf-8') import requests session = requests.session() def aiqiyi(): for i in range(1,2000):
url = "http://list.iqiyi.com/www/2/-------------11-"+ str(i) +"-1-iqiyi--.html"
if i == 1:
Referer = "http://list.iqiyi.com/www/2/-------------11-"+ str(i) +"-1-iqiyi--.html"
else:
Referer = "http://list.iqiyi.com/www/2/-------------11-" + str(i-1) + "-1-iqiyi--.html" headers = { "Host":"list.iqiyi.com",
"Connection":"keep-alive",
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Upgrade-Insecure-Requests":"",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36",
"Referer":Referer,
"Accept-Encoding":"gzip, deflate, sdch",
"Accept-Language":"zh-CN,zh;q=0.8",
} result = session.get(url=url,headers=headers).text soup = BeautifulSoup(result, 'html.parser')
returnSoup = soup.find_all("div", attrs={"class": "wrapper-piclist"})[0]
returnSoup1= str(returnSoup).replace('\r\n','').replace('\n','').replace(' ','').replace('"rseat="bigTitle','') href_title = re.findall('"data-widget-qidanadd="qidanadd"href="(.*?)"target="_blank"title=".*?"><imgalt="(.*?)"height="236"rseat="dsjp7"src=',str(returnSoup1)) for i in href_title:
href = i[0]
title = i[1] href = str(href).split('#')[0]
headers = { "Connection":"keep-alive",
"Accept-Encoding":"gzip, deflate, sdch",
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36",
"Accept-Language":"zh-CN,zh;q=0.8",
"Host":"www.iqiyi.com",
"Upgrade-Insecure-Requests":"", }
result2 = session.get(url=href,headers=headers).text result3 = str(result2).replace('\r\n','').replace(' ','').replace('\n','').replace(' ','').replace(' ','')
resultre = re.findall('<pclass="site-piclist_info_title"><ahref="(.*?)"rseat="705233_title"target="_blank">(.*?)</a></p>',str(result3)) for i in resultre:
print i[0],i[1],"-----------",title time.sleep(2000) aiqiyi()

输出的结果是:

C:\Python27\python.exe C:/Users/xuchunlin/PycharmProjects/study/app/project/aiqiyiUrl.py
http://www.iqiyi.com/v_19rr91tio0.html 第1集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr91wki8.html 第2集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr91d9o0.html 第3集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr91c0yg.html 第4集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr90uigk.html 第5集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr90t1gc.html 第6集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8qb2ow.html 第7集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8q9fi4.html 第8集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8pr00c.html 第9集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8p0qdc.html 第10集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8occ3k.html 第11集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8npdfc.html 第12集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8nq9qw.html 第13集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8mzwhw.html 第14集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8n3c9k.html 第15集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8mcd7o.html 第16集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8mczus.html 第17集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8lscsk.html 第18集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8lq2c8.html 第19集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8v32rw.html 第20集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8uhouw.html 第21集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8tpcss.html 第22集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8t439c.html 第23集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8t1sdw.html 第24集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8sgdug.html 第25集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8sjsvc.html 第26集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8rx3j8.html 第27集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8rvxm0.html 第28集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8r96f0.html 第29集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8rdces.html 第30集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8qrzs4.html 第31集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rrdzwrsw.html 第32集 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8qw4r4.html 第33集预告 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8qqp08.html 第34集预告 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr8n78oo.html 第35集预告 ----------- 美味奇缘
http://www.iqiyi.com/v_19rr92rmic.html 第36集预告 ----------- 美味奇缘
1

    

Python 爬虫实例(5)—— 爬取爱奇艺视频电视剧的链接(2017-06-30 10:37)的更多相关文章

  1. Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取

    很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面 右边 li 标签中的就是短 ...

  2. Python爬虫实例:爬取猫眼电影——破解字体反爬

    字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

  3. Python爬虫实例:爬取豆瓣Top250

    入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...

  4. 使用selenium 多线程爬取爱奇艺电影信息

    使用selenium 多线程爬取爱奇艺电影信息 转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型 爬取思路: 源文件:(有注释) from selenium import webd ...

  5. 如何利用python爬虫爬取爱奇艺VIP电影?

    环境:windows    python3.7 思路: 1.先选取你要爬取的电影 2.用vip解析工具解析,获取地址 3.写好脚本,下载片断 4.将片断利用电脑合成 需要的python模块: ##第一 ...

  6. Python爬虫实战案例:爬取爱奇艺VIP视频

    一.实战背景 爱奇艺的VIP视频只有会员能看,普通用户只能看前6分钟.比如加勒比海盗5的URL:http://www.iqiyi.com/v_19rr7qhfg0.html#vfrm=19-9-0-1 ...

  7. Python爬取爱奇艺资源

    像iqiyi这种视频网站,现在下载视频都需要下载相应的客户端.那么如何不用下载客户端,直接下载非vip视频? 选择你想要爬取的内容 该安装的程序以及运行环境都配置好 下面这段代码就是我在爱奇艺里搜素“ ...

  8. Python爬虫训练:爬取酷燃网视频数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 项目目标 爬取酷燃网视频数据 https://krcom.cn/ 环境 Py ...

  9. Python爬取爱奇艺【老子传奇】评论数据

    # -*- coding: utf-8 -*- import requests import os import csv import time import random base_url = 'h ...

随机推荐

  1. JS字符串转base64格式

    var Base64 = { // private property _keyStr: "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwx ...

  2. Hbulider 支持less保存自动编译

    设置less配置:文件写 .less,路径找lessc.cmd,找不到就下载,命令参数写:%FileName% %FileBaseName%.css这样以后就可以less文件自动生成css了!

  3. WPF ClickOnce应用程序IIS部署发布攻略

    WPF程序非常适合公司内网使用,唯一缺点就是客户端要安装.net框架4.0.优势也很明显,在客户端运行的是一个WinForm程序,自动下载,可以充分利用客户机的性能,而且是以当前的Windows用户权 ...

  4. (转)RTMP中FLV流到标准h264、aac的转换

    这段时间,工作上的需要,在RTMP上做了flv流到标准h264.AAC的转换,服务器是开源项目CRTMPSERVER,客户端flex编写,视频编码h264,音频编码AAC,现将一些协议相关的东西记录如 ...

  5. 数学图形(2.13)Spherical trochoid曲线

    该曲线与上一节的herical cycloid球面外摆曲线 很相似,难道这是球面内摆曲线? #http://www.mathcurve.com/courbes3d/cycloidspheric/tro ...

  6. 第三章 线程安全的DateFormat工具类

    1.使用threadLocal包装DateFormat(太复杂,不推荐) 2.使用org.apache.commons.lang3.time.DateFormatUtils下的方法(推荐) DateF ...

  7. 开源 免费 java CMS - FreeCMS1.5-数据对象-info

    下载地址:http://code.google.com/p/freecms/ info 在信息页静态化时,系统会自动向模板文件传递currInfo对象,此对象存储当前信息.在使用信息相关标签时,标签会 ...

  8. 再谈JavaScript的数据类型问题

    JavaScript的数据类型问题已经讨论过很多次了,但许多人还有许多书仍然沿用着错误的.混乱的一些观点,所以就再细讲一回. 提及这个讨论的原因在于argb同学在我的MSN博客上的一段回复,又更早的起 ...

  9. .NET破解之爱奇迪(三)

    本教程只能用于学习研究,不可进行任何商业用途.如有使用,请购买正版,尊重他人劳动成果和知识产权! .NET破解之爱奇迪(一) .NET破解之爱奇迪(二) 一打开软件,就看到各种注册和未注册提示信息,就 ...

  10. 循环栅栏:CyclicBarrier(司令要求任务) 读书笔记

    可以理解为循环栅栏,栅栏就是一种障碍物.假如我们将计数器设置为10,那么凑齐第一批10个线程后,计数器就会归零,然后接着凑齐下一批10个线程,这就是循环栅栏的含义. 构造器: public Cycli ...