Python爬虫 -- 抓取电影天堂8分以上电影

看了几天的python语法，还是应该写个东西练练手。刚好假期里面看电影，找不到很好的影片，于是有个想法，何不搞个爬虫把电影天堂里面8分以上的电影爬出来。做完花了两三个小时，撸了这么一个程序。反正蛮简单的，思路和之前用nodejs写爬虫一样。

爬虫的入口从分页的列表开始，比如美剧的列表第一页地址这样： http://www.ygdy8.net/html/gndy/oumei/list_7_1.html，第二页是http://www.ygdy8.net/html/gndy/oumei/list_7_2.html，是有规律的，所以就可以遍历所有的页面，分别抓取每页里面的影视资源，再进入每条电影的详情页面，抓取出下载地址，存到文件里。

技术上用的是requests 和 BeautifulSoup两个模块。

具体做法是，先从电影列表中定位每条资源中的IMDB(b)评分大于8分的资源，并且将结果放入movie对象中。

class Movie:

    def __init__(self, name, url, score, link):

        self.name = name

        self.url = url

        self.score = score

        self.link = link

    def __str__(self):

        return '%s,\t%s分,\t%s' % (self.name, self.score, self.link)

    __repr__ = __str__

# 过滤资源

def filterMovie(url):

    resultList = []

    soup = getSoup(url)

    tables = soup.find_all('table', class_='tbspan')

    for table in tables:

        nameA = table.find('a', text=re.compile("《"))

        td = table.find('td', text=re.compile("IMD"))

        if td is not None:

            scoreStr = re.findall(r"评分 (.+?)/10", td.text)

            if(len(scoreStr) > 0):

                try:

                    score = float(scoreStr[0])

                    if(score > 8):

                        name = nameA.text

                        url = site + nameA['href']

                        print('url:', url)

                        print('title:', name)

                        print('score:', score)

                        downloadLink = getDownloadLink(url)

                        movie = Movie(name, url, score, downloadLink)

                        resultList.append(movie)

                except:

                    print('error !!')

    return resultList

其中的getDownloanLink(url)是进入电影详情页获取下载链接。

def getDownloadLink(url):

    soup = getSoup(url)

    downloadTd = soup.find('td', attrs={"style": "WORD-WRAP: break-word"})

    downloadA = downloadTd.find('a')

    return downloadA['href']

然后是将电影信息存入到文件data.txt中。

def saveInfo(movieList):

    fileObj = open('data.txt', 'a')

    for movie in movieList:

        movie_str = str(movie)

        print('movie info:', movie_str)

        global lineNo

        fileObj.write('(' + str(lineNo) + ') ' + movie_str)

        fileObj.write('\n')

        fileObj.write('———————————')

        fileObj.write('\n')

        lineNo += 1

    fileObj.close()

经过上面的步骤，即可将某一页的电影资源抓取到，并且存入文件中。

程序的主入口，遍历列表即可。目前他们只有155页，就限制这么多页码。

if __name__ == '__main__':

    for index in range(156):

        index += 1

        url = 'http://www.ygdy8.net/html/gndy/oumei/list_7_' + \

            str(index) + '.html'

        getPageResource(url)

具体代码在github中，传送门，爬到的结果也放入代码仓库中了。有兴趣的，可以下载看看。

Python爬虫 -- 抓取电影天堂8分以上电影的更多相关文章

Python爬虫----抓取豆瓣电影Top250
有了上次利用python爬虫抓取糗事百科的经验,这次自己动手写了个爬虫抓取豆瓣电影Top250的简要信息. 1.观察url 首先观察一下网址的结构 http://movie.douban.com/to ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
python爬虫抓取豆瓣电影
抓取电影名称以及评分,并排序(代码丑炸) import urllib import re from bs4 import BeautifulSoup def get(p): t=0 k=1 n=1 b ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
python爬虫抓取一个网站的所有网址链接
sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campai ...
Python爬虫抓取某音乐网站MP3（下载歌曲、存入Sqlite）
最近右胳膊受伤,打了石膏在家休息.为了实现之前的想法,就用左手打字.写代码,查资料完成了这个资源小爬虫.网页爬虫, 最主要的是协议分析(必须要弄清楚自己的目的),另外就是要考虑对爬取的数据归类,存储. ...
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...

随机推荐

消息框用法MessageBox
关键字:C# MessageBox 消息对话框在程序中,我们经常使用消息对话框给用户一定的信息提示,如在操作过程中遇到错误或程序异常,经常会使用这种方式给用于以提示.在C#中,MessageBox消 ...
sin, miss the mark, correct our aim and try again
Guilt should only be a call to action. When we see that we "missed the mark"(the meaning o ...
Xcode 字体设置-- Xcode family没有显示的字体
前往文件夹 -> /Users/user/Library/Developer/Xcode/UserData/FontAndColorThemes/ (user改为自己的用户名) -----如果 ...
console.log的应用
这两天在学javascript,但是有个问题老是觉得很疑惑,那就是这两个表达式到底有啥区别,虽然结果输出都差不多,但是我想这个两个表达式被开发出来,肯定是有意义的吧!哪位高手解答下吧!Thanks i ...
map/reduce of python
[map/reduce of python] 参考: http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac92 ...
Linux系统下解决Qt5无法连接MySQL数据库的方法
Linux平台下解决Qt5连接mysql数据库的问题:输入sudo apt-get install libqt5sql5-mysql解决,这种方法只能解决Qt是用sudo apt-get instal ...
java基础：熟悉3种内部类的写法，重点匿名内部类的使用
一.内部类定义内部类(nested classes),面向对象程序设计中,可以在一个类的内部定义另一个类.嵌套类分为两种,即静态嵌套类和非静态嵌套类.静态嵌套类使用很少,最重要的是非静态嵌套类,也即 ...
Selenium2+python自动化3-解决pip使用异常
一.pip出现异常有一小部分童鞋在打开cmd输入pip后出现下面情况:Did not provide a commandDid not provide a command?这是什么鬼?正常情况应该是 ...
技术英文单词贴--V
V validate 验证,确认,使生效 verify 核实,查实,验证 version 版本,译文 via 通过,凭借,经过 prep
No module named yum错误的解决办法
今天用yum安装软件的时候出现如下错误: There was a problem importing one of the Python modules required to run yum. Th ...

Python爬虫 -- 抓取电影天堂8分以上电影

Python爬虫 -- 抓取电影天堂8分以上电影的更多相关文章

随机推荐

热门专题