python 爬虫示例，方便日后参考

参考网址：https://zhuanlan.zhihu.com/p/32037625

def getOneMoviesInfo(Mid,url):

    import requests

    from lxml import etree

    #print(url)

    data = requests.get(url).text   #download the website

    s = etree.HTML(data)            #analyse data

    picture = s.xpath('//*[@id="main"]/section/div[1]/div/div/section/div[1]/div[1]/img/@src')

    if len(picture)== 0:

        picture = 'NULL'

    #longPicture = s.xpath('//*[@id="media_v4"]/div[2]/div[1]/div/div/section[3]/div[2]/div/div[1]/img/@src')

    name = s.xpath('//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[1]/span/a/h2/text()')

    if len(name)==0:

        print("Mid = %s , failed for a lack of TMDB id "%Mid)

        return

    name = s.xpath('//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[1]/span/a/h2/text()')[0]

    year = s.xpath('//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[1]/span/span/text()')[0].strip("(").strip().strip(")")

    date = s.xpath('//*[@id="media_v4"]/div[2]/div[2]/div/section/div[1]/div/section[1]/ul/li[1]/text()')[1].strip()

    brief = s.xpath('//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[2]/div/p/text()')[0].replace("\n","\\n")

    mainCreators =s.xpath('//*[@id="main"]/section/div[1]/div/div/section/div[2]/section/div[2]/ol/li') #all main creators array

    writers = []

    director = "NULL"

    for div in mainCreators:

        if len(div.xpath('./p[1]/a/text()'))== 0:

            director = 'NULL'

            writers = ['NULL','NULL','NULL']

        else:

            creatorName = div.xpath('./p[1]/a/text()')[0]

            #print(creatorName)

            creatorProfession = div.xpath('./p[2]/text()')[0]

            #print(creatorProfession)

            if  'Director' in creatorProfession:

                director = creatorName

            elif 'Screenplay' in creatorProfession or 'Writer' in creatorProfession:

                writers.append(creatorName)

    stars = []

    starsData = s.xpath('//*[@id="media_v4"]/div[2]/div[1]/div/div/section[1]/ol/li')

    for div in starsData:

        star = div.xpath('./p[1]/a/text()')

        if len(star)== 0:

            stars == ["NULL","NULL","NULL"]

        else:

            star = star[0]

            stars.append(star)

    writerslen = len(writers)

    starslen=len(stars)

    for i in range(writerslen,3):

        writers.append("NULL");

    for i in range(starslen,5):

        stars.append("NULL");

    with open(r'C:\Users\yuqiao\Desktop\testSpider.txt','a',encoding='utf-8') as f:

        f.write("{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}|{}\n".format(Mid,name,brief,year,date,director,

                                                 writers[0],writers[1],writers[2],

                                                 stars[0],stars[1],stars[2],stars[3],stars[4],

                                                 picture))

    print(Mid)

    print(name)

#______________________________________________________主函数__________________________________________________________

import time

with open(r'C:\Users\yuqiao\Desktop\testSpider.txt','w',encoding='utf-8') as f:

        f.write("")

language = '?language=zh-CN' #######################

with open(r'D:\git\ZiyeMovie\MidURL.txt', "rt",encoding='utf-8') as in_file:

    all = in_file.read()

    lines = all.split("\n")

    #for i in range(51,61):    51~60

    for i in range(9124,9125):

        line = lines[i]

        print(line)

print('finished')

python 爬虫示例，方便日后参考的更多相关文章

Python爬虫示例
#!/usr/bin/python #coding:utf8 import re import urllib def gethtml(url): page=urllib.urlopen(url) ht ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
十个Python爬虫武器库示例，十个爬虫框架，十种实现爬虫的方法！
一般比价小型的爬虫需求,我是直接使用requests库 + bs4就解决了,再麻烦点就使用selenium解决js的异步加载问题.相对比较大型的需求才使用框架,主要是便于管理以及扩展等. 1.Scr ...
python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
python爬虫之多线程、多进程+代码示例
python爬虫之多线程.多进程使用多进程.多线程编写爬虫的代码能有效的提高爬虫爬取目标网站的效率. 一.什么是进程和线程引用廖雪峰的官方网站关于进程和线程的讲解: 进程:对于操作系统来说,一个任 ...
python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...

随机推荐

CMake学习笔记四：usb_cam的CMakeLists解析
最近在学习cmake,在完整看了<cmake实践>一书后,跟着书上例程敲了跑了一遍,也写了几篇相关读书笔记,算是勉强基本入门了.所以找了usb_cam软件包的CMakeLists.txt来 ...
[ZPG TEST 116] 最小边权和【生成树相关】
先将输入的边从小到大排序,对于一条边,它一定连接着两个联通块u与v,那么这条变对于答案的贡献是siz[u] * siz[v] * (边权 + 1) - 1,别问为什么这太显然了,一想就懂... #in ...
如何移除EditText自动焦点
<LinearLayout android:layout_width="match_parent" android:layout_height="wrap_cont ...
Oracle的一些名词和概念
1.数据库这里的数据库不是通常情况下我们所说的数据库,而是一个Oracle的专业名词.它是磁盘上存储数据的集合,在物理上表现为数据文件. 日志文件和控制文件等,在逻辑上以表空间形式存在.使用时,必须 ...
"码代码"微信号今日上线,为互联网同仁提供最前沿咨询
"码代码"微信号今日上线关注即有好礼相送三月,春意浓浓的日子,三月,属于女人的日子,而今天...... “2014年天空成人放送大赏”于5日晚举办颁奖典礼,“年度最佳AV女优” ...
Linux下支持mysql支持远程ip访问
示例代码: use mysql; SELECT `Host`,`User` FROM user; UPDATE user SET `Host` = '%' WHERE `User` = 'use**' ...
InChatter系统之服务器开发（一）
服务器端是整个消息系统的中枢,类似与人类的大脑.没有他,根本无法实现客户端之间的交流,为什么呢?这也涉及到我们的系统涉及,在服务器端,每个客户端的标识数据都会在服务器端进行保存,在这种情况下,当某一个 ...
Visual Studio 2013 错误系统找不到指定文件，0x80070002
错误:Visual Studio 2013 按照成功后,可以创建空web项目,但不能建webform 和 mvc 项目. 提示系统找不到指定文件,0x80070002. 解决方式: Step1: Wi ...
洛谷 P2801 教主的魔法
题目描述教主最近学会了一种神奇的魔法,能够使人长高.于是他准备演示给XMYZ信息组每个英雄看.于是N个英雄们又一次聚集在了一起,这次他们排成了一列,被编号为1.2.…….N. 每个人的身高一开始都是 ...
迅为IMX6开发板支持4G全网通模块GPS模块
IMX6开发板特点处理器:IMX6开发板支持4G全网通模块GPS模块. 核心板配置:2GB DDR3内存 16GB EMMC 存储,扩展引脚多达320个:运行温度-20 ℃到+80 ℃之间. 核心 ...

python 爬虫示例，方便日后参考

python 爬虫示例，方便日后参考的更多相关文章

随机推荐

热门专题