[爬虫Demo] pyquery+csv爬取猫眼电影top100

站点分析

https://maoyan.com/board/4?offset=0

翻页操作只会改变offset偏移量,每部电影的信息都在dd标签内,使用pyquery库中的css选择器直接解析页面

代码君

  • css选择器直接选择和使用find()方法的区别:find()用于选择子节点,因此限定了选择的区域,速度可能要快些,直接传入‘’选择器可能要全盘扫描(这里只是为了我自己方便记忆,信息可能有误,欢迎指出)
  • 一般先直接传入选择器选择出包含所需信息的大标签,再使用find()选择大标签里面的细节信息
  • 还有需要注意的一点是,不能直接在Elements选项卡中直接查看源码,那里的源码可能经过JavaScript渲染而与原始请求不同,而是需要从Network选项卡部分查看原始请求得到的源码

使用csv格式存储:相比txt格式,csv格式更利于数据存储和处理,大规模数据可以使用数据库存储

#use pyquery get the data and save as csv
from pyquery import PyQuery as pq #as是为PyQuery类取一个别名
import csv
import time begin=time.clock() #添加程序开始时间 def get_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
#添加头部信息,防止被网站识别出是python爬虫而被禁止访问
doc=pq(url,headers=headers)
return doc def parse_page(doc):
dict={}
dd=doc('.board-wrapper').find('dd')
'''yield在函数中的功能类似于return,不同的是yield每次返回结果之后函数并没有退出,而是每次遇到yield关键字后返回相应结果,并保留函数当前的运行状态,等待下一次的调用。如果一个函数需要多次循环执行一个动作,并且每次执行的结果都是需要的,这种场景很适合使用yield实现。'''
for item in dd.items():
yield { #返回一个字典
'rank':item.find('.board-index').text(),
'name':item.find('.name').text(),
'img':item.find('.board-img').attr('data-src'),
'star':item.find('.star').text(),
'time':item.find('.releasetime').text().strip(),#strip()转化为字符串去除前后空格,strip()[3:]表示从取下标从3的位置开始到文件结尾
'score':item.find('.score').find('.integer').text().strip()+item.find('.score').find('.fraction').text().strip(),
} def write_to_file(item): #接收一个字典
writer.writerow((item['rank'],item['name'],item['img'],item['star'],item['time'],item['score'])) def main():
for i in range(10):
url='https://maoyan.com/board/4?offset='+str(i*10)
doc=get_page(url)
#print(doc)
for item in parse_page(doc):
print(item)
write_to_file(item)
#线程推迟1s,一些反爬取网站,如果速度过快会无响应,故增加一个延时等待
time.sleep(1) if __name__ == '__main__':
f = open('test.csv', 'a', newline='', encoding='utf-8')
writer = csv.writer(f)
writer.writerow(('Rank','Name','Picture','Star','Time','Score'))#写入头部信息
main()
f.close() #手动关闭文件对象
end=time.clock() #添加程序结束时间
# 输出CPU耗时,不包括线程推迟的时间,是正常情况下(不考虑等待)程序的耗时
print("爬取完毕,CPU耗时:%f s"%(end-begin))

使用文本txt格式存储

'''pyquery get the data and save as txt'''
import json
import time
import requests
from pyquery import PyQuery as pq def get_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
}
doc=pq(url)
return doc def parse_page(doc): dd=doc('.board-wrapper').find('dd') for item in dd.items():
yield {
'index': item.find('.board-index').text(),
'image': item.find('.board-img').attr('data-src'),
'title': item.find('.name').text(),
'actor': item.find('.star').text().strip()[3:],
'time': item.find('.releasetime').text(),
'score': item.find('.score').find('.integer').text().strip() + item.find('.score').find(
'.fraction').text().strip()
} def write_to_file(item):
with open('test.csv','a',encoding='utf-8') as f:
f.write(json.dumps(item,ensure_ascii=False)+'\n')#False表示不使用ascii表示中文,可以直接显示中文 def main():
for i in range(10):
url = 'https://maoyan.com/board/4?offset='+str(i*10)
doc=get_page(url)
for item in parse_page(doc):
print(item)
write_to_file(item)

# [爬虫Demo] pyquery+csv爬取猫眼电影top100的更多相关文章

  1. # 爬虫连载系列(1)--爬取猫眼电影Top100

    前言 学习python有一段时间了,之前一直忙于学习数据分析,耽搁了原本计划的博客更新.趁着这段空闲时间,打算开始更新一个爬虫系列.内容大致包括:使用正则表达式.xpath.BeautifulSoup ...

  2. 爬虫练习之正则表达式爬取猫眼电影Top100

    #猫眼电影Top100import requests,re,timedef get_one_page(url): headers={ 'User-Agent':'Mozilla/5.0 (Window ...

  3. 爬虫系列(1)-----python爬取猫眼电影top100榜

    对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...

  4. PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100(实战项目一)

    利用Requests+正则表达式爬取猫眼电影top100 目标站点分析 流程框架 爬虫实战 使用requests库获取top100首页: import requests def get_one_pag ...

  5. 50 行代码教你爬取猫眼电影 TOP100 榜所有信息

    对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫 ...

  6. 40行代码爬取猫眼电影TOP100榜所有信息

    主要内容: 一.基础爬虫框架的三大模块 二.完整代码解析及效果展示 1️⃣  基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...

  7. 用requests库爬取猫眼电影Top100

    这里需要注意一下,在爬取猫眼电影Top100时,网站设置了反爬虫机制,因此需要在requests库的get方法中添加headers,伪装成浏览器进行爬取 import requests from re ...

  8. python 爬取猫眼电影top100数据

    最近有爬虫相关的需求,所以上B站找了个视频(链接在文末)看了一下,做了一个小程序出来,大体上没有修改,只是在最后的存储上,由txt换成了excel. 简要需求:爬虫爬取 猫眼电影TOP100榜单 数据 ...

  9. 一起学爬虫——使用xpath库爬取猫眼电影国内票房榜

    之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...

随机推荐

  1. echarts的渲染问题

    问题:柱状图的图例和柱状图颜色在IE10和IE11中拖动时间轴的时候图例和柱状图颜色会发生改变 echarts的渲染是从setOption中开始的,不是从echarts.init()开始 initPa ...

  2. oracle报错:The Network Adapter could not establish the connection的解决

    进入oracle安装目录\product\11.2.0\dbhome_1\NETWORK\ADMIN,修改listener.ora和tnsnames.ora,修改host 我的网络IP为192.168 ...

  3. DL反向传播理解

    作者:寒小阳 时间:2015年12月. 出处:http://blog.csdn.net/han_xiaoyang/article/details/50321873 声明:版权所有,转载请联系作者并注明 ...

  4. Spring Boot学习笔记(1)

    @SpringBootApplication用于注解Spring启动类,如下所示 @SpringBootApplication public class Application { public st ...

  5. 19个JavaScript简化编码小技巧

    这篇文章适合任何一位基于JavaScript开发的开发者.我写这篇文章主要涉及JavaScript中一些简写的代码,帮助大家更好理解一些JavaScript的基础.希望这些代码能从不同的角度帮助你更好 ...

  6. 为什么有些应用非VxWorks不可

          实时操作系统(RTOS)是专用于对时间精确度敏感的操作系统.典型的情况是,这种应用需要从传感器收集数据.做出分析并对关键性设备进行控制,例如飞机.列车.手术刀.这类控制必须精准,不容许出现 ...

  7. Python中函数的使用

    函数让代码的编写,阅读,测试和修改都变得更容易,提高代码的复用性,python中使用def关键字定义函数 如下代码在python3.7.3的Genay开发工具中编写测试通过. 一.简单函数定义及调用 ...

  8. Android热修复技术原理详解

    阿里Dexposed -- native解决方案 原理: 直接在native层进行方法的结构体信息对换,从而实现完美的方法新旧替换,从而实现热修复功能   他的思想完全来源于Xposed框架,完美诠释 ...

  9. 一、Vue基础之常用方法

    一.JSON.parse() 与 JSON.stringify() 1.JSON.parse() :是从一个字符串中解析出 json 对象 //定义一个字符串 var data='{"nam ...

  10. Struts2常量_Action配置路径_通配符

    Struts2中常用的常量 指定默认编码集,作用于HttpServletRequest的setCharacterEncoding方法 和freemarker .velocity的输出 <cons ...