python豆瓣250爬取

import requests

from bs4 import BeautifulSoup

from lxml import etree

# qianxiao996精心制作

#博客地址：https://blog.csdn.net/qq_36374896

url = "https://movie.douban.com/top250"

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0"

}

def Getbyxml(url):

    data = requests.get(url,headers = headers).text

    name = []

    star_con = []

    score =[]

    info = []

    comment_list = []

    response = etree.HTML(data)

    result = response.xpath('/html/body/div[3]/div[1]/div/div[1]/ol/li')

    for item in result:

         name_item = item.xpath("./div/div[2]/div[1]/a/span[1]/text()")[0].strip()

         info_name = item.xpath("./div/div[2]/div[2]/p[1]/text()")[0].strip()

         score_item = item.xpath("./div/div[2]/div[2]/div/span[2]/text()")[0].strip()

         star_item = item.xpath("./div/div[2]/div[2]/div/span[4]/text()")[0].strip()

         try:

             comment = item.xpath("./div/div[2]/div[2]/p[2]/span/text()")[0].strip()

             comment_list.append(comment)

         except:

             comment_list.append('无')

         score.append(score_item)

         name.append(name_item)

         star_con.append(star_item)

         info.append(info_name)

    return name,info,score,star_con,comment_list

t=Getbyxml(url)

print(t)

python豆瓣250爬取的更多相关文章

Python 豆瓣mv爬取
爬取网址:https://www.dbmeinv.com/ 豆瓣mv(现已更名) 注:自制力不好的同学,先去准备营养快线! import requests from bs4 import ...
Python 豆瓣日记爬取
无聊写了个豆瓣日记的小爬虫,requests+bs4. cookies_src可填可不填,主要是为了爬取仅自己可见的日记. url填写的是日记页面,即https://www.douban.com/pe ...
Python登录豆瓣并爬取影评
上一篇我们讲过Cookie相关的知识,了解到Cookie是为了交互式web而诞生的,它主要用于以下三个方面: 会话状态管理(如用户登录状态.购物车.游戏分数或其它需要记录的信息) 个性化设置(如用户自 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
Python爬虫之爬取淘女郎照片示例详解
这篇文章主要介绍了Python爬虫之爬取淘女郎照片示例详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧本篇目标抓取淘宝MM ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...

随机推荐

KC705E增强版基于FMC接口的 Kintex-7 XC7K325T PCIeX8 接口卡
一.板卡概述本板卡基于Xilinx公司的FPGAXC7K325T-2FFG900 芯片,pin_to_pin兼容FPGAXC7K410T-2FFG900 ,支持PCIeX8.64bit DDR3容量 ...
图计算 on nLive：Nebula 的图计算实践
本文首发于 Nebula Graph Community 公众号在 #图计算 on nLive# 直播活动中,来自 Nebula 研发团队的 nebula-plato 维护者郝彤和 nebula-a ...
mysql，数据类型与表操作
一.mysql基本认知创建用户 create host aa identified with mysql_native_password by ''; 修改用户权限 alter user root@ ...
痞子衡嵌入式：介绍i.MXRT定时器PIT的多通道链接模式及其在coremark测试工程里的应用
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是i.MXRT定时器PIT的多通道链接模式及其在coremark测试里的应用. 早在 2018 年 i.MXRT 系列跨界处理器刚推出的时 ...
GAN实战笔记——第四章深度卷积生成对抗网络（DCGAN）
深度卷积生成对抗网络(DCGAN) 我们在第3章实现了一个GAN,其生成器和判别器是具有单个隐藏层的简单前馈神经网络.尽管很简单,但GAN的生成器充分训练后得到的手写数字图像的真实性有些还是很具说服力 ...
[自动化]浅聊ansible的幂等
描述幂等性是在实际应用中经常需要考虑的概念,尤其是运维中.相较于将幂等性理解为各种异常情况的综合处理,将其理解为执行时需要考虑到在前次执行产生的影响的情况下能够正常执行则会更加容易接近业务需求. ...
simple js
simple js 题目描述:小宁发现了一个网页,但却一直输不对密码.(Flag格式为 Cyberpeace{xxxxxxxxx} ) 打开题目后,有一个Enter password框,要求输入密码, ...
png图片隐写
java策略模式拙见
面向对象的两个基本准则: 单一职责:一个类只有一个发生变化的原因开闭原则:对拓展开放,对修改关闭 <Java开发手册>中,有这样的规则:超过3层的 if-else 的逻辑判断代码可以使用 ...
Codeforces Round #725 (Div. 3) A-D，F题解
A. Stone Game 思路:总共3种情况,都从最左端被拿走,都从最右端被拿走,左侧的从最左端被拿走且右侧的从最右端被拿走,取最小值即可代码: //CF-725.A #include<bi ...

python豆瓣250爬取

python豆瓣250爬取的更多相关文章

随机推荐

热门专题