【爬虫】XPath实例

题目要求我们用XPATH去爬某个网站并且保存为CSV文件

代码如下，仅供参考

# -*- coding: UTF-8 -*-

# 开发人员：萌狼蓝天

# 博客：Https://mllt.cc

# 笔记：Https://cnblogs.com/mllt

# 哔哩哔哩/微信公众号：萌狼蓝天

# 开发时间：2022/10/5

import pandas as pd

import requests

import lxml.html

csv_data = pd.DataFrame(columns=["序号", "标题", "链接", "作者", "点击", "回复", "更新时间"])

# 获取页面源码

headers = {

    "User-Agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 10.0; WOW64; Trident/7.0; .NET4.0C; .NET4.0E; Tablet PC 2.0; wbx 1.0.0; wbxapp 1.0.0; Zoom 3.6.0)",

    "X-Amzn-Trace-Id": "Root=1-628b672d-4d6de7f34d15a77960784504"

}

code = requests.get("http://bbs.tianya.cn/list-no02-1.shtml", headers=headers).content.decode("utf-8")

print("-------------------------------------------------获取源码-----------------------------------")

# print(code)

selector = lxml.html.fromstring(code)

print("-------------------------------------------------获取关键部分-----------------------------------")

lists = selector.xpath('//div[@class="mt5"]/table')

print("-------------------------------------------------获取单独部分-----------------------------------")

print(len(lists))

for i in lists:

    x = 0

    for j in range(2, 9):

        for c in range(1, 11):

            x += 1

            title = i.xpath('//tbody[' + str(j) + ']/tr[' + str(c) + ']/td[1]/a/text()')[0].replace("\t", "").replace("\r", "").replace("\n", "")

            link = i.xpath('//tbody[' + str(j) + ']/tr[' + str(c) + ']/td[1]/a')[0].attrib['href'].replace("\t", "")

            author = i.xpath('//tbody[' + str(j) + ']/tr[' + str(c) + ']/td[2]/a/text()')[0].replace("\t", "")

            click = i.xpath('//tbody[' + str(j) + ']/tr[' + str(c) + ']/td[3]/text()')[0].replace("\t", "")

            reply = i.xpath('//tbody[' + str(j) + ']/tr[' + str(c) + ']/td[4]/text()')[0].replace("\t", "")

            reply_time = i.xpath('//tbody[' + str(j) + ']/tr[' + str(c) + ']/td[5]/text()')[0].replace("\t", "")

            csv_data=csv_data.append({"序号": x, "标题": title, "链接": 'http://bbs.tianya.cn/'+link, "作者": author, "点击": click, "回复": reply,

                             "更新时间": reply_time}, ignore_index=True)

            print(title, link, author)

print(csv_data)

csv_data.to_csv("result.csv")

往期文章

【爬虫】爬虫简单举例（三种写法）涉及requests、urllib、bs4，re

【爬虫】XPath实例的更多相关文章

笔记-爬虫-XPATH
笔记-爬虫-XPATH 1. xpath XPath是W3C的一个标准.它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计.目前有XPath1.0和XPath2.0两 ...
Python_爬虫小实例
爬虫小实例一.问题描述与分析 Q:查询某一只股票,在百度搜索页面的结果的个数以及搜索结果的变化. 分析: 搜索结果个数如下图: 搜索结果的变化:通过观察可以看到,每个一段时间搜索结果的个数是有所变化 ...
爬虫——xpath
1.什么是xpath? Xpath,全称XML Path Language,即XML路径语言.它是一门在XML之后查找信息的语言,也同样适用于HTML文档的搜索.在做爬虫的时候,我们用XPath语言来 ...
python爬虫xpath的语法
有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML ...
Python Scrapy 爬虫框架实例（一）
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
scrapy爬虫框架实例二
本实例主要通过抓取慕课网的课程信息来展示scrapy框架抓取数据的过程. 1.抓取网站情况介绍抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
XPath 实例
在本节,让我们通过实例来学习一些基础的 XPath 语法. XML实例文档我们将在下面的例子中使用这个 XML 文档: "books.xml" : <?xml versio ...
xpath实例 --//span[contains(.,'资讯管理')]
实际例子: 实例一: 不得不说下第一个例子,谢谢selenium论坛的大神门,XPATH还有这种方式的定位,传说是“治疗一切跌打损伤,及text找不到”(Antony群友帮解决的,在此谢谢)
python爬虫xpath
又是一个大晴天,因为马上要召开十九大,北京地铁就额外的拥挤,人贴人到爆炸,还好我常年挤地铁早已练成了轻功水上漂,挤地铁早已经不在话下. 励志成为一名高级测试工程师的我,目前还只是个菜鸟,难得有机会,公 ...

随机推荐

C++指针等于地址加偏移量
概述本文通过c++示例代码演示指针的加减法运算及对 "指针 = 地址 + 偏移量" 的理解. 研究示例 1. 首先来检查各种变量类型所占的内存大小 #include <io ...
高通pmic voter机制
前不久在高通 SDM450 平台接触了 voter 机制(投票机制).最近终于得空,结合一个问题简单研究了一下.现将研究流程简单记录一下,由于时间有限,所以是实用为目的,没有做详细的分析,不过结合着这 ...
如何快速定位 Linux Panic 出错的代码行
问题描述内核调试中最常见的一个问题是:内核Panic后,如何快速定位到出错的代码行? 就是这样一个常见的问题,面试过的大部分同学都未能很好地回答,这里希望能够做很彻底地解答. 问题分析内核Pani ...
SpringBoot学习 _02 _配置单数据源(1)
SpringBoot学习 _02 _配置单数据源(1) 1.通过IDEA创建SpringBoot项目直接到选择依赖这一步,选择如图所示的五个依赖即可 2.配置文件的编写此处说明一下,这个数据库连 ...
工作中的技术总结_JQuery_20210825
工作中的技术总结_JQuery_20210825 JQuery此前接触不多,所以先把此次接触的一些基本操作 1.DOM节点的取值或者赋值: 语法: $(selector).val(value) 参数 ...
如何解决MySQL Connector NET xxxx无法卸载的问题（win10）
使用Power BI(以下简称PBI)的小伙伴想必都知道,想要在PBI连接MySQL数据库,必须安装MySQL connector net,我之前安装过MySQL connector net 6.9. ...
5道大厂的JAVA经典面试题
前言本来想着给自己放松一下,刷刷博客,慕然回首,Java的四种引用,强弱软虚?泛型常用特点?Java创建对象有几种方式? 有没有可能两个不相等的对象有相同的hashcode?深拷贝和浅拷贝的区别是什 ...
华为三折屏Mate XT
相关: https://www.youtube.com/watch?v=vMx3kVnp11Q
【转载】 TensorFlow中CNN的两种padding方式“SAME”和“VALID”
原文地址: http://blog.csdn.net/wuzqchom/article/details/74785643 --------------------------------------- ...
CF1487-B Cat Cycle
一个规律题目要多做多积累 , 脑子不太灵活 CF1487 Cat Cycle 题目大意: 两只猫A,B, A猫从n -> n-1 -> n-2 ... -> 1 -> 2 .. ...

【爬虫】XPath实例

【爬虫】XPath实例的更多相关文章

随机推荐

热门专题