学习进度05（billbill长评爬取02）

今天下雪了，是个看《白色相簿2》的好日子。

昨天我们获取所有长评url，今天要解析这些url获取更多的信息随便，点开一个，我们需要的数据有标题，时间，内容。点赞数和评论先不弄了。

解析json的时候用的正则表达式，这次就用xpath吧。

代码：

from lxml import html

import requests

import csv

# 请求头  可自己查看自己的 来更改

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 '

                  'Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400',

    'Referer': 'https://www.bilibili.com/bangumi/media/md3516/?spm_id_from=666.25.b_7265766965775f6d6f64756c65.1'

}

# csv文件的头

a = [

    'article', 'avatar', 'uname', 'str_url', 'title', 'content'

]

lists = []

lists_w = []

etree = html.etree

with open('a.csv', 'r', encoding='utf-8') as fp:

    reader = csv.reader(fp)

    # 把第一行消掉

    next(fp)

    for x in reader:

        lists.append(x)

x = 0

while x < len(lists):

    print(x)

    print(len(lists[x]))

    resp = requests.get(lists[x][3])

    html = etree.HTML(resp.text)

    p = html.xpath("//div[@class='article-holder']//p/text()")

    title = html.xpath("//h1[@class='title']/text()")

    if len(p) != 0 and len(title) != 0:

       list_w = [lists[x][0],  lists[x][1], lists[x][2], lists[x][3], title[0], p[0]]

       lists_w.append(list_w)

    else:

        pass

    x = x + 1

print(lists_w)

with open('b.csv', 'w', encoding='utf-8', newline='') as fp:

    writer = csv.writer(fp)

    # 写入表头信息

    writer.writerow(a)

    writer.writerows(lists_w)

结果截图：

体会：遇到了几个问题，第一个是在谷歌的xpath helper软件里用xpth语言能够找到但是python就不行，后来我用python把整个网页下载下来，发现class属性是不一样的，然后就改了一下xpth语句就成功了，我们使用xpth语句就应对的是requests.get（url）返回的text，需要看text怎么写而不是看原网页的。第二个问题是我昨天爬的那个网页他今天没有了，因为数据就一百多条，我挨个看了一下那个长评的网页没有了，后来在代码加了限定就ok了。

学习进度05（billbill长评爬取02）的更多相关文章

Java爬虫——网易云热评爬取
爬取目标网址 : http://music.163.com/#/song?id=409649818 需要爬取信息 : 网易云top13热评使用之前的 HttpURLConnection 获取 ...
学习进度04（billbill长评数据提取01）
学习了python写入csv文件自己想了一个小实战,爬取billbill<白色相簿>番剧的长评网页是动态变化的,往下拉他才会更新出长评,找出关键链接https://api.bilibil ...
2019-01-31 Python学习之BFS与DFS实现爬取邮箱
今天学习了python网络爬虫的简单知识首先是一个爬取百度的按行读取和一次性爬取逐行爬取 for line in urllib.request.urlopen("http://www.b ...
python爬虫学习(三)：使用re库爬取"淘宝商品"，并把结果写进txt文件
第二个例子是使用requests库+re库爬取淘宝搜索商品页面的商品信息 (1)分析网页源码打开淘宝,输入关键字“python”,然后搜索,显示如下搜索结果从url连接中可以得到搜索商品的关键字是 ...
爬虫学习（四）——post请求爬取
百度翻译爬取数据 import urllib.requestimport urllib.parsepost_url = "https://fanyi.baidu.com/sug"h ...
Python爬虫学习（5）: 简单的爬取
学习了urllib,urlib2以及正则表达式之后就可以做一些简单的抓取以及处理工作.为了抓取方便,这里选择糗事百科的网页作为抓取对象. 1. 获取数据: In [293]: url = " ...
JavaWeb学习总结-05 Servlet 与页面的交互(02)
一模拟请求数据为了测试方便,把请求 json,txt, xml,html格式的文件放到了公网上面,可以通过以下地址请求: http://wx.glab.cn/xpxiaowu4java/json/ ...
一起学爬虫——通过爬取豆瓣电影top250学习requests库的使用
学习一门技术最快的方式是做项目,在做项目的过程中对相关的技术查漏补缺. 本文通过爬取豆瓣top250电影学习python requests的使用. 1.准备工作在pycharm中安装request库 ...
[python爬虫] Selenium定向爬取虎扑篮球海量精美图片
前言: 作为一名从小就看篮球的球迷,会经常逛虎扑篮球及湿乎乎等论坛,在论坛里面会存在很多精美图片,包括NBA球队.CBA明星.花边新闻.球鞋美女等等,如果一张张右键另存为的话真是手都点疼了.作为程序员 ...

随机推荐

JSTL fn:replace()函数替换换行符
转自:http://blog.163.com/chenjie_8392/blog/static/439339842010513128139/ 近日在使用textarea时,输入了回车,为了将texta ...
线程安全Collections.synchronizedList
ollections.synchronizedList引发的线程安全问题有些容器是线程安全的(Vector,ConcurrentLinkedQueue等),有些则不是(list等),利用类似 pr ...
git安装以及gitlib配置
安装Git:详见http://www.cnblogs.com/xiuxingzhe/p/9300905.html 开通gitlab(开通需要咨询所在公司的gitlab管理员)账号后,本地Git仓库和g ...
题解 AT1219 【歴史の研究】
莫队简单分析:题面含有IOI(惊),可知此题是IOI(数字三角形)难度(逃). 思路:回滚莫队当然很多人都是抱着学回滚莫队的目标来看这道题的,所以这里介绍一下回滚莫队. 1.按莫队的思路讲询问排序 ...
3676: [Apio2014]回文串求回文串长度与出现次数的最大值
「BZOJ3676」[Apio2014] 回文串 Description 考虑一个只包含小写拉丁字母的字符串s.我们定义s的一个子串t的“出现值”为t在s中的出现次数乘以t的长度.请你求出s的所 ...
【剑指Offer面试编程题】题目1372：最大子向量和--九度OJ
题目描述: HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学.今天JOBDU测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决.但 ...
C语言入门第四章
=========C语言的输入与输出=========== %-9d : d:以十进制输出,9表示至少占用9个字符的宽度,宽度不足以空格补齐,-表示左对齐.综合起来,%-9d 表示以十进制输出,左对齐 ...
Spring事务原理分析-部分二
Spring事务原理分析-部分二说明:这是我在蚂蚁课堂学习了余老师Spring手写框架的课程的一些笔记,部分代码代码会用到余老师的课件代码.这不是广告,是我听了之后觉得很好. 课堂链接:Spring ...
php 等于不等于一个感叹号两个等于号
$a == $b 等于 TRUE,如果 $a 等于 $b. $a === $b 全等 TRUE,如果 $a 等于 $b,并且它们的类型也相同.(PHP 4 引进) $a != $b 不等 TRUE,如 ...
HDU 5045 状压DP 上海网赛
比赛的时候想的是把n个n个的题目进行状压但这样不能讲究顺序,当时精神面貌也不好,真是挫死了其实此题的另一个角度就是一个n个数的排列,如果我对n个人进行状压,外面套一个按题目循序渐进的大循环,那么, ...

学习进度05（billbill长评爬取02）

今天下雪了，是个看《白色相簿2》的好日子。

昨天我们获取所有长评url，今天要解析这些url获取更多的信息随便，点开一个，我们需要的数据有标题，时间，内容。点赞数和评论先不弄了。

解析json的时候用的正则表达式，这次就用xpath吧。

代码：

结果截图：

学习进度05（billbill长评爬取02）的更多相关文章

随机推荐

热门专题