Python学习笔记之爬取网页保存到本地文件

爬虫的操作步骤：

爬虫三步走

爬虫第一步：使用requests获得数据： （request库需要提前安装，通过pip方式，参考之前的博文）
1.导入requests
2.使用requests.get获取网页源码

import requests

r = requests.get('https://book.douban.com/subject/1084336/comments/').text

爬虫第二步：使用BeautifulSoup4解析数据： （BeautifulSoup4库需要提前安装，通过pip方式，参考之前的博文）
1.导入bs4
2.解析网页数据
3.寻找数据
4.for循环打印

from bs4 import BeautifulSoup

soup = BeautifulSoup(r,'lxml')

pattern = soup.find_all('p','comment-content')

for item in pattern:

print(item.string)

爬虫第三步：使用pandas保存数据： （pandas库需要提前安装，通过pip方式，参考之前的博文）
1.导入pandas
2.新建list对象
3.使用to_csv写入

import pandas

comments = []

for item in pattern:

comments.append(item.string)

df = pandas.DataFrame(comments)

df.to_csv('comments.csv')

完整的爬虫(值得注意的是关于BeautifulSoup和pandas两个包，都需要事先在电脑上安装，可以使用pip命令方式安装，具体方法可查看之前的博文命令 pip install beautifulsoup & pip install pandas)

import requests

r = requests.get('https://book.douban.com/subject/1084336/comments/').text

from bs4 import BeautifulSoup

soup = BeautifulSoup(r,'lxml')

pattern = soup.find_all('p','comment-content')

for item in pattern:

print(item.string)

import pandas

comments = []

for item in pattern:

comments.append(item.string)

df = pandas.DataFrame(comments)

df.to_csv('comments.csv')#当然这里可以指定文件路径，如 D:/PythonWorkSpace/TestData/comments.csv

代码运行结果：（注意的是，运行结果为csv，可能你用Excel打开之后会出现乱码，那是因为csv格式不对，怎么解决呢？

你可以将csv文件用Notepad++打开，编码Encoding选择 Encode in UTF-8-BOM）

如果是多页的话，为了防止保存到CSV 文件中的数据被上一页覆盖，可以这样用：

mode='a', header = False

df.to_csv('D:/Python....csv', mode='a', header = False)

Python学习笔记之爬取网页保存到本地文件的更多相关文章

吴裕雄--天生自然python学习笔记：爬取我国 1990 年到 2017年 GDP 数据并绘图显示
绘制图形所需的数据源通常是不固定的,比如,有时我们会需要从网页抓取, 也可能需从文件或数据库中获取. 利用抓取网页数据技术,把我国 1990 年到 2016 年的 GDP 数据抓取出来 ,再利用 Ma ...
【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地
>>>内容基本框架: 1.爬虫目的 2.爬取过程 3.代码实现 4.爬取结果 >>>实验环境: python3.6版本,pycharm,电脑可上网. [一爬虫目 ...
【知识积累】使用Httpclient实现网页的爬取并保存至本地
程序功能实现了爬取网页页面并且将结果保存到本地,通过以爬取页面出发,做一个小的爬虫,分析出有利于自己的信息,做定制化的处理. 其中需要的http*的jar文件,可以在网上自行下载 import jav ...
【Python】python3 正则爬取网页输出中文乱码解决
爬取网页时候print输出的时候有中文输出乱码例如: \\xe4\\xb8\\xad\\xe5\\x8d\\x8e\\xe4\\xb9\\xa6\\xe5\\xb1\\x80 #爬取https:// ...
Python学习笔记（15）- os\os.path 操作文件
程序1 编写一个程序,统计当前目录下每个文件类型的文件数,程序实现如图: import os def countfile(path): dict1 = {} # 定义一个字典 all_files = ...
python学习--第二天爬取王者荣耀英雄皮肤
今天目的是爬取所有英雄皮肤在爬取所有之前,先完成一张皮肤的爬取打开anacond调出编译器Jupyter Notebook 打开王者荣耀官网下拉找到位于网页右边的英雄/皮肤点击[+更多] 进入 ...
Python入门,以及简单爬取网页文本内容
最近痴迷于Python的逻辑控制,还有爬虫的一方面,原本的目标是拷贝老师上课时U盘的数据.后来发现基础知识掌握的并不是很牢固.便去借了一本Python基础和两本爬虫框架的书.便开始了自己的入坑之旅言 ...
python爬虫笔记之爬取足球比赛赛程
目标:爬取某网站比赛赛程,动态网页,则需找到对应ajax请求(具体可参考:https://blog.csdn.net/you_are_my_dream/article/details/53399949 ...
python使用requests库爬取网页的小实例：爬取京东网页
爬取京东网页的全代码: #爬取京东页面的全代码 import requests url="https://item.jd.com/2967929.html" try: r=requ ...

随机推荐

动态规划DP的优化
写一写要讲什么免得忘记了.DP的优化. 大概围绕着"是什么","有什么用","怎么用"三个方面讲. 主要是<算法竞赛入门经典>里 ...
HGOI20180904（NOIP2018模拟sxn出题）
sol 输入n和H表示n个人,选H个人gcd最大抓住排列,是x[1,n]的正整数,是连续的整数,假设现在最大的公因数是k其中k一定是在[1,n]那么在排列中最多出现的个数为w那么kw是最大的含有因数k ...
GDOI2018 Day1 题目总结
T1:农场题意:有一个长为 $n$ 的序列 $a$,要求将其分成尽可能多的部分,使得每一部分的 $a_i$ 的和相等.求最多能分成的部分数. $30\%:1\le n\le 1000$ $80\%: ...
（转）java中使用memcache
背景:公司项目中使用java和memcache相结合来搭建缓存,所以要了解下缓存的基础知识! 1 了解memcache 1.1 基础知识什么是Memcache? Memcache集群环境下缓存解决方 ...
Python【unittest】模块
[unittest]模块是python3.5中的一个内置模块 1.python文件导入[unittest]模块 import unittest 2.定义一个测试用例类,继承[unittest.Test ...
Mask RCNN 原理
转自:https://blog.csdn.net/ghw15221836342/article/details/80084861 https://blog.csdn.net/ghw1522183634 ...
Windows平台上谷歌浏览器损害电池
From:http://www.cnblogs.com/killerlegend/p/3909208.html Author:KillerLegend Date:2014.8.13 事情是这样的,我的 ...
C根据排序字符串
#include<stdio.h> #include<string.h> #include <stdlib.h> #define STR_LEN_MAX 100 c ...
G - DNA sequence HDU - 1560
题目链接: https://vjudge.net/contest/254151#problem/G AC代码: #include<iostream> #include<cstring ...
[转]CMake cache
CMakeCache.txt 可以将其想象成一个配置文件(在Unix环境下,我们可以认为它等价于传递给configure的参数). CMakeLists.txt 中通过 set(... CACHE . ...

Python学习笔记之爬取网页保存到本地文件

爬虫三步走

完整的爬虫(值得注意的是关于BeautifulSoup和pandas两个包，都需要事先在电脑上安装，可以使用pip命令方式安装，具体方法可查看之前的博文命令 pip install beautifulsoup & pip install pandas)

Python学习笔记之爬取网页保存到本地文件的更多相关文章

随机推荐

热门专题