python之爬取网页数据总结（一）

今天尝试使用python，爬取网页数据。因为python是新安装好的，所以要正常运行爬取数据的代码需要提前安装插件。分别为requests Beautifulsoup4 lxml 三个插件。

因为配置了环境变量，可以cmd命令直接安装。假如电脑上有两个版本的python，建议进入到目录安装。

安装的命令为 pip install requests（Beautifulsoup4 /lxml ）三条分别执行。

安装结束，可以尝试网上一些简单的例子，明白了解 Beautifulsoup4 解析网页所使用的方式。这个可以避开正则表达式，个人感觉学起来很方便。

soup.select('') 这个方法就是解析网页代码，提取其中某一部分。该方法的使用可以类比java 爬虫的webmagic jsoupXpath-0.1.1.jar 的使用方法。

主要理解这个方法之后就可以看懂大部分代码。

以下为网上的例子代码，比较简单，适合学习。

import requests

from bs4 import BeautifulSoup

def getHTMLText(url):

    try:

        r = requests.get(url, timeout = 30)

        r.raise_for_status()

        #r.encoding = 'utf-8'

        return r.text

    except:

        return ""

def getContent(url):

    html = getHTMLText(url)

    # print(html)

    soup = BeautifulSoup(html, "html.parser")

    title = soup.select("div.hd > h1")

    print(title[0].get_text())

    time = soup.select("div.a_Info > span.a_time")

    print(time[0].string)

    author = soup.select("div.qq_articleFt > div.qq_toolWrap > div.qq_editor")

    print(author[0].get_text())

    paras = soup.select("div.Cnt-Main-Article-QQ > p.text")

    for para in paras:

        if len(para) > 0:

            print(para.get_text())

            print()

    #写入文件

    fo = open("text.txt", "w+")

    fo.writelines(title[0].get_text() + "\n")

    fo.writelines(time[0].get_text() + "\n")

    for para in paras:

        if len(para) > 0:

            fo.writelines(para.get_text() + "\n\n")

    fo.writelines(author[0].get_text() + '\n')

    fo.close()

    #将爬取到的文章用字典格式来存

    article = {

        'Title' : title[0].get_text(),

        'Time' : time[0].get_text(),

        'Paragraph' : paras,

        'Author' : author[0].get_text()

    }

    print(article)

def main():

    url = "http://news.qq.com/a/20170504/012032.htm"

    getContent(url);

main()

　　掌握基本的爬取数据之后，便尝爬取取大量数据。经过多次尝试发现，首先需要准备多个ip，同一个ip多次访问长时间会导致结果全部为空。

其次是多线程，为的是增加速度。python中多线程网上大多使用的是pool

使用

if __name__ == '__main__':#需加上这句代码，这时是一种固定的写法
    # pool()有一个参数，processes，表示有多少个进程,比如processes=2
    pool = ThreadPool()   //网上大部分使用的是pool=Pool()，但是经过多次尝试总是失败，然后改成了这样的。

    pool.map(get_all_list_info,urlStr)  //两个参数，第一个为调用的方法，该方法有参数，但是后边不写形参，map的第二个参数为一个迭代器，就是集合形式，会按顺序取其中的数据，作为参数传递给方法。
    pool.close()
    pool.join()

掌握这些，基本可以实现大量数据爬取。

python之爬取网页数据总结（一）的更多相关文章

python爬虫——爬取网页数据和解析数据
1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2 ...
使用webdriver+urllib爬取网页数据(模拟登陆，过验证码)
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...
python爬虫爬取天气数据并图形化显示
前言使用python进行网页数据的爬取现在已经很常见了,而对天气数据的爬取更是入门级的新手操作,很多人学习爬虫都从天气开始,本文便是介绍了从中国天气网爬取天气数据,能够实现输入想要查询的城市,返回该 ...
使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
接着上次的python爬虫，今天进阶一哈，局部解析爬取网页数据
*解析网页数据的仓库用Beatifulsoup基于lxml包lxml包基于html和xml的标记语言的解析包.可以去解析网页的内容,把我们想要的提取出来. 第一步.导入两个包,项目中必须包含beau ...
使用python爬虫爬取股票数据
前言: 编写一个爬虫脚本,用于爬取东方财富网的上海股票代码,并通过爬取百度股票的单个股票数据,将所有上海股票数据爬取下来并保存到本地文件中系统环境: 64位win10系统,64位python3.6, ...
03：requests与BeautifulSoup结合爬取网页数据应用
1.1 爬虫相关模块命令回顾 1.requests模块 1. pip install requests 2. response = requests.get('http://www.baidu.com ...
python动态爬取网页
简介有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现,我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起来唾手可得. 这说明我们想要的元素是在我 ...
pycharm爬取网页数据
1 python环境的配置 1.1 安装python文件包,放到可以找到的位置 1.2 右键计算机->属性->高级环境设置->系统变量->Path->编辑->复制p ...

随机推荐

【HANA系列】SAP HANA SQL REPLACE替换字符串
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[HANA系列]SAP HANA SQL REP ...
python3.4 + pycharm安装与使用
因个人是windows的环境,所以本文只讲windows环境下的python安装. 作为初用python的盆友,强烈建议只在电脑上装一个python版本就好了,不然就进了各种坑里了. Python安装 ...
LeetCode.1103-向人们分发糖果(Distribute Candies to People)
这是小川的第393次更新,第425篇原创 01 看题和准备今天介绍的是LeetCode算法题中Easy级别的第256题(顺位题号是1103).我们通过以下方式向一排n = num_people个人分 ...
AI测试——旅程的终点
在2019年6月,我产生了一个想法,即人工智能探索测试AIET(Artificial intelligence exploration test),大概用了一周时间来思考怎么把人工智能应用到测试领域, ...
acrobat xi pro 11 补丁激活
acrobat xi pro 11 是一款专门为Adobe Acrobat XI Pro 11制作的破解补丁,这款补丁可以免去软件的激活步骤,让用户可以永久免费使用这款软件.11是款功能强大的pdf设 ...
OpenGL_构建GLFW与第一个程序
参考教程:https://learnopengl-cn.github.io/ 这个教程已经给出了很详细的资料,当然我这里是对细节的展示(在Windows上). 首先,你需要准备 VS2017 : ht ...
【转贴】SQL Server中关于跟踪（Trace)那点事
SQL Server中关于跟踪(Trace)那点事 https://www.cnblogs.com/zhijianliutang/p/4113911.html 作者很牛B.. 前言一提到跟踪俩字,很 ...
关于一个查询的JAVA界面，希望对你有启发
package work2; import java.awt.BorderLayout; import javax.swing.JButton; import javax.swing.JFrame; ...
java使用顺序数组实现二叉树
顺序数组实现二叉树实现原理对于下标为index的节点其满足 1.左孩子节点的下标为2index+1 2.右孩子节点的下标为2index+2 代码实现 package tree; public cl ...
JAVA重载和数组
Java 重载:相同的方法名,但参数个数或者类型不一样的情况下,自动执行不同的方法数组: int[] array=new int[5]; System.out.println(array); ...

python之爬取网页数据总结（一）

python之爬取网页数据总结（一）的更多相关文章

随机推荐

热门专题