python简单页面爬虫入门 BeautifulSoup实现

本文可快速搭建爬虫环境，并实现简单页面解析

1、安装 python

下载地址：https://www.python.org/downloads/

选择对应版本，常用版本有2.7、3.4

安装后，将安装目录加入到环境变量path中，可在dos窗口查看版本，以检查是否安装正常

python -V

2、安装 pip

pip是python包管理工具，该工具提供了对Python 包的查找、下载、安装、卸载的功能

目前如果你在 python.org 下载最新版本的安装包，则是已经自带了该工具。

Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。

下载地址：https://pypi.org/project/pip/#files ，

你可以通过以下命令来判断是否已安装：

pip --version

选择对应版本，下载后解压，在文件目录执行安装命令：

python setup.py install

3、安装 BeautifulSoup

执行命令：

pip install beautifulsoup4

4、代码

#-*- coding:utf-8 -*-

import urllib2

import urllib

from bs4 import BeautifulSoup

#设置字符编码格式

import sys

reload(sys)

sys.setdefaultencoding('utf8')

#打开保存结果的txt

txtfile = open('data.txt','w') 

#请求网页

url = "www.baidu.com"
html=urllib2.urlopen(url).read()

#解析网页和数据

soup = BeautifulSoup(html, "html.parser")

html_name = soup.findAll(attrs={"class":"f_l zi"})

html_five = soup.findAll(attrs={"class":"co_666"})

surname = html_name[0].text

#保存结果

txtfile.write(surname )

一个简单的爬虫就完成了,欢迎留言交流

python简单页面爬虫入门 BeautifulSoup实现的更多相关文章

Selenium + PhantomJS + python 简单实现爬虫的功能
Selenium 一.简介 selenium是一个用于Web应用自动化程序测试的工具,测试直接运行在浏览器中,就像真正的用户在操作一样 selenium2支持通过驱动真实浏览器(FirfoxDrive ...
Python简单网络爬虫实战—下载论文名称，作者信息（下）
在Python简单网络爬虫实战—下载论文名称,作者信息(上)中,学会了get到网页内容以及在谷歌浏览器找到了需要提取的内容的数据结构,接下来记录我是如何找到所有author和title的 1.从sou ...
Python基础及爬虫入门
**写在前面**我们在学习任何一门技术的时候,往往都会看很多技术博客,很多程序员也会写自己的技术博客.但是我想写的这些不是纯技术博客,我暂时也没有这个能力写出 Python 或者爬虫相关的技术博客来. ...
亲身试用python简单小爬虫
前几天基友分享了一个贴吧网页,有很多漂亮的图片,想到前段时间学习的python简单爬虫,刚好可以实践一下. 以下是网上很容易搜到的一种方法: #coding=utf-8 import urllib i ...
Python爬虫从入门到进阶(1)之Python概述及爬虫入门
一.Python 概述 1.计算机语言概述 (1).语言:交流的工具,沟通的媒介 (2).计算机语言:人跟计算机交流的工具 (3).Python是计算机语言的一种 2.Python编程语言代码:人类 ...
python爬虫入门--beautifulsoup
1,beautifulsoup的中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ 2, from bs4 import Be ...
Python 简单网页爬虫学习
#coding=utf-8 # 参考文章: # 1. python实现简单爬虫功能 # http://www.cnblogs.com/fnng/p/3576154.html # 2. Python 2 ...
爬虫入门 beautifulsoup库（一）
先贴一个beautifulsoup的官方文档,https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id12 requ ...
Python简单分布式爬虫
分布式爬虫采用主从模式.主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机(url管理器,数据存储器,控制调度器),爬虫只需要从控制节点哪里接收任务,并把新生成任务提交给控制节点.此次 ...

随机推荐

Oracle insert大量数据经验之谈
在很多时候,我们会需要对一个表进行插入大量的数据,并且希望在尽可能短的时间内完成该工作,这里,和大家分享下我平时在做大量数据insert的一些经验. 前提:在做insert数据之前,如果是非生产环境, ...
避免复制引用程序集的XML文件
VS在编译时,默认会复制所有引用程序集对应的XML文件到输出目录. 在项目中设置AllowedReferenceRelatedFileExtensions可以避免复制操作. <PropertyG ...
js 次方开方对数
次方 ,用Math.pow(值,次方数) 如: Math.pow(3,2); 3的平方 Math.Pow(2,3); 2的立方开方Math.sqrt(值) 如: Math.sqrt(9); ...
PHP 数据库连接
$db = new MySQLi("localhost","root","123","php0307"); !mysql ...
php 微服务
https://neatlifecoco.com/15618891575018.html https://juejin.im/post/5d3927816fb9a07ee27b58df https:/ ...
es原理
一: 一个请求到达es集群,选中一个coordinate节点以后,会通过请求路由到指定primary shard中,如果分发策略选择为round-robin,如果来4个请求,则2个打到primary ...
【转帖】如果进入CPU的世界，时间会是怎样的？
如果进入CPU的世界,时间会是怎样的? 2018-02-26 20:52:46 world6 阅读数 1295更多分类专栏: 网络缓存服务架构版权声明:本文为博主原创文章,遵循CC 4.0 ...
PHP被忽略的基础知识
目录下列PHP配置项中,哪一个和安全最不相关:() 字符串比较函数格林时间在PHP面向对象中,下面关于final修饰符描述错误的是( ) getdate()函数返回的值的数据类型是:( ) 关于 ...
（三）Spring Boot 官网文档学习之默认配置
文章目录继承 `spring-boot-starter-parent` 覆盖默认配置启动器原文地址:https://docs.spring.io/spring-boot/docs/2.1.3.R ...
fork() 函数简介
fork() 函数简介 fork系统调用用于创建一个新进程,称为子进程,它与进行fork()调用的进程(父进程)并发运行.创建新的子进程后,两个进程都将执行fork()系统调用之后的下一条指令.子进程 ...