python 爬虫启航2.0

文章解析：

1.正则表达式解析

2.beautifulsoup，BeautifulSoup是一个复杂的树形结构，她的每一个节点都是一个python对象，获取网页的内容就是一个提取对象内容的过程，它的提取方法可以归类为三种，1）遍历文档树 2）搜索文档树 3）css选择器

# -*- coding: utf-8 -*-
# @Time    : 2018/11/28 17:23
# @Author  : Bo
# @Email   : mat_wu@163.com
# @File    : re_spider.py
# @Software: PyCharm
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
def get_title_re_spider():
    url = "http://www.santostang.com/"
    headers = {
        "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0",
    }

    r = requests.get(url,headers= headers,timeout =10)
    html = r.text
    title_list = re.findall('<h1 class="post-title"><a href=.*?>(.*?)</a></h1>',html)
    print(title_list)

def beautifulsoup_spider():
    url = "http://www.santostang.com/"
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0",
    }

    r = requests.get(url, headers=headers, timeout=10)
    soup = BeautifulSoup(r.text,"html.parser")
    title_list = soup.find_all("h1",class_="post-title")
    for i in range(len(title_list)):
        title = title_list[i].a.text.strip()
        print("第 %s篇文章的标题是：%s" %(i+1,title))

def beautiful_methods():
    url = "http://www.santostang.com/"
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0",
    }

    r = requests.get(url, headers=headers, timeout=10)
    soup = BeautifulSoup(r.text, "html.parser")
    # print(soup.prettify()) #soup对代码进行优化

    #遍历文档树
    one_element = soup.header.h1 #获取具体的标签节点
    elements = soup.header.contents #获取header标签的子节点
    first_element = soup.header.contents[1] #标签都在奇数项
    # print(one_element)
    # print(elements)
    # # print(first_element)
    # #获取子节点(只有下一级)
    # for child in soup.body.children:
    #     print(child)
    # #获取所有子子孙孙的节点
    # for child in soup.body.descendants:
    #     print(child)
    # a_tag = soup.header.div.a
    # a_parent = a_tag.parent
    # print(a_parent)
    # #搜索节点 find() 和find_all()

    #css选择器
    print(soup.select("header h1"))
    print(soup.select("header > h1"))

    #css也可以实现文档搜索功能

    #使用lxml解析网页

def lxml_spider():
    url = "http://www.santostang.com/"
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0",
    }

    r = requests.get(url, headers=headers, timeout=10)

    html = etree.HTML(r.text)
    title_list = html.xpath("/html/body/div[1]/div/div[1]/article/header/h1/a/text()")
    print(title_list)

# 项目实践-爬取安居客二手房信息
def second_house_spider():
    url = "https://weihai.anjuke.com/sale/gaoqu/?from=SearchBar"

    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0",
    }
    r = requests.get(url,headers = headers,timeout = 10)

    #使用BeautifulSoup解析网页
    soup = BeautifulSoup(r.text,'lxml')

    house_list = soup.find_all("li",class_="list-item")

    for house in house_list:
        name = house.find("div",class_="house-title").a.text.strip()
        price = house.find("span",class_="price-det").text.strip()
        price_area = house.find("span",class_="unit-price").text.strip()

        no_room = house.find("div",class_='details-item').span.text.strip()
        area = house.find("div",class_="details-item").contents[3].text
        floor = house.find("div",class_="details-item").contents[5].text

        address = house.find("span",class_="comm-address").text.strip()

        address = address.replace('\xa0\xa0\n           ',' ')
        tag_list = house.find_all("span",class_="item-tags")
        tag = [i.text for i in tag_list]

        with open('b.txt', "a+",encoding="utf-8") as f:
            f.write(address)
        print(name)
        print(price)
        print(price_area)
        print(no_room)
        print(area)
        print(floor)
        print(address)
        print(tag)

if __name__ == "__main__":
    # get_title_re_spider()
    # beautifulsoup_spider()
    # beautiful_methods()
    lxml_spider()

学习网址：

https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id27

python 爬虫启航2.0的更多相关文章

python 爬虫启航
1. 使用excel(简单使用) 数据- 自网站-导入 2.you-get python爬虫入门 1.环境配置 python,request,lxml 2.原理爬虫的框架如下: 1.挑选种子URL: ...
Python爬虫Scrapy框架入门（0）
想学习爬虫,又想了解python语言,有个python高手推荐我看看scrapy. scrapy是一个python爬虫框架,据说很灵活,网上介绍该框架的信息很多,此处不再赘述.专心记录我自己遇到的问题 ...
【Python爬虫】听说你又闹书荒了？豆瓣读书9.0分书籍陪你过五一
说明五一将至,又到了学习的季节.目前流行的各大书单主打的都是豆瓣8.0评分书籍,却很少有人来聊聊这9.0评分的书籍长什么样子.刚好最近学了学python爬虫,那就拿豆瓣读书来练练手. 爬虫本来思路 ...
0.Python 爬虫之Scrapy入门实践指南（Scrapy基础知识）
目录 0.0.Scrapy基础 0.1.Scrapy 框架图 0.2.Scrapy主要包括了以下组件: 0.3.Scrapy简单示例如下: 0.4.Scrapy运行流程如下: 0.5.还有什么? 0. ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
120项改进：开源超级爬虫Hawk 2.0 重磅发布！
沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...

随机推荐

高级数据类型---元祖[tuple]
一.Tuple(元组)与列表类似,不同之处在于元组的元素不能修改,让列表不可以被修改,以保护数据安全元组表示多个元素组成的序列元组在 Python 开发中,有特定的应用场景用于存储一串 ...
python自学第9天，装饰器
装饰器:本质是函数(装饰其它函数) 就是为其它函数添加附加功能原则:1.不能修改被装饰函数的源代码 2.不能修改被装饰的函数的调用方式实现装饰器知识储备: 1.函数即变量 2.高阶函数:a.把一个 ...
ID3-C45-CART
区别:使用不同的属性选择度量. 信息增益偏向多值属性信息增益率倾向产生不平衡的划分基尼指数偏向多值属性,并且当类的数量很大时会有困难,还倾向于导致相等大小的分区和纯度 C4.5: 优点:产生的分类 ...
Python全栈之路----Python2与Python3
金角大王Alex python 之路,致那些年,我们依然没搞明白的编码 python2与python3的区别 py2 str = bytes 为什么有bytes? 是因为要表示图片.视频等二进制格式 ...
数据持久化系列之Mysql
一.命令行操作 1.显示所有库: show databases; 2.要操作某个库,比如库名: db_book:use db_book; 3.查看表的基本结构,比如表名: t_book:desc t_ ...
【python接口自动化-requests库】【一】requests库安装
1.概念 requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更加方便,可以节约我们大量的工作,完全满 ...
WebSocket是什么原理？为什么可以实现持久连接？
作者:Ovear 链接:https://www.zhihu.com/question/20215561/answer/40316953来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载 ...
(思维导图搞定)Content-Type：application/json，后台如何接收
自己定的规范:只要Content-Type设置为application/json的时候,前台的data要传递字符串虽然设置为application/json,前台传对象request.getPara ...
keepalive实现MGR的自动切换（二）
10.0.0.7 lemon 10.0.0.8 lemon2 10.0.0.9 lemon3 程序代码里只需写一个VIP连接数据库即可,后面是连接在哪一台通过,keepalived的在服务端实现: ...
Qt对`vtable的未定义引用
错误描述:Qt在linux系统编译时,遇到一个错误大致如下形式在 xxxxx函数中对‘vtable for xxxxx未定义的引用网上找了很多,各种情况都有,大多数是虚函数未实现导致的, 但也有 ...

python 爬虫启航2.0

python 爬虫启航2.0的更多相关文章

随机推荐

热门专题