一、使用 BeautifulSoup抓取网页信息信息

一、解析网页信息

from bs4 import  BeautifulSoup

with open('C:/Users/michael/Desktop/Plan-for-combating-master/week1/1_2/1_2code_of_video/web/new_index.html','r') as web_data:

    Soup = BeautifulSoup(web_data,'lxml')

    print(Soup)

二、获取要爬取元素的位置

浏览器右键-》审查元素-》copy-》seletor

  """

    body > div.main-content > ul > li:nth-child(1) > div.article-info > h3 > a

    body > div.main-content > ul > li:nth-child(1) > div.article-info > p.meta-info > span:nth-child(2)

    body > div.main-content > ul > li:nth-child(1) > div.article-info > p.description

    body > div.main-content > ul > li:nth-child(1) > div.rate > span

    body > div.main-content > ul > li:nth-child(1) > img

    """

  images = Soup.select('body > div.main-content > ul > li:nth-child(1) > img')

    print(images)

修改成：

  images = Soup.select('body > div.main-content > ul > li:nth-of-type(1) > img')

    print(images)

这时候能获取到一个

    images = Soup.select('body > div.main-content > ul > li > img')

    print(images)

获取到了所有图片

    titles = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')

    descs = Soup.select('body > div.main-content > ul > li > div.article-info > p.description')

    rates = Soup.select(' body > div.main-content > ul > li > div.rate > span')

    cates = Soup.select(' body > div.main-content > ul > li > div.article-info > p.meta-info > span')

    print(images,titles,descs,rates,cates,sep='\n-----------\n')

获取到了其他信息

三、获取标签中的文本信息（get_text()）及属性（get()）

for title in titles:

        print(title.get_text())

封装成字典：

for title,image,desc,rate,cate in zip(titles,images,descs,rates,cates):

        data = {

            'title':title.get_text(),

            'rate':rate.get_text(),

            'desc':desc.get_text(),

            'cate':cate.get_text(),

            'image':image.get('src')

        }

        print(data)

因为cates有多个属性，需要上升到父节点

cates = Soup.select(' body > div.main-content > ul > li > div.article-info > p.meta-info')

for title,image,desc,rate,cate in zip(titles,images,descs,rates,cates):

        data = {

            'title':title.get_text(),

            'rate':rate.get_text(),

            'desc':desc.get_text(),

            'cate':list(cate.stripped_strings),

            'image':image.get('src')

        }

        print(data)

#找到评分大于3的文章

for i in info:

    if float(i['rate'])>3:

        print(i['title'],i['cate'])

四、完整代码

from bs4 import  BeautifulSoup

info =[]

with open('C:/Users/michael/Desktop/Plan-for-combating-master/week1/1_2/1_2code_of_video/web/new_index.html','r') as web_data:

    Soup = BeautifulSoup(web_data,'lxml')

    # print(Soup)

    """

    body > div.main-content > ul > li:nth-child(1) > div.article-info > h3 > a

    body > div.main-content > ul > li:nth-child(1) > div.article-info > p.meta-info > span:nth-child(2)

    body > div.main-content > ul > li:nth-child(1) > div.article-info > p.description

    body > div.main-content > ul > li:nth-child(1) > div.rate > span

    body > div.main-content > ul > li:nth-child(1) > img

    """

    images = Soup.select('body > div.main-content > ul > li > img')

    titles = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')

    descs = Soup.select('body > div.main-content > ul > li > div.article-info > p.description')

    rates = Soup.select(' body > div.main-content > ul > li > div.rate > span')

    cates = Soup.select(' body > div.main-content > ul > li > div.article-info > p.meta-info')

    # print(images,titles,descs,rates,cates,sep='\n-----------\n')

for title,image,desc,rate,cate in zip(titles,images,descs,rates,cates):

        data = {

            'title':title.get_text(),

            'rate':rate.get_text(),

            'desc':desc.get_text(),

            'cate':list(cate.stripped_strings),

            'image':image.get('src')

        }

        #添加到列表中

        info.append(data)

#找到评分大于3的文章

for i in info:

    if float(i['rate'])>3:

        print(i['title'],i['cate'])

一、使用 BeautifulSoup抓取网页信息信息的更多相关文章

Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
HttpClient+Jsoup 抓取网页信息（网易贵金属为例）
废话不多说直接讲讲今天要做的事. 利用HttpClient和Jsoup技术抓取网页信息.HttpClient是支持HTTP协议的客户端编程工具包,并且它支持HTTP协议. jsoup 是一款基于 Ja ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...
python写的爬虫工具，抓取行政村的信息并写入到hbase里
python的版本是2.7.10,使用了两个第三方模块bs4和happybase,可以通过pip直接安装. 1.logger利用python自带的logging模块配置了一个简单的日志输出 2.get ...
Java广度优先爬虫示例(抓取复旦新闻信息)
一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有HttpClient4.3.4,HtmlParser2.1,使用的开发 ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
教您使用java爬虫gecco抓取JD全部商品信息
gecco爬虫如果对gecco还没有了解可以参看一下gecco的github首页.gecco爬虫十分的简单易用,JD全部商品信息的抓取9个类就能搞定. JD网站的分析要抓取JD网站的全部商品信息, ...
使用python抓取美团商家信息
抓取美团商家信息 import requests from bs4 import BeautifulSoup import json url = 'http://bj.meituan.com/' ur ...
使用selenium webdriver+beautifulsoup+跳转frame，实现模拟点击网页下一页按钮，抓取网页数据
记录一次快速实现的python爬虫,想要抓取中财网数据引擎的新三板板块下面所有股票的公司档案,网址为http://data.cfi.cn/data_ndkA0A1934A1935A1986A1995. ...

随机推荐

Android Studio 那些事｜Activity文件前标识图标显示为 j 而是 c
问题:Activity文件前标识图标显示为 j 而是 c 的图标,或是没有显示,并且自己主动提示不提示 watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/fo ...
hdu1878欧拉回路(DFS+欧拉回路)
欧拉回路 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submi ...
Spring AOP（转载）
此前对于AOP的使用仅限于声明式事务,除此之外在实际开发中也没有遇到过与之相关的问题.最近项目中遇到了以下几点需求,仔细思考之后,觉得采用AOP 来解决.一方面是为了以更加灵活的方式来解决问题,另一方 ...
Java 多线程1（转载）
来源:http://hllvm.group.iteye.com/group/wiki/2877-synchronized-volatile 最近想将java基础的一些东西都整理整理,写下来,这是对知识 ...
流迭代器 + 算法灵活控制IO流
前言标准算法配合迭代器使用太美妙了,使我们对容器(数据)的处理更加得心应手.那么,能不能对IO流也使用标准算法呢?有人认为不能,他们说因为IO流不是容器,没有迭代器,故无法使用标准算法.他们错了,错 ...
有趣的Ruby-学习笔记3
Ruby方法方法名要以小写字母开头.假设用大写字母开头会被作为常量 (这点非常奇怪) 定义一个无參的方法 def method_name expr.. end 定义一个有參的方法 def metho ...
【BZOJ3252】攻略 DFS序+线段树（模拟费用流）
[BZOJ3252]攻略 Description 题目简述:树版[k取方格数] 众所周知,桂木桂马是攻略之神,开启攻略之神模式后,他可以同时攻略k部游戏. 今天他得到了一款新游戏<XX半岛> ...
Asynchronous programming with async and await (C#)
Asynchronous Programming with async and await (C#) | Microsoft Docs https://docs.microsoft.com/en-us ...
Problem binding to [bigdata-server-01:9000] java.net.BindException: Cannot assign requested address;
If the port is "0", then the OS is looking for any free port -so the port-in-use and port- ...
动态绑定允许我们在程序运行的过程中动态给class加上功能，这在静态语言中很难实现
https://www.liaoxuefeng.com/wiki/ # 正常情况下,当我们定义了一个class,创建了一个class的实例后,我们可以给该实例绑定任何属性和方法, # 这就是动态语言的 ...

一、使用 BeautifulSoup抓取网页信息信息

一、解析网页信息

二、获取要爬取元素的位置

三、获取标签中的文本信息（get_text()）及属性（get()）

四、完整代码

一、使用 BeautifulSoup抓取网页信息信息的更多相关文章

随机推荐

热门专题