python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步）

 #!/usr/bin/env python

 # -*- coding: utf- -*-

 # python3

 import string

 import urllib

 from urllib import request

 from bs4 import BeautifulSoup

 url="https://ne0matrix.com/2020/01/08/伊朗，赢了"

 # 有中文的url，直接urlopen会出错，需要quote处理一下。
safe=参数表示不需要被处理的字符，默认为/。现在设为string.printable表示非中文的不需要转换。

 url_quote=urllib.parse.quote(url,safe=string.printable)

 # quote的逆向操作unquote：

 # url_unquote=urllib.parse.unquote(url_quote

 print (url_quote)

 page_read=request.urlopen(url_quote).read()

 page_decode=page_read.decode('utf-8')

 with open ('output.html','w')as f:

     f.write(page_decode)

 with open ('output.html','r')as f:

     alltext=f.read()

 bsobj=BeautifulSoup(alltext,'html.parser')

 # 如果不加html.parser则使用默认的lxmlparser，会有警告，但不影响使用

 print (bsobj.title)

 # 获取标题<title>...

 print (bsobj.title.get_text())

 # get_text()获取纯文字的标题

 date=bsobj.find('p',{'class':'mt-3'}).get_text()

 print (date.strip())

 # strip()去掉前后空格

 count=bsobj.find('span',{'class':'post-count'})

 print(count.get_text().strip())

 text=bsobj.find('div',{'class':'markdown-body'})

 print(text.get_text())

 # 查找正文

python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步）的更多相关文章

Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
一个简单python爬虫的实现——爬取电影信息
最近在学习网络爬虫,完成了一个比较简单的python网络爬虫.首先为什么要用爬虫爬取信息呢,当然是因为要比人去收集更高效. 网络爬虫,可以理解为自动帮你在网络上收集数据的机器人. 网络爬虫简单可以大致 ...
python 爬虫与数据可视化--数据提取与存储
一.爬虫的定义.爬虫的分类(通用爬虫.聚焦爬虫).爬虫应用场景.爬虫工作原理(最后会发一个完整爬虫代码) 二.http.https的介绍.url的形式.请求方法.响应状态码 url的形式: 请求头: ...
python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...
Python爬虫10-页面解析数据提取思路方法与简单正则应用
GitHub代码练习地址:正则1:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac15_RE1.py 正则2:match. ...
Python爬虫基础——re模块的提取和匹配
re是Python的一个第三方库. 为了能更直观的看出re的效果,我们先新建一个HTML网页文件(可直接复制): index.html <!DOCTYPE html> <html l ...
python爬虫爬取腾讯招聘信息（静态爬虫）
环境: windows7,python3.4 代码:(亲测可正常执行) import requests from bs4 import BeautifulSoup from math import c ...
Python爬虫(一)——开封市58同城租房信息
代码: # coding=utf-8 import sys import csv import requests from bs4 import BeautifulSoup reload(sys) s ...
python爬虫爬取ip记录网站信息并存入数据库
import requests import re import pymysql #10页仔细观察路由 db = pymysql.connect("localhost",&quo ...

随机推荐

CSS学习 | 思维导图
CSS样式
时序数据库 Apache-IoTDB 源码解析之前言（一）
IoTDB 是一款时序数据库,相关竞品有 Kairosdb,InfluxDB,TimescaleDB等,主要使用场景是在物联网相关行业,如:车联网.风力发电.地铁.飞机监控等等,具体应用案例及公司详情 ...
MySql新版本安装配置
版本:mysql-5.7.16-winx64 平台Windows 7 x64 1.进入mysql主目录(建议将其移到C或D盘的根目录,并改名为mysql) 2.配置path环境变量(如D:\JAVA\ ...
不要被C++“自动生成”所蒙骗
http://www.cnblogs.com/fanzhidongyzby/archive/2013/01/12/2858040.html C++对象可以使用两种方式进行创建:构造函数和复制构造函数. ...
视觉slam十四讲ch6曲线拟合代码注释（笔记版）
// ceres 版本 1 #include <opencv2/core/core.hpp> #include <ceres/ceres.h> #include <chr ...
CERC2017 H Hidden Hierarchy(树+模拟)
题意: 在一些给定的目录里按要求展开到制定大小并按字典序输出思路: 因为有目录这个东西,所以想到模拟一个类似字典树的东西,不过这里每个儿子可能有n个节点,而且不能O(1)查询了代码超长.. #in ...
bind() 理解【转】
bind()可稍后执行 call() apply() 为了搞清这个陌生又熟悉的bind,google一下,发现javascript1.8.5版本中原生实现了此方法,目前IE9+,ff4+,chro ...
《Python编程:从入门到实践》分享下载
书籍信息书名:<Python编程:从入门到实践> 原作名:Python Crash Course 作者: [美] 埃里克·马瑟斯豆瓣评分:9.1分(2534人评价) 内容简介本书是一 ...
12-MyBatis02
今日知识 1. 关联查询 2. 延时加载 3. 查询缓存关联查询 1.一对一 resultType实现 1. 写个定单的扩展类 public class OrdersExt extends Orde ...
mac chrome
command + < 可以直接跳转到谷歌设置的页面去.

python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步）

python爬虫2：按html标签提取信息和中文域名处理（BeautifulSoup用法初步）的更多相关文章

随机推荐

热门专题