URL处理----拼接和编码

ps：浪了好几周，我的锅。。。

前几天想爬取一个用户网站自动创建每个用户的资料方便注册一些账号，想写一个通用点的爬虫程序爬取只要配置一些爬取规则、爬取深度就ok，避免代码改动，由于时间关系只完成的个半成品，后面在考虑是用xml文件作为配置文件，还是简单的使用.ini文件，后者虽然简单但局限性太大，所以，，，偷几天懒顺便重新考虑下逻辑。

==================================================================================================================================================

既然想通用一些，那url的一些处理必不可少，如拼接、中文编码和空格编码等问题，从网上找了下比较琐碎，所以自己简单封装了一个，主要处理了下url拼接和中文编码的问题。

运行环境：python3 、pycharm编辑器

代码如下：

 # -*- coding: utf-8 -*-

 # au: cpy

 #

 # url拼接和编码问题

 import re

 from urllib.parse import urljoin,quote

 def check_zh(word):

     list_zh = re.findall('[\u4e00-\u9fa5]+',word)  # 正则匹配存在的中文

     if list_zh:

         for zh in list_zh:

             word = re.sub(zh,quote(zh),word)

             # print(word)

     return word

 def checkUrl(domain, url): # domain：域名

     if type(url) is not str and hasattr(url, "decode"):

         url = url.decode()

     if not url.startswith("http"):

         url = urljoin(domain, url)

     url = check_zh(url)

     return url

 if __name__ == '__main__':

     domain = "https://www.baidu.com/"

     # postfix_url  = "s?ie=UTF-8&wd=python3判断字符串中是否有中文"

     url  = "s?ie=UTF-8&wd=python3判断字符串中是否有中文"

     print(url)

     print(checkUrl(domain, url))

     '''

     结果：

     s?ie=UTF-8&wd=python3判断字符串中是否有中文

     https://www.baidu.com/s?ie=UTF-8&wd=python3%E5%88%A4%E6%96%AD%E5%AD%97%E7%AC%A6%E4%B8%B2%E4%B8%AD%E6%98%AF%E5%90%A6%E6%9C%89%E4%B8%AD%E6%96%87

     '''

ps: 代码在pycharm编辑器中正常运行，其它方式运行可能会提示存在编码问题

URL处理----拼接和编码的更多相关文章

url中拼接中文参数，后台接收为乱码的问题
遇到在URL中拼接中文的参数,后台拿到的数据为乱码的问题,这里来说一下问题出现的原因与解决方法. 大家比较关心的应该是解决的方法,因此先说解决方法. 解决方法解决的方法是在客户端对这个中文参数进行编 ...
URL安全的Base64编码
Base64编码可用于在HTTP环境下传递较长的标识信息.在其他应用程序中,也常常需要把二进制数据编码为适合放在URL(包括隐藏表单域)中的形式.此时,采用Base64编码不仅比较简短,同时也具有不可 ...
vue获得当前页面URL动态拼接URL复制邀请链接方法
vue获得当前页面URL动态拼接URL复制邀请链接方法当前页面完整url可以用 location.href路由路径可以用 this.$route.path路由路径参数 this.$route.par ...
iOS - 网址、链接、网页地址、下载链接等正则表达式匹配(解决url包含中文不能编码的问题)
DNS规定,域名中的标号都由英文字母和数字组成,每一个标号不超过63个字符,也不区分大小写字母.标号中除连字符(-)外不能使用其他的标点符号.级别最低的域名写在最左边,而级别最高的域名写在最右边.由多 ...
网址URL中特殊字符转义编码
网址URL中特殊字符转义编码字符 - URL编码值空格 - %20" - %22# - %23% - %25& - %26( - %28) - %29+ - %2B, - %2C/ ...
controller中的路径明明书写正确，浏览器中访问的url也拼接正确，但报404
Bug:controller中的路径明明书写正确,浏览器中访问的url也拼接正确,但报404 原因一:由于路由地址对应的处理方法存在同名而造成的,此时应该检查controller的方法们,看看有没有同 ...
scrapy爬取数据的基本流程及url地址拼接
说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢! 了解内容: Scrapy :抓取数据的爬虫框架异步与非阻塞的区别异步:指的是整个过程,中间如果是非阻塞的,那就是异步 ...
JavaScript中URL的解码和编码
这些URI方法encodeURI.encodeURIComponent().decodeURI().decodeURIComponent()代替了BOM的escape()和unescape()方法. ...
iOS URL中汉字的编码和解码
发现NSString类中有内置的方法可以实现.他们分别是: - (NSString *)stringByAddingPercentEscapesUsingEncoding:(NSStringEncod ...

随机推荐

Tensorflow之MNIST手写数字识别：分类问题（1）
一.MNIST数据集读取 one hot 独热编码独热编码是一种稀疏向量,其中:一个向量设为1,其他元素均设为0.独热编码常用于表示拥有有限个可能值的字符串或标识符优点: 1.将离散特征的取值扩展 ...
201871010113-刘兴瑞《面向对象程序设计（java）》第六-七周学习总结
项目内容这个作业属于哪个课程 <任课教师博客主页链接> https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 <作业链接地址>htt ...
题解：openjudge 1.11——01
题目思路:二分查找来,上代码 #include<cstdio> #include<iostream> using namespace std; +]; int n,m; i ...
教你用好 Javascript 数组
原文链接:https://juejin.im/post/5d9769b26fb9a04df26c1b89 作为 Javascript 的标准对象之一,数组是非常底层而且实用的数据结构.虽然结构很简单, ...
LOJ6029 [雅礼集训2017]市场
看到区间整除操作,直觉是不会除太多次就变成全 $1$. 然而现在还有加操作. 我也不知道为什么,当一个节点的 \(\lfloor\frac{mx}{d}\rfloor=\lfloor\frac{m ...
生成git的SSH公钥
1.右键,点击 git bash here 2.安装成功后设置用户和邮箱git config --global user.name "name"git config --glob ...
Spring Security OAuth2学习
什么是 oAuth oAuth 协议为用户资源的授权提供了一个安全的.开放而又简易的标准.与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需 ...
FineUIPro v6.0.0 大版本更新，快来围观！
本月末(2019-09-20),我们会发布激动人心的 FineUI v6.0.0 版本,这个版本将带来一系列的重要更新! 在列举新版本特性之前,我们先来回顾下每次发布大版本的关键时间点: v1.0.0 ...
[SpingBoot guides系列翻译]文件上传
文件上传这节的任务是做一个文件上传服务. 概况参考链接原文 thymeleaf spring-mvc-flash-attributes @ControllerAdvice 你构建的内容分两部分 ...
svn merge操作
使用SVN做Merge操作时,会包含6个选项,下面就这6个选项给出详细的说明: 1.Merge a range of revisions 此类型应用最为广泛,主要是把源分支中的修改合并到目标分支上来. ...

URL处理----拼接和编码

URL处理----拼接和编码的更多相关文章

随机推荐

热门专题