本例中环境: python3.6.6 demjson-2.2.4 如不看废话请直接看3(下面红体字) 1.近期在爬取代理验证代理的时候发生一个Bug, 就是在验证代理的时候返回的是如下字符串, {ip:'121.79.50.68',address:'北京市 长城宽带'} 刚开始十分开心这不是json字符串吗,那就很方便了. 马上就用python3自带的json模块进行了json.loads(str)处理. 结果大家也知道了,直接报错,连续来回折腾几次, 发现这不是标准的json字符串,字符串的k…
目录 1 需求说明 2 解析代码 2.1 实现思路 2.2 详细代码 2.3 测试样例 1 需求说明 项目中遇到了一批不带引号的类JSON格式的字符串: {Name:Heal,Age:20,Tag:[Coding,Reading]} 需要将其解析成JSON对象, 然后插入到Elasticsearch中, 当作Object类型的对象存储起来. 在对比了阿里的FastJson.Google的Gson, 没找到想要的功能 ( 可能是博主不够仔细, 有了解的童学留言告诉我下呀…
假如你的文件路径名是这样的,例如:test.csv 只要它是小文件(大文件采用分块读取,后续会补上文件分块读取的相关博客),你的内存扛得住,那就直接 import pandas as pd test = pd.read_csv('test.csv', encoding='utf-8') 假如你的文件路径名包含了中文,例如:测试.csv 那么你就需要这样子 import pandas as pd file = open('测试.csv', encoding='utf-8') data = pd.r…
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三大解析方法之一. 首先来看个例子: from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></h…
08.06自我总结 python爬虫网页解析之lxml模块 一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml pip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl #文件所在的路径 linux下安装: 方法一:pip3 install lxml 方法二:yum install…
08.06自我总结 python爬虫网页解析之parsel模块 一.parsel模块安装 官网链接https://pypi.org/project/parsel/1.0.2/ pip install parsel==1.0.2 二.模块作用 改模块主要用来将请求后的字符串格式解析成re,xpath,css进行内容的匹配 三.使用 import requests import parsel response = requests.get(url) sel = parsel.Selector(res…
golang解析json报错:invalid character '\x00' after top-level value 手动复制字符串:{"files":["c:/test/output/temp/file_export0000.out","c:/test/output/temp/file_export0001.out","c:/test/output/temp/file_export0002.out","c:/…
PyCharm 中文 字符 python 报错 的 完美 解决方案! #_*_ coding:utf-8_*_ https://www.python.org/dev/peps/pep-0263/ 到python 的官网看了一下,找到了问题的根本原因! python 默认使用 ASCII 作为标准编码格式: python 指定字符编码格式的时候,必须使用以下3种方式之一: (不同系统,不同编辑器,可能不同,都实验一下就能找到了!) # coding=<encoding name> 或 #!/us…
Feign默认的使用jackson解析,所以时间传值时会报错,时间格式错误 解决办法: 修改feign解析方式为fastjson方式: @Configuration public class CxfConfig{ @Bean public Encoder feignEncoder(){ return new SpringEncoder(feignHttpMessageConverter()); } @Bean public Decoder feignDecoder(){ return new S…
数据解析 什么是数据解析及作用 概念:就是将一组数据中的局部数据进行提取 作用:来实现聚焦爬虫 数据解析的通用原理 标签定位 取文本或者属性 正则解析 正则回顾 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\w \s :所有的空白字符包,括空格.制表符.换页符等等.等价于 [ \f\n\r\t\v]. \S : 非空白 数量修饰: * : 任意多次 >=0…