参考文档: https://www.cnblogs.com/hark0623/p/5715726.html https://www.cnblogs.com/fqfanqi/p/7900758.html public class App { public static String str2Hex(String str) throws UnsupportedEncodingException { String hexRaw = String.format(, str.getBytes("UTF-8…
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\xe7\x9),如下图所示: 网上 查找了一些方法,以为是遇到了网站加密处理.后来发现 通过F12还 是能获取网页的元素,那么有什么办法能规避乱码问题呢?答案是:用selenium. [效果如下] [示例代码] # coding=utf-8 # @Auther : "鹏哥贼优秀" # @D…
这个是由于新建数据库没有选择默认字符集导致的,只要选择utf8即可. 如果以上还无法解决,那可能是表里的varchar字符集也不对…
如果使用mvn antrun:run -Pinit-db进行数据库导入导致出现如下错误: 解决方法: 这个是由于新建数据库没有选择默认字符集导致的,只要选择utf-8即可.…
把name的字符集修改成 utf8 ,然后把表关了从新打开,就可以了 如果还不行,就从新创表,在创表的时候修改name的字符集 如果还不行,就修改my.ini 它在你的mysql安装路径里 [mysql] default-character-set=utf8 [mysqld] character-set-server=utf8…
或者建表时带上编码utf8 CREATE TABLE `students`( `id` INT NOT NULL AUTO_INCREMENT PRIMARY KEY, `name` VARCHAR(20) NOT NULL, `nickname` VARCHAR(20) NULL, `sex` CHAR(1) NULL, `in_time` DATETIME NULL ) DEFAULT CHARSET 'utf8'; 或者修改table的编码: alter table students co…
在本地通过MYSQL创建测试表 CREATE Table User ( UserId int not NULL PRIMARY KEY auto_increment, //主键自增 UserName VARCHAR() not null, Pwd VARCHAR() not NULL, Age int not null ); 然后插入数据的时候: INSERT into USER(UserName,Pwd,Age) VALUES(); 提示错误信息: ERROR 1366 (HY000)错误类型…
先谈下我们需求,一个比较大的nginx访问日志,根据访问日期切割日志,保存在/tmp目录下. 测试机器为腾讯云机子,单核1G内存.测试日志大小80M. 不使用多线程版: #!/usr/bin/env python # coding=utf-8 import re import datetime if __name__ == '__main__': date_pattern = re.compile(r'\[(\d+)\/(\w+)\/(\d+):') with open('./access_al…
前一阵子,搭建了ELK日志分析平台,用着挺爽的,再也不用给开发拉各种日志,节省了很多时间. 这篇博文是介绍用python代码实现日志分析的,用MRJob实现hadoop上的mapreduce,可以直接放到hadoop集群上运行. mrjob可以让我们使用Python编写MapReduce运算,并在多个不同平台运行,你可以: 使用纯python编写multi-step MapReduce 本机测试 在hadoop集群上运行 安装mrjob pip install mrjob nginx访问日志格式…
目标: 1.正则表达式 2.oop编程,统计nginx访问日志中不同IP地址出现的次数并排序 1.正则表达式 #!/usr/bin/env python # -*- coding: utf-8 -*- import re # match # 方法一 pattern1 = re.compile(r'hello', re.I) match = pattern1.match('Hello World') if match: print match.group() # 方法二 m = re.match(…