分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词.thulac.SnowNLP等.在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错. 分词前的准备: 待分词的中文文档 存放分词之后的结果文档 中文停用词文档(用于去停用词,在网上可以找到很多) 分词之后的结果呈现: 去停用词和分词前的中文文档 去停用词和分词之后的结果文档 分词和去停用词代码实现: import jieba #…
python模块简单说明: xlsxwriter:负责写入数据 xlrd:负责读取数据 xlsxwriter 官方文档:http://xlsxwriter.readthedocs.org 本实例是刚写出来的,目前比较粗糙. 写这实例主要是结合平时工作内容,把手动操作改成自动化. 平时线上更新游戏版本号后,需要把版本号记录到一个excel文件中,每次更新都要修改,比较蛋疼,虽然版本号在数据库中也有存在,但还是要往excel记录一份. 这些代码目前只是测试代码,从原excel中读取所有内容,然后修改…
1. 资源文件 2. 加载文件 public void test() { try { System.out.println("begin test"); String filepath = "log4j2.yml"; // 此处取项目路径 + 传入的路径,改路径获取不到文件 // 如果要获取文件需要传入 src/main/resources/log4j2.xml File temp = new File(filepath); System.out.println(t…
Kafka消费者 从Kafka中读取数据 最近有需求要从kafak上消费读取实时数据,并将数据中的key输出到文件中,用于发布端的原始点进行比对,以此来确定是否传输过程中有遗漏数据. 不废话,直接上代码,公司架构设计 kafak 上有多个TOPIC,此代码每次需要指定一个TOPIC,一个TOPIC有3个分区Partition,所以消费的时候用多线程, 读取数据过程中直接过滤重复的key点,因为原始推送点有20W的量(可能发生在一秒或者几秒).当时我直接用的HASHMAP来过滤. 1.Consum…
某些场景下,我们在写UDF实现业务逻辑时候,可能需要去读取某个文件. 我们可以将此文件上传个hdfs某个路径下,然后通过hdfs api读取该文件,但是需要注意: UDF中读取文件部分最好放在静态代码块中(只会在类加载时候读取一次)或者放在构造方法中(在实例化的时候执行一次),尤其在处理的数据量比较大的时候,否则会反反复复的读取,造成不必要的开销,甚至任务失败,示例代码如下: package cn.com.dtmobile.udf; import java.util.HashMap; impor…
1.在springboot项目中使用logback记录日志,在logback.xml中配置日志存储位置时读取application.properties中配置的路径,在 logback.xml中配置引用如下:<property name="log.path" value="${path.log}"/> 发现读取不到 2.原因:因为logback.xml的加载顺序早于springboot的application.yml (或application.prop…
1.首先要在工程引用中导入System.Configuration.dll文件的引用. 2.通过System.Configuration.ConfigurationManager.ConnectionStrings["connectionstring"].ToString(); 就能得到App.config中的数据库连接字符串 而不能通过ConfigurationSettings.AppSettings["connectionstring"].ToString();…
把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是jieba-0.38),把自己的自定义词典(选用,目的是为了分出原始词库中没有的词以及优先分出一些词),停用词词典(选用),需要分词的语料文件,调用jieba的python程序都放到这个文件夹里,就可以用啦.至于词典要什么样的格式,在网上一查就可以了. 之前有看到别的例子用自定义词典替换掉jieba本身…
# -*- coding:utf8 -*- import os import jieba def splitSentence(inputFile): fin = open(inputFile, 'r') #以读的方式打开文件 global fout #以写得方式打开文件 #print fin global stop for eachLine in fin: #print eachLine line = eachLine.strip()#.decode('utf-8', 'ignore') #去除…
前言 不管是做Ui自动化和接口自动,代码和数据要分离,会用到Text,Excel,Yaml.今天讲讲如何读取文件数据 Python也可以读取ini文件,传送门 记住一点:测试的数据是不能写死在代码里面的,这个是原则问题 目录 1.读取Text 2.读取Excel 3.读取Yaml 读取Text 需求: 问题解析: 1.打开txt文件 2.读取每一行数据 3.将文件存放在列表中(方便循环读取) #!/usr/bin/python3 with open("E:/test.txt", &qu…