最早看数学之美的时候,书中就提到了这个算法,当时没有做过相关地工作,没什么具体的印象.一年前转岗时面试时别人提到了这个算法,知道了simhash可以用来解决网页等海量数据的去重问题,很高效. 然后自己大概实现了一下这个算法的python版本,试了一下,感觉还不错,mark下吧 # coding=utf-8 import os single_bits = {} for x in xrange(32): single_bits[x] = 1 << x print single_bits def s
通过使用Java POI来提取Word(1992)文档中的表格信息,其中POI支持不同的ms文档类型,在具体操作中需要注意.本文主要是通过POI来提取微软2003文档中的表格信息,具体code如下(事先需要导入POI的jar包): public static void testWord2() { try { FileInputStream in = new FileInputStream("july 2005 1.doc");// 载入文档 // FileInputStream in
测试.txt文档,每47行的格式相同,通过代码每47行存为一个txt,txt文档命名为其第一行数据. 代码如下: file='G:\data\测试.txt' openr,lun,file,/Get_Lun ;打开文件fline= file_lines(file)txt_01=47 ;每47行为一个单位for l=0L,fline-1,txt_01 do begin name_s=strArr(1) ;读取第一行 readf, lun, nam