转自:https://blog.csdn.net/tiankong_/article/details/77234726#commentBox 1.题目 给定a.b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a.b文件共同的url? 2.思考过程 //我看见这个题就啥也没想到,想不到哈希啊... 可以使用哈希,对a文件中的所有进行遍历,再对b进行遍历,但是由于文件过大,并且还要给哈希表分配空间,所以一次性建立哈希表希望不大. 3.解决办法 50亿*64B=320…
题目描述: 给定a.b两个文件,各存放50亿个url,每个url各占64B,内存限制是4GB,请找出a.b两个文件共同的url 分析: 由于每个url需要占64B,所以50亿个url占用空间大小为50亿×64=5GB×64=320GB.由于内存大小只有4GB,因此不可能一次性把所有的url加载到内存中处理.对于这种题目,一般采用分治法,即把一个文件中的url按照某一特征分成多个文件,使得每个文件的内容都小于4GB,这样就可以把这个文件一次性读入到内存中进行处理. 解答: 1.遍历文件a,对遍历带…
这是是一个大文件处理,面试官出题的意图并不希望你两层for循环进行遍历,这种答案肯定是不会要的! 这道题目的解法思路是: 顺序读取两个文件的的全部记录 将每条记录经过hash->转换为10进制->%n后存到10个文件中,这样一共2G的数据分成10份,每份就是204.8M,低于内存限制 我可以一次读取一个文件,并用hash桶的方式得到单个文件中的内容是否有重复,因为每条记录都经过hash处理的,所以相同的记录肯定会在同一个文件中. /** * 将两个文件中的每条记录通过hash求余后分别存入10…
1. 使用 ls 命令,只列出你的 home 文件夹中今天的文件. ls -al --time-style=+%D | grep `date +%D` 其中: -a- 列出所有文件,包括隐藏文件 -l- 启用长列表格式 --time-style=FORMAT- 显示指定 FORMAT 的时间 +%D- 以%m/%d/%y(月/日/年)格式显示或使用日期 此外,你使用可以 -X标志来按字母顺序对结果排序[3]: ls -alX --time-style=+%D |grep `date +%D` 你…
//对传入sp的字符进行统计,三组两个相连字母“ea”"ou""iu"出现的次数,并将统计结果存入ct所指的数组中. #include <stdio.h> #include <string.h> #pragma warning (disable:4996) void fun(char*sp ,int *ct) { , b=, c=; while (*sp != '\0') { if (*sp == 'e')//利用if多重并列判断. { sp…
[Date]2013-09-19 [Author]wintys (wintys@gmail.com) http://wintys.cnblogs.com [Content]: 1.面试题 输入一个整型数组,找出最大值.最小值,最大值与第一个元素交换,最小值与最后一个元素交换,并输出. 2.程序 public class MaxMinTest {     public static void main(String[] args) {         int[] a={1,7,2,4,5,3,2,…
语法 cat 文件 |grep 查询字符串 例如现在有文件file.dat,文件中内容如下: zhangsan Lisi wangwu123 wangwu890 zhangsan28290 现在想从文件中查询出包含zhangsan的记录 cat file.dat |grep zhangsan 查询结果: zhangsan zhangsan28290…
题目:在一个数组中,除了两个数外,其余数都是两两成对出现,找出这两个数,要求时间复杂度O(n),空间复杂度O(1) 分析:这道题考察位操作:异或(^),按位与(&),移位操作(>>, <<)等,Java代码及注释如下: public static int[] findTwoSingleNum(int[] num) { int[] twoNums = new int[2]; int result = 0; for (int i = 0; i < num.length;…
今天下午,看了一会github,想刷个题呢,就翻出来了刷点题提高自己的实际中的解决问题的能力,在面试的过程中,我们发现,其实很多时候,面试官 给我们的题,其实也是有一定的随机性的,所以我们要多刷更多的题.去发现问题. 题目:     给定一个整数数组 nums 和一个目标值 taget,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标. 你可以假设每种输入只会对应一个答案.但是,你不能重复利用这个数组中同样的元素. 解析: 实际这里就是给你的一个列表的数字,给你一个预期,让你返…
我也遇到同样问题,所以抄下做MARK http://www.cnblogs.com/lmjq/archive/2011/07/19/2110319.html 刚做完一个binding为netTcpBinding,transferMode为"Streamed"传输大文件的例子. 现实验用消息契约(Message Contract)来传输文件名等信息. 服务契约(Service Contract)和消息契约(Message Contract)如下: } 运行程序错误,异常提示信息如下: I…
在操作某个很多进程都要频繁用到的大文件的时候,应该尽早释放文件资源(f.close()) 前2种方法主要用到了列表解析,性能稍差,而最后一种使用的时候生成器表达式,相比列表解析,更省内存 列表解析和生成器表达式很相似: 列表解析 [expr for iter_var in iterable if cond_expr] 生成器表达式 (expr for iter_var in iterable if cond_expr) 方法1:最原始 longest = 0 f = open(FILE_PATH…
题目: 输入一个自然数 判断是否是素数,是素数则提示是素数,否则找出比它大的第一个素数 代码: Console.WriteLine("请输入任意一个自然数."); string number = Console.ReadLine(); if (string.IsNullOrEmpty(number)) { Console.WriteLine("请输入数据."); } else { Regex rx = new Regex("^[0-9]*$");…
编译器错误消息:CS0433: 类型“_Default”同时存在于“c:\Windows\Microsoft.NET\Framework\v2.0.50727\Temporary ASP.NET Files\root\35b98231\6f7a515\assembly\dl3\445ef5a9\b64a6011_6c17cc01\App_Web_vsjqyqxl.DLL”和“c:\Windows\Microsoft.NET\Framework\v2.0.50727\Temporary ASP.N…
本文翻译自<effective modern C++>,由于水平有限,故无法保证翻译完全正确,欢迎指出错误.谢谢! 博客已经迁移到这里啦 如果你曾经同过久的编译时间斗争过,那么你肯定对Pimpl("point to implementation",指向实现)机制很熟悉了.这种技术让你把类的数据成员替换成指向一个实现类(或结构)的指针,把曾经放在主类中的数据成员放到实现类中去,然后通过指针间接地访问那些数据成员.举个例子,假设Widget看起来像这个样子: class Wid…
みねちゃんの修罗场 Time Limit: 5000 mSec     Memory Limit: 1024 KB Description みねちゃん是个成绩优秀大学二年级学生,本来是和像自己妹妹一般的青梅竹马一起过着普通的大学生活的,但某天却被校内公认的第一美人表白了.然而她的真实意图却是为了骗过众人而需要みねちゃん与她假扮情侣.被掌握了自己的某个"秘密"的みねちゃん被迫假扮"男友"这一角色--然而在此之后他的"未婚妻"也加入了进来,围绕みねち…
先说需求:找出一个对象List中,某个属性值最大的对象. 1.定义对象 private class A { public int ID { get; set; } public string Name { get; set; } }  2.为两种方法定义两个时间段全局变量. 1 private static TimeSpan compare = new TimeSpan(); private static TimeSpan order = new TimeSpan();  3.第一种方法:对列表…
/proc/PID/maps提供了进程的memory layout,下面脚本根据给定地址找出相应的库名: #!/usr/bin/python from __future__ import print_function import sys import numpy as np import pandas as pd import matplotlib.pyplot as plt import bisect import re import lp_util VERBOSE = False def…
首先还是先解释一下什么是回文串:就是从左到右或者从右到左读,都是同样的字符串.比如:上海自来水来自海上,bob等等. 那么什么又是找出最长回文串呢? 例如:字符串abcdefedcfggggggfc,其中efe,defed,cdefedc,gg,ggg,gggg,ggggg,gggggg,fggggggf,cfggggggfc都是回文串,左右完全一样. 这其中,有最短的gg,最长的cfggggggfc,还有其他长度的.忽略长度为1的.毕竟一个字符的都算回文了. 那么,找出最长的,就是找出这个cf…
SAM是Sequence Alignment/Map 的缩写.像bwa等软件序列比对结果都会输出这样的文件.samtools网站上有专门的文档介绍SAM文件.具体地址:http://samtools.sourceforge.net/SAM1.pdf 很多人困惑SAM文件中的第二列FLAG值是什么意思.根据文档介绍我们可以计算,但是为了方便大家,下面给大家提供一个脚本工具,大家直接输入flag值就可以知道它代表的含义了. 该脚本的使用方法如下截图所示: 脚本工具的使用方法: 将下面的代码保存在记事…
PS:这篇是之前本来就想发的但是一直没时间写,加上今天做了京东的题,结果代码名就命名为jingdong了……懒得改代码名重新跑一遍结果了=.= 暴力法去做就是遍历每个点,判断它是不是“最大点”.判断过程则是又遍历一遍,看看是否存在其他点在它右上方,若存在则不是最大点.O(N^2) 但是这样就会有很多不必要的计算,举个例子(这里暂且当坐标都是int),若存在一个最大点(x0,y0),那么所有在它左下角的点都不用考虑了. 另外,对于(x0,y0),只需要查找在它右边(x>x0)的点是否在它上面.如果…
转载:http://www.cnblogs.com/nkwy2012/p/6362996.html  SAM是Sequence Alignment/Map 的缩写.像bwa等软件序列比对结果都会输出这样的文件.samtools网站上有专门的文档介绍SAM文件.具体地址:http://samtools.sourceforge.net/SAM1.pdf 很多人困惑SAM文件中的第二列FLAG值是什么意思.根据文档介绍我们可以计算,但是为了方便大家,下面给大家提供一个脚本工具,大家直接输入flag值就…
package getMethod; import java.io.*; import java.util.*; import java.util.regex.Matcher; import java.util.regex.Pattern; public class GM{ public static void main(String[] args) throws Exception{ //获取目录下的文件 String dir="F:\\project-cif"; File root…
① 利用生成器generator ②迭代器进行迭代遍历:for line in file 文章转载自Python黑洞网…
C++ code: #include <iostream> #include <fstream> #include <map> #include <string> #include <algorithm> using namespace std; int main() { multimap<int,string> agemap;//以年龄为键,以个人信息为值,年龄必有重复,定义成multimap可自动排序 ifstream infil…
在网上看到过一个面试题,感觉挺有意思,看别人的代码写的逻辑不够谨慎,重写了一个,较真了又... package com.array7.algorithm; public class AlgorithmTest { public static void main(String[] args) { int[] arr = {2 ,4 ,5 ,8 ,10 ,12 ,13 ,16 ,17,Integer.MAX_VALUE }; int sum = 13; String result = getSumE…
1:首先把Excel中的文本复制到txt中,复制如下: A表: 证件号                           工号  姓名 310110xxxx220130004 101 傅家宜310110xxxx220130005 102 顾音琪310110xxxx220130006 103 郭加峤310110xxxx220130007 104 胡奕蕾310110xxxx220130010 105 凌家蔚310110xxxx220130011 106 卢彦菁 B表: 证件号          …
转自:http://www.coderjie.com/blog/43b3601e0a2411e7841d00163e0c0e36 1.块在内存中以树的形式存储,分好块的文本在文件中用IOB标记存储: I(inside,内部),O(outside,外部),B(begn,开始). 如果一个单词被标记为B,则表示一个块的开始,块内的单词被标记为I,其他单词被标记为O.B和I标记后需要加块类型的后缀,如B-NP,I-NP.如下图所示: 文本方式的IOB格式存储如下: We PRP B-NP saw VB…
在IDEA中maven作为一个内置的工具,不需要任何配置就可以使用,点开settings 可以看到有三个maven可以选择 C:/apache-maven-3.5.3这个maven当然是我自己安装的,至于Bundled(Maven 3)和Bundle(Maven 2)都是IDEA自带的 打开IDEA安装目录下的plugin可以看到这里有个maven目录,点进去会发现有maven2和maven3,idea默认用的就是这里的maven. 而我们无论在哪都能使用的mvn命令,这个当然还是需要配置环境变…
转自:http://blog.csdn.net/xiaibiancheng/article/details/8479694 在进行Android NDK的开发当中有时想看看Android.mk文件当中某个变量的值,可以再Android.mk文件当中用warnin语句实现该功能假如有个Android.mk文件的内容如下: LOCAL_PATH := $(call my-dir) include $(CLEAR_VARS) LOCAL_MODULE := hello-jni LOCAL_SRC_FI…
假设你要从B列中找出A列里没有的数据,那你就在C1单元格里输入“=IF(ISNA(VLOOKUP(B1,A:A,1,0)),"F","T")”显示T就表示有,F就表示没有.经过测试,效果很好.推荐使用!…