一.url去重url存到数据库所有url放到set中(一亿条占用9G内存)md5之后放到set中(一亿条占用2,3G的内存)scrapy采用的就是类似方法bitmap方法(url经过hash后映射到bit的每一个位上,存在冲突,一亿url占用约12M)bloomfilter(bitmap改进,多重hash解决冲突,一亿url占用) 二.文章相似度1.有关重复的定义,如果完全一样,基本上你hash一下特征值就好2. 如果不要完全一样,那就是概率学上的可能(80%他们可能是一样).基础算法KMP算法…
转载:https://blog.csdn.net/kingmax54212008/article/details/33762921 union的特性,去重与不去重 集合操作有 并,交,差 3种运算. union :得到两个查询结果的并集,并且自动去掉重复行.不会排序 union all:得到两个查询结果的并集,不会去掉重复行.也不会排序 intersect:得到两个查询结果的交集,并且按照结果集的第一个列进行排序 minus:得到两个查询结果的减集,以第一列进行排序 例子:  下面是两个表:一个…
一,各个集合的特点: Collection(集合):容器,用于存放对象(引用类型.基本类型需要自动装箱) List(列表):元素有序,元素可以重复 (有索引). 通过元素的equals()方法判断是否重复. Set(集):元素无序,不可重复 (没有索引). 遍历只能用Iterator迭代器和增强for, 不能使用普通for遍历. ArrayList(数组列表): 查询快,增删慢. LinkedList(链表): 查询慢,增删快. HashSet(哈希表): 查询快,增删慢. (底层其实就是Map…
如果你了解 SEO,你就该清楚使用 canonical URL 标签可以固定网页标准地址,可以提高网页的权重,有利于搜索引擎收录. 例如我的网站拥有两个子域名www.bbseat.com.cn和bbs.bbseat.com.cn,都可以访问同一个文章页面,那么这样的设置就会分散网页权重,不利于收录.使用 canonical URL 标签就可以为网页指定一个标准的地址,可以提高网页权重,利于收录. 但是你可以查看一下门户和论坛的源代码,会发现论坛帖子有 canonical URL 而门户文章没有.…
JAVA 中URL链接中文参数乱码的若干处理方法,现在整理收录如下: 方法一: (1) JS中,在URL参数中确保用UTF-8编码,用js函数encodeURI()编码,例如 url:"xx.action?id="+treeNode.id+"&name="+encodeURI(newname), (2) 在java的action中, import javax.servlet.http.HttpServletRequest; HttpServletReques…
转:获取网页URL地址及参数等的两种方法(js和C#) 一 js 先看一个示例 用javascript获取url网址信息 <script type="text/javascript"> document.write("location.host="+location.host+"<br>"); document.write("location.hostname="+location.hostname+&…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>vue-router之路由嵌套在文章系统中的使用方法:</title> <script src="vue.js"></script> <script src="vue-router.js"…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>vue-router之路由嵌套在文章系统中的使用方法:</title> <script src="vue.js"></script> <script src="vue-router.js"…
jquery.ajax的url中传递中文乱码问题的解决方法   JQuery JQuery默认的contentType:application/x-www-form-urlencoded 这才是JQuery正在乱码的原因,在未指定字符集的时候,是使用ISO-8859-1 ISO8859-1,通常叫做Latin-1.Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符. JQuery的Ajax根本没有考虑到国际化的问题,使用了欧洲的字符集,所以才引起了传递中文出现乱码的问题. 而我们的UTF…
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>表单控件处理之动态绑定文章的属性的处理方法 </title> <script src="vue.js"></script> </head> <body> <div id="l…