网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,几行代码就OK啦! 通常在一个页面中会包含别的Url,在别的Url当中又会包含更多的Url.如果我们要对与该站点相关的Url全部都抓取过来.就相当于我们要对跟这个站有关的Url进行搜索. 常用的搜索算法有bfs和dfs,考虑到网页上的Url的重要程度还是以广度来分布的,所以这里采用bfs来搜索url. 到这里又会产生一些问题: 1,搜索过的url,并不需要重新访问2,如何拼凑新的url3,…