转载: http://hi.baidu.com/erliang20088/item/9156132bdaeae8949c63d134 最近一个月一直在对nutch1.6版进行中等层次的二次开发,本来是想重新做一个自写的爬虫系统,鉴于前基做过微博爬虫系统,感觉再重写一个完整的爬虫费时.费力还没太大的含金量,故而直接基于nutch开发. 之所以说中是因为没有改动nutch的核心部分map/reduce,但改动了除此之外的绝大部分问题,最终形成了任务提交多样化.调度合理.数据流优化.乱码处理.源码与正…
1 引言 在编写网络爬虫时,第一步(也是极为关键一步)就是对网络的请求(request)和回复(response)进行分析,寻找其中的规律,然后才能通过网络爬虫进行模拟.浏览器大多也自带有调试工具可以进行抓包分析,但是浏览器自带的工具比较轻量,复杂的抓包并不支持.且有时候需要编写手机APP爬虫,这时候就必须需要用到其他的专业抓包工具,例如本篇介绍的Fiddler. 2 Fiddler简介 Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一,它能够记录客户端和…
所谓爬虫,首先要通过各种手段爬取到想要站点的数据. web2.0之后,各种网络站点类型越来越多,早期的站点多为静态页面[html .htm],后来逐步加入 jsp.asp,等交互性强的页面.再后来随着js的兴起,也处于站点的美观和易于维护,越来越多的ajax异步请求方式数据站点.[不扯犊子了 ,马上上示例] 参与工作时间不是很长,但工作期间一直做不同的爬虫项目.对常见的页面数据获取,有一些简单的认识.  接触到的页面分为三类. A 静态页面(数据在源码中直接可以获取到) B数据在基源码中没有,携…
这是我写的一个Java课程作业时,遇到的问题. 问题描述: 我要实现的就是将txt文件中的内容按一定格式读取出来后,存放在相应的数组. 我刚开始运行时发现,英文可以实现,但是中文字符就是各种乱码. 最后各种检查排错得到原因如下: (1)最好先检查你的Eclipse中的Window->Preference->General->WorkSpace中的字符编码格式是什么,最后选成UTF-8格式的.  然后右键你的工程在弹出的菜单项中选择Resource查看编码格式,也把它改成UTF-8格式的.…
在windows上压缩的文件,是以系统默认编码中文来压缩文件.由于zip文件中没有声明其编码,所以linux上的unzip一般以默认编码解压,中文文件名会出现乱码. 通过unzip行命令解压,指定字符集unzip -O CP936 xxx.zip (用GBK, GB18030也可以)有趣的是unzip的manual中并无这个选项的说明, unzip --help对这个参数有一行简单的说明.…
在编写文本文件读写程序的过程中,有如下代码 StreamReader sr = new StreamReader(FileName); 结果发现打开中文文本文件出现乱码. 究其原因,原来自从Windows 2000之后的操作系统在文件处理时默认编码采用Unicode,所以.Net 的文件默认编码也是Unicode.除非另外指定,StreamReader 的默认编码为 Unicode,而不是当前系统的 ANSI 代码页.但是文档大部分还是以ANSI编码储存,中文文本使用的是gb2312,所以才造成…
在 Idea 上面使用 Tomcat 时,发现控制台打印信息的时候,出行中文乱码问题; 可以通过以下几种解决办法 1:在-Dfile.encoding=UTF-8 在vm中设置编码方式 2.然后从File->Setting ,设置File Encodings ,检查Default Encodings 是否是UTF-8. 3.重启idea.如果乱码还没有解决,继续试试下面的方法 修改IDEA参数 1.打开Idea的安装文件 2. 用记事本打开这两个配置文件,在每一个文件后,添加 -Dfile.en…
原文地址:https://cloud.tencent.com/developer/article/1334736 前台用url传值中文,后台用request.getParameter接收参数.在Firefox,Chrome等浏览器中没有问题.但用IE浏览器就又会出现参数中文乱码现象. IE.Firefox.Chrome浏览器对URL的处理各不相同,浏览器在传输URl时得对URL进行编码,IE默认是以UTF-8来传输 的,Firefox肯定不是以UTF-8来编码,有可能是以ISO-8859-1来编…
在近期的课程设计中遇到在eclipse中向数据库中录入数据,产生的汉字乱码现象,在这里提供一条解决的方法: 只需连接地址URL中数据库名后面添加“?characterEncoding=utf-8”即可. 如: URL = "jdbc:mysql://localhost:3306/bussystem?characterEncoding=utf-8"; 注意:数据库名和?之间不能有空格.…
方法一:设置cmd显示字体1.win+R打开运行窗口->输入cmd->回车,打开命令行提示符窗口 win7系统运行窗口win7系统DOS命令行提示窗口 2.在命令行标题栏上点击右键,选择”属性”->”字体”,将字体修改为True Type字体”Lucida Console”,然后点击确定将属性应用到当前窗口,确定DOS命令窗口右键菜单DOS命令行,设置字体 方法二:修改注册表1.快捷键win+R,打开运行窗口,输入“regedit”,打开注册表编辑器运行窗口打开注册表编辑器2.修改注册表…