使用lucene query的CharFilter 去掉字符中的script脚本和html标签
1.准备数据,这里我从数据库读取一个带有html标签和script脚本的数据aaarticlea/png;base64," alt="" />
代码:
@Before
public void init(){
SQLService sqlService = new SQLService();
sqlService.regist(null);
BaseDao bd = new BaseDao();
String sql = "select * from t where title like '% 每天读一遍,舌头更无敌%'";
lists = bd.getList(sql);
System.out.println(lists.size());
content = lists.get(0).get("content").toString();
// System.out.println(content); }
2. 使用字符过滤器-HTMLStripCharFilter 和 MappingCharFilter.由于这些字符过滤器都是继承Reader的.所以可以像读取reader那样处理.
代码:
@Test
public void test2() throws IOException{ StringBuilder sb = new StringBuilder();
// html过滤
HTMLStripCharFilter htmlscript = new HTMLStripCharFilter(new StringReader(content)); //增加映射过滤 主要过滤掉换行符
NormalizeCharMap.Builder builder = new NormalizeCharMap.Builder();
builder.add( "\r", "" );//回车
builder.add( "\t", "" );//横向跳格
builder.add( "\n", "" );//换行
CharFilter cs = new MappingCharFilter( builder.build(),htmlscript ); char[] buffer = new char[10240];
int count;
while ((count = cs.read(buffer)) != -1) {
sb.append(new String(buffer, 0, count));
}
System.out.println(sb.toString());
cs.close(); // String keywords = HanLP.extractKeyword(sb.toString(), 20).toString();
// System.out.println(keywords);
}
处理结果:
亲爱的小伙伴们,累了,就放松一下吧!1. Can you can a can as a canner can can a can?你能够像罐头工人一样装罐头吗?
2. I wish to wish the wish you wish to wish, but if you wish the wish the witch wishes, I won't wish the wish you wish to
wish. 我希望梦想着你梦想中的梦想,但是如果你梦想着女巫的梦想,我就不想梦想着你梦想中的梦想。3. I scream, you scream, we all scream
for ice-cream! 我叫喊,你叫喊,我们都喊着要冰淇淋!4. How many cookies could a good cook cook if a good cook could cook cookies?
A good cook could cook as much cookies as a good cook who could cook cookies. 如果一个好的厨师能做小甜饼,那么他能做多少小甜饼呢?
一个好的厨师能做出和其它好厨师一样多的小甜饼。5. The driver was drunk and drove the doctor's car directly into the deep ditch.
这个司机喝醉了,他把医生的车开进了一个大深沟里。6. Whether the weather be fine or whether the weather be not.Whether the weather
be cold or whether the weather be hot.We'll weather the weather whether we like it or not.无论是晴天或是阴天。无论是冷或是暖,
不管喜欢与否,我们都要经受风霜雨露。7. Peter Piper picked a peck of pickled peppers. A peck of pickled peppers Peter Piper
picked. If Peter Piper picked a peck of pickled peppers, Where's the peck of pickled peppers Peter Piper picked?
彼德派柏捏起一撮泡菜。 彼德派柏捏起的是一撮泡菜。 那么彼德派捏起的泡菜在哪儿?8. I thought a thought. But the thought I thought
wasn't the thought I thought I thought. If the thought I thought I thought had been the thought I thought, I wouldn't
have thought so much. 我有一种想法,但是我的这种想法不是我曾经想到的那种想法。如果这种想法是我曾经想到的想法,我就不会想那么多了。
9. Amid the mists and coldest frosts, With barest wrists and stoutest boasts, He thrusts his fists against the posts,
And still insists he sees the ghosts. 雾蒙蒙,冰霜冻, 手腕儿空空,话儿涌, 只见他猛所拳头往柱子上砸, 直说自己把鬼碰。
10. Badmin was able to beat Bill at billiards, but Bill always beat Badmin badly at badminton.
巴德明在台球上能够打败比尔,但是打羽毛球比尔常常大败巴德明。11. Betty beat a bit of butter to make a better butter.
贝蒂敲打一小块黄油要做一块更好的奶油面。12. Rita repeated what Reardon recited when Reardon read the remarks.
使用lucene query的CharFilter 去掉字符中的script脚本和html标签的更多相关文章
- C#用正则表达式去掉Html中的script脚本和html标签
原文 C#用正则表达式去掉Html中的script脚本和html标签 /// <summary> /// 用正则表达式去掉Html中的script脚本和html标签 ...
- 在html中添加script脚本的方法和注意事项
在html中添加script脚本有两种方法,直接将javascript代码添加到html中与添加外部js文件,这两种方法都比较常用,大家可以根据自己需要自由选择 在html中添加<script& ...
- (五)CodeMirror - 关于htmlmixed中包含script脚本
最近发现个问题,场景如下: 当创建的mode类型为htmlmixed,且内容中包含javascript脚本,且是闭包立即执行: 如果内容是使用JQuery函数.html()插入到DOM中后再创建cod ...
- 三种java 去掉字符串中的重复字符函数
三种java 去掉字符串中的重复字符函数 public static void main(string[] args) { system.out.println(removerepeatedchar( ...
- Mysql有什么办法批量去掉某个字段字符中的空格
Mysql有什么办法批量去掉某个字段字符中的空格?不仅是字符串前后的空格,还包含字符串中间的空格,答案是 replace,使用mysql自带的 replace 函数,另外还有个 trim 函数. ...
- php去掉字符串中的最后一个字符和汉字
###php去掉字符串中的最后一个字符和汉字 1.php去掉字符串中的最后一个字符: //方法一: $newstr = substr($str,0,strlen($str)-1); //方法二: $n ...
- js中去掉字符中间空格和首尾空格
转载: https://www.jb51.net/article/109522.htm 1. 去掉字符串前后所有空格: 代码如下: ? 1 2 3 4 function Trim(str) { ...
- Lucene Query Term Weighting
方法 public static Query TermWeighting(Query tquery,Map<String,Float>term2weight){ BooleanQuery ...
- 【PHP函数】PHP 去掉字符串中的转义符号
PHP字符串中的转义符号 string stripslashes ( string $str ) //去掉字符串中的反斜线字符.若是连续二个反斜线,则去掉一个,留下一个.若只有一个反斜线,就直接去掉.
随机推荐
- CF 1093E Intersection of Permutations——CDQ分治
题目:http://codeforces.com/contest/1093/problem/E 只能想到转化成查询一个区间里值在一个范围里的数的个数…… 没有想到这样适合用主席树套树状数组维护.不过据 ...
- nagios(centreon)监控Linux日志
1 将check_log3.pl下载后放到客户端服务器的插件文件夹[root@SSAVL2475 libexec]# cp /tmp/check_log3.pl /usr/local/nagios/ ...
- 重载(overload),覆盖(override),隐藏(hide)的区别
写正题之前,先给出几个关键字的中英文对照,重载(overload),覆盖(override),隐藏(hide).在早期的C++书籍中,可能翻译的人不熟悉专业用语(也不能怪他们,他们不是搞计算机编程的, ...
- WARN deprecation:&L - HHH90000012: Recognized obsolete hibernate namespace http://hibernate.sourceforge.net/hibernate-configuration. Use namespace http://www.hibernate.org/dtd/hibernate-configuration
WARN deprecation:&L - HHH90000012: Recognized obsolete hibernate namespace http://hibernate.sour ...
- user
test|123456 raolan|123456 test2|456123
- 【UVa】11882 Biggest Number(dfs+剪枝)
题目 题目 分析 典型搜索,考虑剪枝. 统计一下联通分量. 1.本位置能够达到所有的点的数量加上本已有的点,还没有之前的结果长,直接返回. 2.当本位置能够达到所有的点的数量加上本已有的点与之 ...
- Mac Terminal终端光标的快捷键操作
2016年08月18日 18:26:06 阅读数:4217 Mac Terminal终端和linux上终端光标的快捷键操作是一样的,都是来自Emacs这个神级的编辑器,由于我以前vim用的多,没怎么用 ...
- 如何利用R包qqman画曼哈顿图?
如何利用R包qqman画曼哈顿图? 2017-07-10 lili 生信人 众多周知,R语言提供了各种各样的包,方便实现我们的目的,下面给大家介绍一个可以便捷的画曼哈顿图的包:qqman instal ...
- git之项目上传
git之项目上传 需求:将项目代码上传至github 前期准备: 1.github账号注册 2.安装git环境,可以打开且使用git shell. 3.生成SSH key并与github账号绑定 步骤 ...
- leetcode341
数据结构设计类题目,参考网上的代码: /** * // This is the interface that allows for creating nested lists. * // You sh ...