DFA算法实现过滤多家公司自定义敏感字


声明:本文转载自https://my.oschina.net/grkj/blog/1522696,转载目的在于传递更多信息,仅供学习交流之用。如有侵权行为,请联系我,我会及时删除。

背景

因为最近有通讯有个需求,说需要让多家客户公司可以自定义敏感词过滤掉他们自定义的规则,选择了DFA算法来做,不过和以前传统了DFA写法不太一样了

模式图

输入图片说明

直接上代码

public class KeywordFilter { //	private static ReentrantReadWriteLock lock = new ReentrantReadWriteLock(); 	public static Map<String, HashMap> currentMap = new ConcurrentHashMap<String, HashMap>(); 	public static Map nowhash = null; 	public static Object wordMap;// map子节点  	// 不建立对象 	private KeywordFilter() { 	}  	private static String getKey(int companyId) { 		return "companyId" + companyId; 	}  	/* 	 * <p>说明:清扫内容</p> 	 *  	 * @author:姚旭民 	 *  	 * @data:2017-8-22 上午10:13:11 	 */ 	public static void clear() { 		try { 			currentMap.clear(); 		} catch (Exception e) { 			e.printStackTrace(); 		} finally { 		}  	}  	/* 	 * <p>说明:各个渠道的过滤字符</p> 	 *  	 * @author:姚旭民 	 *  	 * @data:2017-8-20 下午2:55:06 	 */ 	public static void saveKeywords(int companyId, List<String> keywords) { 		try { 			Map tempAllMap = currentMap; 			String key = getKey(companyId); 			int l = keywords.size(); 			int il; 			Map tempMap; 			for (int i = 0; i < l; i++) { 				String key2 = keywords.get(i).trim();// 去掉空白 				nowhash = currentMap; 				il = key2.length(); 				for (int j = 0; j < il; j++) { 					char word = key2.charAt(j); 					tempMap = (Map) nowhash.get(word); 					wordMap = nowhash.get(word); 					if (wordMap != null) {// 检查数据 						if (!tempMap.containsKey(key)) { 							nowhash.put(key, 0); 						} 						nowhash = (HashMap) wordMap; 					} else { 						HashMap<String, String> newWordHash = new HashMap<String, String>(); 						newWordHash.put(key, "0"); 						nowhash.put(word, newWordHash); 						nowhash = newWordHash; 					} 					if (j == il - 1) { 						nowhash.put(key, "1"); 					} 				} 			} 		} catch (Exception e) { 			e.printStackTrace(); 		} finally { 			nowhash = null; 			wordMap = null; 		} 	}  	/* 	 * <p>说明:替换掉对应的渠道规定掉敏感字</p> 	 *  	 * @author:姚旭民 	 *  	 * @data:2017-8-20 上午11:41:47 	 */ 	public static List<String> repword(int companyId, String txt) { 		Map tempMap = currentMap; 		List<String> result = new ArrayList<String>(); 		String key = getKey(companyId); 		nowhash = currentMap; 		int l = txt.length(); 		char word; 		String keywordStr = ""; 		String keyStatu; 		StringBuilder keyword = new StringBuilder();// 敏感字 		for (int i = 0; i < l; i++) { 			word = txt.charAt(i); 			wordMap = nowhash.get(word); 			if (wordMap != null) {// 找到类似敏感字的字体,开始查询 				keyword.append(word); 				Object te = nowhash = (HashMap) wordMap; 				// 遍历到这一步,就符合完整的关键字模板 				if (nowhash.get(key) != null 						&& nowhash.get(key).toString().equals("1")) {// 确定是敏感字,开始替换 					if (i < l - 1 && nowhash.get(txt.charAt(i + 1)) != null) {// 优先过滤长敏感词,去掉就槟城了优先过滤段敏感词 						continue; 					} 					txt = txt.replaceAll(keyword.toString(), "*"); 					nowhash = currentMap; 					keywordStr += keyword.toString() + ","; 					i = i - keyword.length() + 1; 					l = txt.length();// 重新获取字符长度 					keyword.delete(0, keyword.length());// 清空数据 				} 			} else {// 这个字不是敏感字,直接排除 				nowhash = currentMap; 				keyword.delete(0, keyword.length());// 清空数据 				continue; 			} 		} 		// 清除内存指向 		nowhash = null; 		wordMap = null; 		result.add(txt); 		result.add(keywordStr.length() - 1 > 0 ? keywordStr.substring(0, 				keywordStr.length() - 1) : keywordStr); 		return result;  	}  	/* 	 * <p>说明:检查是否存在敏感字</p> 	 *  	 * @author:姚旭民 	 *  	 * @data:2017-8-20 下午3:00:06 专门设计成私有的,如果没有理由,别改动他 	 */ 	private static int checkKeyWords(String txt, int companyId, int begin) { 		int result = 0; 		String key = getKey(companyId); 		try { 			nowhash = currentMap; 			int l = txt.length(); 			char word = 0; 			for (int i = begin; i < l; i++) { 				word = txt.charAt(i); 				wordMap = nowhash.get(word); 				if (wordMap != null) { 					result++; 					nowhash = (HashMap) wordMap; 					if (((String) nowhash.get(key)).equals("1")) { 						nowhash = null; 						wordMap = null; 						return result; 					} 				} else { 					result = 0; 					break; 				} 			} 		} catch (Exception e) { 			e.printStackTrace(); 		} finally { 			nowhash = null; 			wordMap = null; 			return result; 		} 	}  	/* 	 * <p>说明:返回检查的文本中包含的敏感字</p> 	 *  	 * @author:姚旭民 	 *  	 * @data:2017-8-20 下午3:32:53 	 */ 	public static String getTxtKeyWords(String txt, int companyId) { 		String result = null; 		StringBuilder temp = new StringBuilder(); 		String key; 		int l = txt.length(); 		for (int i = 0; i < l;) { 			int len = checkKeyWords(txt, companyId, i); 			if (len > 0) { 				key = (txt.substring(i, i + len));// 挑选出来的关键字 				temp.append(key + ","); 				txt = txt.replaceAll(key, "");// 挑选出来的关键字替换成空白,加快挑选速度 				l = txt.length(); 			} else { 				i++; 			} 		} 		if (temp.length() > 0) { 			result = temp.substring(0, temp.length() - 1); 		} 		return result; 	}  	/* 	 * <p>说明:判断文中是否包含渠道规定的敏感字</p> 	 *  	 * @author:姚旭民 	 *  	 * @data:2017-8-20 下午3:33:19 	 */ 	public boolean isKeyWords(String txt, int companyId) { 		for (int i = 0; i < txt.length(); i++) { 			int len = checkKeyWords(txt, companyId, i); 			if (len > 0) { 				return true; 			} 		} 		return false; 	}  	public static void main(String[] arg) { 		List<String> keywords = new ArrayList<String>(); 		keywords.add("傻×"); 		keywords.add("汉奸"); 		keywords.add("草"); 		keywords.add("草泥马"); 		KeywordFilter.saveKeywords(1, keywords); 		String txt = "是傻×汉奸傻A傻B傻C傻D汉奸傻×草泥马"; 		List<String> list = repword(1, txt); 		System.out.println("文中包含的敏感字为:" + list.get(1)); 		System.out.println("原文:" + txt); 		System.out.println("敏感字过滤后:" + list.get(0)); 	} }   

本文发表于2017年08月24日 20:36
(c)注:本文转载自https://my.oschina.net/grkj/blog/1522696,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如有侵权行为,请联系我们,我们会及时删除.

阅读 2247 讨论 0 喜欢 0

抢先体验

扫码体验
趣味小程序
文字表情生成器

闪念胶囊

你要过得好哇,这样我才能恨你啊,你要是过得不好,我都不知道该恨你还是拥抱你啊。

直抵黄龙府,与诸君痛饮尔。

那时陪伴我的人啊,你们如今在何方。

不出意外的话,我们再也不会见了,祝你前程似锦。

这世界真好,吃野东西也要留出这条命来看看

快捷链接
网站地图
提交友链
Copyright © 2016 - 2021 Cion.
All Rights Reserved.
京ICP备2021004668号-1