个人理解就是筛选出需要的结果
例:文件内容 ,需求:将包含zks的行的内容给找出来
aa bb cc aa aa aa dd dd ee ee ee ee
ff aa bb zks
ee kks
ee zz zks
代码示例
String path="E:\\txtFile2\\sample.txt";
JavaRDD<String> stringJavaRDD = javaSparkContext.textFile(path);JavaRDD<String> zks = stringJavaRDD.filter(new Function<String, Boolean>() {@Overridepublic Boolean call(String s) throws Exception {//return s.indexOf("zks") > -1;//或return s.contains("zks");}});
System.out.println(zks.collect());
返回的结果
ff aa bb zks
ee zz zks