在采集数据之前,通过设置数据清洗规则,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。
【数据清洗】
数据处理方式 | 描述 | 举例 |
去除首尾空白符 | 去除该字段数据的首尾空白符。 | 例如去除段落首行缩进符。 |
去除所有空白符 | 去除该字段数据的全部空白符。 | 去除数据中的空白字符。 |
取左串 | 取标识符左边的字符串。需要在下方“字段处理标识符”处填写标识符。 | 如“沉睡的雄狮——中国:完成了历史复兴”,需要取“沉睡的雄狮”,在“字段处理标识符”处填写“——”。 |
取右串 | 取标识符右边的字符串。需要在下方“字段处理标识符”处填写标识符。 | 如“沉睡的雄狮——中国:完成了历史复兴”,需要取“完成了历史复兴”,在“字段处理标识符”处填写“:”。 |
取中间串 | 取两个标识符中间的字符串。需要在下方“字段处理标识符”处填写两个标识符,两个标识符用“;”隔开。 | 如“沉睡的雄狮——中国:完成了历史复兴”,需要取“中国”,在“字段处理标识符”处填写“——;:”。 |
标准时间 | 将时间处理成标准的时间格式。 | 将时间处理成“####-##-## ##:##:##”的标准格式。 |
脚本处理 | 通过编写脚本进行更多数据处理。需要在下方“字段处理脚本”处输入脚本。 | 使用脚本处理字段数据。 |
使用脚本进行数据清洗的方式如下:
数据清洗方式选择“脚本处理”后,可以通过编写脚本进一步把需要的数据清洗干净。具体配置方法参考脚本教程。