< 返回文档列表
3.6.2 数据清洗
noInitnoInit

在采集数据之前,通过设置数据清洗规则,软件可以自动以某种过滤方式,清洗该字段的字符串数据。通过系统自带的或脚本的方式,可以预先清洗不需要的字符串。

 

【数据清洗】

字段清洗的方式如下:

数据处理方式

描述

举例

去除首尾空白符

去除该字段数据的首尾空白符。

例如去除段落首行缩进符。

去除所有空白符

去除该字段数据的全部空白符。

去除数据中的空白字符。

取左串

取标识符左边的字符串。需要在下方“字段处理标识符”处填写标识符。

如“沉睡的雄狮——中国:完成了历史复兴”,需要取“沉睡的雄狮”,在“字段处理标识符”处填写“——”。

取右串

取标识符右边的字符串。需要在下方“字段处理标识符”处填写标识符。

如“沉睡的雄狮——中国:完成了历史复兴”,需要取“完成了历史复兴”,在“字段处理标识符”处填写“:”。

取中间串

取两个标识符中间的字符串。需要在下方“字段处理标识符”处填写两个标识符,两个标识符用“;”隔开。

如“沉睡的雄狮——中国:完成了历史复兴”,需要取“中国”,在“字段处理标识符”处填写“——;:”。

标准时间

将时间处理成标准的时间格式。

将时间处理成“####-##-## ##:##:##”的标准格式。

脚本处理

通过编写脚本进行更多数据处理。需要在下方“字段处理脚本”处输入脚本。

使用脚本处理字段数据。

数据清洗方式选择“脚本处理”后,可以通过编写脚本进一步把需要的数据清洗干净。具体配置方法参考脚本教程。