< 返回文档列表
3.5.4 常用表结构示例
noInitnoInit

1.采集商品信息

字段名称

采集内容

数据类型

数据长度

字段属性

高级类型

备注

hkey

网页主键

长数字

0

索引字段;键值唯一;主键字段

NONE

主键字段

goods

选区内全部文本

字符串

120

NONE

商品名称

price

选区内全部文本

字符串

10

NONE

价格

detail

选区内全部文本

字符串

0

长文本(<64k)

详情

img1

图片

流数据

0

NONE

图片

 

2.采集新闻、博客

新闻正文中的图片,一般位置和数量都不固定,采集这样的图片,需要建立两张表,通过正文的id进行关联,用正文表的主键id作为图片表的外键。

①正文表:

字段名称

采集内容

数据类型

字段长度

字段属性

高级类型

备注

News_id

网页主键

长数字

0

索引字段;键值唯一;主键字段

NONE

主键字段

author

选区内全部文本

字符串

64

NONE

作者

get_web

任务名称

字符串

64

NONE

采集来源名称

get_time

网页获取时间

长数字

0

日期时间

采集时间

title

选区内全部文本

字符串

64

NONE

标题

news_time

选区内全部文本

字符串

30

NONE

文章发表内容

content

选区内全部文本

字符串

0

长文本(<64k)

正文内容

url

网页地址

字符串

255

NONE

文章url地址

 

②图片表:

字段名称

采集内容

数据类型

字段长度

字段属性

高级类型

备注

hkey

(空)

长数字

0

索引字段;键值唯一;主键字段;

自动字段

NONE

图片的主键

news_id

网页主键

长数字

0

NONE

图片所在文章的主键

pic

图片

流数据

0

NONE

图片数据

 

3.采集企业信息

字段名称

采集内容

数据类型

字段长度

字段属性

高级类型

字段说明

hkey

网页主键

长数字

0

索引字段;键值唯一;主键字段

NONE

主键字段

orgName

选区内全部文本

字符串

80

NONE

公司名称

comType

选区内全部文本

字符串

30

NONE

企业类型

regDate

选区内全部文本

字符串

30

NONE

成立日期

regAdd

选区内全部文本

字符串

200

NONE

注册地址

mobile

选区内全部文本

字符串

20

NONE

手机

linkman

选区内全部文本

字符串

16

NONE

联系人

sumary

选区内全部文本

字符串

0

长文本(<64k)

简介

collectTime

网页获取时间

长数字

0

日期时间

采集时间

url

网页地址

字符串

200

NONE

采集url地址

 

4.采集评论信息

评论信息大多是表格形式的,一行是一条数据。采集表格数据时,由于各行都在同一个页面上,所以主键字段不能选择网页主键”。一般有两种情况:

字段采集内容为“空”,字段属性选择“主键字段”、“自增字段

表格有独特的序列特征时,以该特征作为主键,采集内容选择选区内全部文本”,字段属性选择“主键字段”。

字段名称

采集内容

数据类型

字段长度

字段属性

高级类型

字段说明

comm_id

(空)

长数字

0

索引字段;键值唯一;主键字段;

自动字段;

NONE

评论ID

pro_name

选区内全部文本

字符串

64

NONE

产品名称

score

选区内全部文本

浮点数

0

NONE

评分

author

选区内全部文本

字符串

64

NONE

评论人

context

选区内全部文本

字符串

0

长文本(<64k)

评论正文

comm_time

选区内全部文本

字符串

32

NONE

评论时间

get_time

网页获取时间

长数字

0

日期时间

采集时间