新闻正文中的图片,一般位置和数量都不固定,采集这样的图片,需要建立两张表,通过正文的id进行关联,用正文表的主键id作为图片表的外键。
①正文表:
字段名称 | 采集内容 | 数据类型 | 长度 | 字段属性 | 高级类型 | 备注 |
News_id | 网页主键 | 长数字 | 0 | 索引字段; 键值唯一; 主键字段 | NONE | 主键字段 |
author | 选区内全部文本 | 字符串 | 64 | 无 | NONE | 作者 |
get_web | 任务名称 | 字符串 | 64 | 无 | NONE | 采集来源名称 |
get_time | 网页获取时间 | 长数字 | 0 | 无 | 日期时间 | 采集时间 |
title | 选区内全部文本 | 字符串 | 64 | 无 | NONE | 标题 |
news_time | 选区内全部文本 | 字符串 | 30 | 无 | NONE | 文章发表内容 |
content | 选区内全部文本 | 字符串 | 0 | 无 | 长文本(<64k) | 正文内容 |
url | 网页地址 | 字符串 | 255 | 无 | NONE | 文章url地址 |
②图片表:
字段名称 | 采集内容 | 数据类型 | 长度 | 字段属性 | 高级类型 | 备注 |
hkey | (空) | 长数字 | 0 | 索引字段;键值唯一;主键字段; 自动字段 | NONE | 图片的主键 |
news_id | 网页主键 | 长数字 | 0 | 无 | NONE | 图片所在文章的主键 |
pic | 图片 | 流数据 | 0 | 无 | NONE | 图片数据 |