目录
    3.3.2 采集新闻、博客
    视频教程:模板下载:

    新闻正文中的图片,一般位置和数量都不固定,采集这样的图片,需要建立两张表,通过正文的id进行关联,用正文表的主键id作为图片表的外键。

    ①正文表:

    字段名称

    采集内容

    数据类型

    长度

    字段属性

    高级类型

    备注

    News_id

    网页主键

    长数字

    0

    索引字段;

    键值唯一;

    主键字段

    NONE

    主键字段

    author

    选区内全部文本

    字符串

    64

    NONE

    作者

    get_web

    任务名称

    字符串

    64

    NONE

    采集来源名称

    get_time

    网页获取时间

    长数字

    0

    日期时间

    采集时间

    title

    选区内全部文本

    字符串

    64

    NONE

    标题

    news_time

    选区内全部文本

    字符串

    30

    NONE

    文章发表内容

    content

    选区内全部文本

    字符串

    0

    长文本(<64k)

    正文内容

    url

    网页地址

    字符串

    255

    NONE

    文章url地址

     

    ②图片表:

    字段名称

    采集内容

    数据类型

    长度

    字段属性

    高级类型

    备注

    hkey

    (空)

    长数字

    0

    索引字段;键值唯一;主键字段;

    自动字段

    NONE

    图片的主键

    news_id

    网页主键

    长数字

    0

    NONE

    图片所在文章的主键

    pic

    图片

    流数据

    0

    NONE

    图片数据