目录
    采集亚马逊商品信息
    视频教程:模板下载:

    l 采集网站

    【场景描述】采集亚马逊搜索关键词出来的商品信息。

    【入口网址】https://www.amazon.com/-/zh/ref=nav_logo



    【采集内容】采集亚马逊搜索关键词搜索出来的商品信息,包括商品名称、价格、型号、星级和商品链接。


    l 思路分析

    l 配置步骤

    一.新建采集任务

    选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。

     

     

    二.关键词配置及翻页链接

    1.查找规律

    在亚马逊首页页搜索不同关键词,发现不同关键词搜索结果的链接,只更换了图中红框部分,而红框部分正是经过转码后的关键词。


    关键词为:女装第一页链接

    https://www.amazon.com/-/zh/s?k=%E5%A5%B3%E8%A3%85&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1624952544&ref=sr_pg_1


    关键词为:女装第二页链接

    https://www.amazon.com/s?k=%E5%A5%B3%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2


    关键词为:男装第一页链接

    https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_1


    关键词为:男装第二页链接

    https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2


    说明不同关键词和页数搜索出来的链接规律为

    https://www.amazon.com/s?k=【关键词转码】&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_【页数】

     

    2.高级配置

    得到关键词链接拼接规则后,开始配置关键词搜索:

    点击屏幕右下角【高级配置】,将采集地址填写到【请求地址】中,点击【+】添加一个参数,名称可以自定义。

    此项配置是用于后期脚本能将关键词从关键词列表中取出,配置完成点击【确定】即可。

     


    3.设置搜索关键词

    在关键词列表添加多个关键词用英文分号或换行隔开。

     


    4.新建脚本

    关键词需要写脚本,新建一个脚本,如下所示:



    5.脚本配置

    根据刚才的链接规律,具体配置脚本如下:

     


    脚本文本如下:


    • var ks = EXTRACT.GetSearch(this);
      var k = ks.Search();
      while(k)//while循环将所有关键词拼一遍
      {
      url u;
      var kw = k.wd;
          var wd= u.UnEscape( kw);
          for(var i=1;i<=10;i++)//for循环采集前10页数据
         {
          var ur = "https://www.amazon.com/s?k="+u.Escape(wd)+"&language=zh&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99"+"&qid=1624946018&ref=sr_pg_"+i;//根据链接规律拼链接
      u.title = wd+"第"+i+"页"; //返回链接title
          u.urlname = ur;//返回链接
          u.entryid = this.id;//返回id
          u.tmplid = 1;//关联模板01
          RESULT.AddLink(u);
          }
          k = ks.Search();
      }
      ks.End();

    6.效果预览:

    点击【采集预览】,即可看到配置效果。

     


    三.商品链接抽取

    1.从采集预览中任意复制一条链接。

     


    2.将链接复制到默认模板01的示例地址中。

     


    3.右击采集预览,可以看到爬虫抓取出来的所有链接。


     

    4.观察发现,这些链接就是关键词搜索出来的商品链接。并且链接中都含有【/zh/dp/】。

     


    5.选择地址过滤,选择【包含】,填入【/zh/dp/】,点击保存。则筛选出所有商品链接,商品链接就抽取出来了。

     


    6.关联模板,将模板01链接抽取关联至模板02,具体操作如下图所示:

     


    四.商品数据抽取

    1.新建数据抽取

    新建模板02,在模板02下建一个数据抽取,具体操作如下图所示。

     


    2.数据建表

    点击图中加号,新建一个数据表,然后添加字段,各字段属性如下图所示:



    3.关联表单

    将新建好的数据表,关联到模板中去,如下图所示:

     


    4.填写示例地址

    从采集预览中任意复制一条商品的链接,填写到模板02的示例地址中。

     


    5.字段抽取

    字段抽取使用定位抽取的方法,选中选区后,点击【确认选区】按钮即可。

     


     

    6.采集预览

    如下图所示,一层一层双击,进入最后数据页,即取到了数据。

     

     

    l 采集步骤

    模板配置完成,采集预览没有问题后,可以进行数据采集。

    1.建立采集数据表

    选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为amazon(注意命名不能用数字和特殊符号),点击【确定】。

     


    2.关联数据表

    创建完成,勾选数据表并保存。

     


    3.开始采集

    选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

     


    4.导出数据

    可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

     

    导出的文件打开如下图所示: