发表于2021年7月1日16:18最后回复于2021年7月1日16:18

采集亚马逊商品信息教程

134浏览量

0评论

l 采集网站

【场景描述】采集亚马逊搜索关键词出来的商品信息。

【入口网址】https://www.amazon.com/-/zh/ref=nav_logo

【采集内容】

采集亚马逊搜索关键词搜索出来的商品信息,包括商品名称、价格、型号、星级和商品链接。


l 思路分析

配置思路概览:

l 配置步骤

1. 新建采集任务

选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。


2. 关键词配置

①在入口页搜索不同关键词,发现不同关键词搜索结果的链接,只更换了图中红框部分,而红框部分正是经过转码后的关键词。

关键词为:女装第一页链接

https://www.amazon.com/-/zh/s?k=%E5%A5%B3%E8%A3%85&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1624952544&ref=sr_pg_1


关键词为:女装第二页链接

https://www.amazon.com/s?k=%E5%A5%B3%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2

关键词为:男装第一页链接

https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_1

关键词为:男装第二页链接

https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2

说明不同关键词和页数搜索出来的链接规律为

https://www.amazon.com/s?k=【关键词转码】&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_【页数】

②得到关键词链接拼接规则后,开始配置关键词搜索:

点击屏幕右下角【高级配置】,将采集地址填写到【请求地址】中,点击【+】添加一个参数,名称可以自定义,此项配置是用于后期脚本能将关键词从关键词列表中取出,配置完成点击【确定】即可。

③设置关键词,在关键词列表添加多个关键词用英文分号或换行隔开。

④关键词需要写脚本,新建一个脚本,如下所示:

⑤根据刚才的链接规律,具体配置脚本如下:

脚本文本如下:

var ks = EXTRACT.GetSearch(this);
var k = ks.Search();
while(k)//while循环将所有关键词拼一遍
{
	url u;
	var kw = k.wd;
    var wd= u.UnEscape( kw);
    for(var i=1;i<=10;i++)//for循环采集前10页数据
   { 
    var ur = "https://www.amazon.com/s?k="+u.Escape(wd)+"&language=zh&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99"+"&qid=1624946018&ref=sr_pg_"+i;//根据链接规律拼链接
	u.title = wd+"第"+i+"页"; //返回链接title
    u.urlname = ur;//返回链接
    u.entryid = this.id;//返回id
    u.tmplid = 1;//关联模板01
    RESULT.AddLink(u);
    }
    k = ks.Search();
}
ks.End();

⑥效果预览:

点击【采集预览】,即可看到配置效果。

3.商品链接抽取

①从采集预览中任意复制一条链接。

②将链接复制到默认模板01的示例地址中。

③右击采集预览,可以看到爬虫抓取出来的所有链接。

④观察发现,这些链接就是关键词搜索出来的商品链接。并且链接中都含有【/zh/dp/】。

⑤选择地址过滤,选择【包含】,填入【/zh/dp/】,点击保存。则筛选出所有商品链接,商品链接就抽取出来了。

⑥关联模板,将模板01链接抽取关联至模板02,具体操作如下图所示:

4.商品数据抽取

①新建模板02,在模板02下建一个数据抽取,具体操作如下图所示。

②数据建表

点击图中加号,新建一个数据表,然后添加字段,各字段属性如下图所示:


③将新建好的数据表,关联到模板中去,如下图所示:

④填写示例地址,从采集预览中任意复制一条商品的链接,填写到模板02的示例地址中。

⑤字段抽取

字段抽取使用定位抽取的方法,选中选区后,点击【确认选区】按钮即可。

⑥采集预览,如下图所示,一层一层双击,进入最后数据页,即取到了数据。

l 采集步骤

模板配置完成,采集预览没有问题后,可以进行数据采集。

①首先要建立采集数据表:

选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为amazon(注意命名不能用数字和特殊符号),点击【确定】。

创建完成,勾选数据表。


②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。

③可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。

导出的文件打开如下图所示:

发布新帖

私信

举报