php 淘宝、天猫店铺商品采集
------------------------ 原创 --------------------------------
2015 08 04
1)淘宝现在改成https://
2)连接地址改成 //item.taobao.com/....
3)商品列表
<script type="text/javascript">
if (window.TShop && window.TShop.ModUtil)
TShop.ModUtil.initMod(document.getElementById("shop8490088327"), 1);
</script>
4
商品列表 js调用
https://shop112980512.taobao.com/i/asynSearch.htm?_ksTS=1438683915079_191&callback=jsonp192&mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1
https://shop112980512.taobao.com/i/vdata.htm?_ksTS=1438683915142_216&callback=jsonp217
能打开
https://shop112980512.taobao.com/i/asynSearch.htm?_ksTS=1438683915079_19&callback=jsonp192&mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1
https://leilei0451.taobao.com/i/asynSearch.htm?_ksTS=1438683915079_19&callback=jsonp192&mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1
mid wid对应的是 widgetid。。这个参数不能错
<div class="J_TModule" data-widgetid="8490088328" id="shop8490088328" data-componentid="4002" data-spm='110.0.4002-8490088328' microscope-data='4002-8490088328' data-title="宝贝列表" ><!-- $categoryId $aabc 搜索列表${x-shop-url}请求:searchURL: ,无宝贝:searchURL: , bucketId: bucketUser: -->
<div class="skin-box tb-module tshop-pbsm tshop-pbsm-shop-srch-list">
<input id="J_ShopAsynSearchURL" type="hidden" value="/i/asynSearch.htm?mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1" />
有网友提示说 只能访问到第一页的数据
http://3.com/taobaoapi/manage/fetch-taobao-goods/test_pc_list_ajax.php
我本地测试 好像可以啊
估计他没有加ua 和referer
原创 ----------------------
hpxl · 2014-04-29 22:07:06 +08:00 · 4183 次点击
这是一个创建于 460 天前的主题,其中的信息可能已经有所发展或是发生改变。
能够规避淘宝防采集功能,通过代理快速采集店铺商品,商品信息以及图片默认存放在./data目录。
https://github.com/hpxl/fetch-taobao-goods
如果觉得有用,欢迎star
第 1 条附言 · 2014-04-30 22:28:30 +08:00
1.修复当淘宝店铺没有店铺分类时,商品采集失败的问题。
2.脚本运行需要开启curl扩展
11
2014-05-03 10:43:43 +08:00
@ hanchengluo 试下node.js+request+cheerio吧,我其实工作中是用PHP的,但如果有需要抓取远程页面这种工作,用完这个组合以后再回去PHP会觉得非常痛苦
--------------------------