php 淘宝、天猫店铺商品采集


------------------------             原创                 --------------------------------



2015 08 04
1)淘宝现在改成https://
2)连接地址改成  //item.taobao.com/....
3)商品列表
                            <script type="text/javascript">
                                if (window.TShop && window.TShop.ModUtil)
                                    TShop.ModUtil.initMod(document.getElementById("shop8490088327"), 1);
                            </script>

4
商品列表 js调用
 https://shop112980512.taobao.com/i/asynSearch.htm?_ksTS=1438683915079_191&callback=jsonp192&mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1
 https://shop112980512.taobao.com/i/vdata.htm?_ksTS=1438683915142_216&callback=jsonp217

 能打开
 https://shop112980512.taobao.com/i/asynSearch.htm?_ksTS=1438683915079_19&callback=jsonp192&mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1

 https://leilei0451.taobao.com/i/asynSearch.htm?_ksTS=1438683915079_19&callback=jsonp192&mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1


  mid wid对应的是 widgetid。。这个参数不能错
 <div class="J_TModule" data-widgetid="8490088328"  id="shop8490088328"  data-componentid="4002"  data-spm='110.0.4002-8490088328'  microscope-data='4002-8490088328' data-title="宝贝列表"  ><!-- $categoryId $aabc 搜索列表${x-shop-url}请求:searchURL: ,无宝贝:searchURL: , bucketId:  bucketUser: -->
 <div class="skin-box tb-module tshop-pbsm tshop-pbsm-shop-srch-list">
   <input id="J_ShopAsynSearchURL" type="hidden" value="/i/asynSearch.htm?mid=w-8490088328-0&wid=8490088328&path=/search.htm&search=y&pageNo=1" />


有网友提示说 只能访问到第一页的数据



http://3.com/taobaoapi/manage/fetch-taobao-goods/test_pc_list_ajax.php



我本地测试 好像可以啊



估计他没有加ua 和referer




                原创                 ----------------------


 

hpxl · 2014-04-29 22:07:06 +08:00 · 4183 次点击

这是一个创建于 460 天前的主题,其中的信息可能已经有所发展或是发生改变。


能够规避淘宝防采集功能,通过代理快速采集店铺商品,商品信息以及图片默认存放在./data目录。

https://github.com/hpxl/fetch-taobao-goods
如果觉得有用,欢迎star


第 1 条附言  ·  2014-04-30 22:28:30 +08:00

1.修复当淘宝店铺没有店铺分类时,商品采集失败的问题。
2.脚本运行需要开启curl扩展

11


andyhu   

2014-05-03 10:43:43 +08:00

@ hanchengluo 试下node.js+request+cheerio吧,我其实工作中是用PHP的,但如果有需要抓取远程页面这种工作,用完这个组合以后再回去PHP会觉得非常痛苦





--------------------------