51CTO博客开发
openKM想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件?不知道openkm能不能做到。OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强。 并且在知识管理方面的加工,提供了更加灵活和成本较低的替代应用。界面如下:zongtui项目项目地址: (分布式爬虫)http://
众推,开源版的今日头条! 基于hadoop思维的分布式网络爬虫。
C4.5简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。 由于ID3算法在实际应用中存在一些问题,于是Quinlan提出了C4.5算法,严格上说C4.5只能
讨论内容 昨天的架构基本确定成如下图所示: 针对此架构,大家分别提了不同的看法: 【大侠】秦刘 9:53:58 工作节点的爬虫 应该就是普通的一个cmd形式的小程序,对不对? 【大侠】秦刘 9:54:38 webapp的作用应该只是这个 【大侠】大常 9:55:11 这个是什么的设计图? 【大侠】大常 9:55:16&
文档分享流程 今天在群里与大家讨论,想一个比较合理的分享流程。 我想看到流程应该是挺清楚了,就不再多加文字方面的解释了! 有想参与的可以一起进来讨论 群号 194338168 想深度参与的加,不想参与的就别往里进了,现在需要的主要是开发和文档两类人。群会定期往出清人! (项目会开源出来)
分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定。 大家决定 全力以付,集中攻克“分布式爬虫”。 分布式爬虫架构1 使用队列,即生产者,消费都模式。 由于生产者将规则生成到队列,然后由爬虫集群(消费者)到队列中取规则,然后按优先级等规则进行爬取。 分布式爬虫架构2 类似于webmagic,webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API
项目背景 因为最近一直都在搞数据挖掘类的项目,且现在国内的大数据潮火热。在前几天与群里的几位兄弟聊天所以有了做一个开源项目的想法,以前也搞过一个开源的项目,当时只是想把权限集中化做一下,项目的名称和地址是: http://www.cnblogs.com/skyme/archive/2012/02/07/2341364.html 但是后期实在工作太忙,就搁置在那里了。 所以现在又搞了一个,目
收集web日志的目的Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接关系,以适应用户的访问习惯,并且同时为用户提
什么是数据仓库?数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理:①数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;②数据仓库是对多个异构数据源的有效集成,集成后按照主
以 API 为中心的应用 Windowslive Writer 即(WLW) 是一个免费的桌面应用程序,您可以使用它轻松发布丰富的内容到您的网络日志。使用 WLW,您可以轻松地在所有日志服务上共享照片和视频 — Windows Live、WordPress、Blogger、Live Journal、TypePad 等。
以 API 为中心的应用 以API为中心的应用的框图: 创建以API为中心的网络应用的主要优势之一便是它帮助你建立可以用于任何设备的功能,浏览器、移动电话、甚至是桌面应用。你所需要做的就是创建的API 能够使所有这些设备利用它完成通信,然后,瞧!你将能够建造一个集中式应用,它能够接受来自用户所使用的任何设备的输入并执行相应的功能。
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号