众推项目的最近讨论

news/2024/7/19 10:08:55 标签: 爬虫, git, java

openKM

想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件?

不知道openkm能不能做到。

OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强。 并且在知识管理方面的加工,提供了更加灵活和成本较低的替代应用。

界面如下:

image

zongtui项目

项目地址:
(分布式爬虫)http://git.oschina.net/zongtui/zongtui-webcrawler
(去重过滤器)https://git.oschina.net/zongtui/zongtui-filter
(文本分类器)https://git.oschina.net/zongtui/zongtui-classifier
(文档目录)https://git.oschina.net/zongtui/zongtui-doc

O$}1EMGOHJHEW`WHJG0)ALA

然后再推荐一篇文章:(深度学习 vs 机器学习 vs 模式识别)

http://www.itd4j.com/cloudcomputing/15538.html

自动化部署

请问 有Java的自动化部署工具推荐不?

有时候修改几个文件就要重新打包发布重启,太麻烦了,请问有什么更好的办法么?

Jenkins是一个开源软件项目,旨在提供一个开放易用的软件平台,使持续集成变成可能经济界。

云爬取

就是有一个客户端要爬取一千个商品,他可以提交给服务器,然后有服务器在分配给其它客户端来爬取。这样搞性能比较高,还能逃过IP限制。

那就是用户要爬什么资料。你就让用户自己去爬取。服务端只负责,接收任务,分配任务,返回任务。

等于是免费的ip池而已。。

项目新架构

经过讨论,目前的项目新架构已经修改如下:

7NXN9[J0T`ZGMNULRLI0@9C

这样,问题的集中点就在如何接入爬虫上了,因为现在各种爬虫已经太多,没必要在搞一个什么新鲜的东西!

core部分的思路参考:

2P3(8IO@K_~[GG[6FTB9J%G

下一步的处理

1.通过设定规则抓取页面;

2.设定页面存储方案;

3.通过页面材料分析出内容属性;

4.通过内容属性生成结果;

5.通过结果进行学习;

6.通过结果生成内容;

说一下为什么接入其它的,我举两个例子

1、webmagic

P{6{44@9$UV8D_I33%`X3ND[4]

就我知道,这哥们写了2年,基本上各种问题都遇到过。没必要再走一遍它的路,如果有问题可以通过它预留的接口帮它完善,或者直接用自己的实现。比如有性能问题,就我知道现在国内没有一个比较权威的对各种爬虫做比较。

2、Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

说它有问题我觉得只有这么几种可能:

1、场景不适合。

2、没理解,没用明白。

所以我觉得没必要非得造个轮子。

个性化推荐

用户端就是数据呈现了,我的理解是内容方主要的工作是:采集、整理、推荐、打TAG、分值(多个)、推荐、赞、踩、回复数、类型(图文、视频、文本、微信、微博等);

用户这边的东西就确实高级很多:单体关系画像,不同社交圈关系画像,主要人群划分TAG得分,年龄、性别、职业、特别事件、喜欢内容TAG得分、收藏内容TAG得分、分享内容TAG得分、不感兴趣内容TAG得分(负值或其他分数)
推荐引擎主要的工作:按照用户的tag得分匹配内容,结合地理位置(当前的和常用的)、当前时间段(早、中、下、晚)、当前日期(节日、周末)、热点实时注册的时候选择标签这个是SNS的做法了,头条现在基本上都是从用户关系拿了关联用户数据再来推。

众推只要完成了初步的推荐功能,其他的基本上都是靠运营的人来积累数据。没有足够的数据肯定精准度要差点。比如一点资讯,现在内容差不多已经全搬过来了,但是推荐还是很烂,主要靠套用头条的编辑推荐那块,人工加了点分值。要不然感觉推荐会更加不准。


http://www.niftyadmin.cn/n/847680.html

相关文章

国内大学论文latex模板链接

转自:http://emuch.net/html/201207/4685325.html 国防科学技术大学研究生学位论文LaTeX模板 南开大学学位论文LaTeX模板(孙文昌老师)华南理工大学硕/博士研究生课程论文及学位论文 LatexLyx模板哈尔滨工业大学PlutoThesis硕博士开题及学位…

10 个你必须掌握的超酷 VI 命令技巧

摘要:大部分Linux开发者对vi命相当熟悉,可是遗憾的是,大部分开发者都只能掌握一些最常用的Linux vi命令,下面介绍的10个vi命令虽然很多不为人知,但是在实际应用中又能让你大大提高效率。 在使用vi 编辑器时—无论是初次…

Mysql查询缓存研究

转载声明:本文为DBA社群原创文章,转载必须连同本订阅号二维码全文转载,并注明作者名字及来源:DBA社群(dbaplus)。http://mp.weixin.qq.com/s?__bizMzI4NTA1MDEwNg&mid401573120&idx1&snccb988…

Ubuntu16.04(64bit)中制作arm-linux-gcc

Mini2440官方所提供的arm-linux-gcc是基于32位Linux系统的,在64位Linux中运行会出错[1]。在64位机时代里,继续使用32位Linux进行开发就显得有点out了。针对上述背景,本文在64位Linux中制作arm-linux-gcc工具,主要开发环境如下&…

C语言小记

英文原文:Ryan 编译:伯乐在线 – 肖翔 http://blog.jobbole.com/16035/ C语言常常让人觉得它所能表达的东西非常有限。它不具有类似第一级函数和模式匹配这样的高级功能。但是C非常简单,并且仍然有一些非常有用的语法技巧和功能&#xf…

掌握 Linux 调试技术

本文转自:http://www.ibm.com/developerworks/cn/linux/sdk/l-debug/index.html 掌握 Linux 调试技术 在 Linux 上找出并解决程序错误的主要方法 Steve Best (sbestus.ibm.com)JFS 核心小组成员,IBM简介: 您可以用各种方法来监控运行着的用户…

西西弗斯的神话

作者:阿尔贝加缪The Myth of Sisyphus by Albert Camus The gods had condemned Sisyphus to ceaselessly rolling a rock to the top of a mountain, whence the stone would fall back of its own weight. They had thought with some reason that there is no m…

tomcat使用指南

最近工作不是很忙,发现好久也没有更新博文了,正好最近有一个项目使用到了tomcat,看了前俩年整理出来的文档,感觉还不错。所以决定发表出来,本来打算一次性发表出来的,但是考虑到文档太长,内容太…