用户推荐Slope One算法与mapreduce&hive实现

博客分类：

redpoll

下载本文代码用户推荐越来越热, Google使用MinHash, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类；新浪也用Slope One以及一些Item-based的算法对音乐进行推荐; 淘宝定期会启动MapReduce作业分析前一天或者一个月用户收藏的宝贝,给相同喜好的买家提供推荐服务。本文要描述的Slope One 算法是一种对评分进行预测的算法, 它相对于SVD, PLSI, LDA这一类model-based算法来说有以下特点: 1. 简单, 容易实现 2. 训练得到的模型可以增量更新 3. 预测速度很快 4. 用户可以只做 ...

2009-09-14 20:23
浏览 10534
评论(6)

hive权限控制

博客分类：

mapreduce&parallel

MySQL 数据结构 HTML

对hive的元数据表结构要作以下调整： hive用户不与表有直接关系,表没有owner,只有能看见(能操作)/不能看见(不能操作)某个表之分。所以TBLS表应当去掉Owner字段。对于CLI版本还是有一些冲突。目前Hive的CLI是运行在hive本地, 各用户使用各自的配置。配置里有元数据所在持久层(我们使用的是mysql)的位置，所以得有此库的写权限。一般情况下，每个用户对应自己的一个mysql库,这样就能与其它用户隔离, 自己建的hive表不会被其它人所删掉。但如果把hive做成多用户环境,大家都使用同一个mysql库,就会存在安全上的隐患。得添加User, Db_priv和Ta ...

2009-09-07 14:35
浏览 5049
评论(1)

avro编译

博客分类：

mapreduce&parallel

Hadoop SVN Python Ant Apache

avro是doug cutting主持的rpc项目,有点类似google的protobuf和facebook的thrift. avro用来做以后hadoop的rpc, 使hadoop的rpc模块通信速度更快,数据结构更紧凑。还有一个很令人兴奋的一点，就是支持多种语言,例如: c/c++,java,python。这就意味着我们� ...

2009-07-04 00:36
浏览 3729
评论(0)

Hive的一些问题

博客分类：

mapreduce&parallel

SQL Server Facebook 多线程 SQL

偏激了一点. 总体来说Hive的思想是不错的, 思路是清晰的, 但代码也是啰嗦的, 简单的功能非得涉及到3,4个类,有时候十多个类。 1. 实现代码过量使用自己造的术语以及由它们引申的术语,导致代码理解起来非常困难, 例如SerDe(Dy ...

2009-06-01 16:51
浏览 3802
评论(2)

出道distinct相关的sql题给大家做做

博客分类：

misc

SQL

这几天在做sql编译相关的东西, 自己弄了个题目,连资深数据库开发人员都可能会搞错. 以下sql中哪些执行时会报错? (适于所有常见DBMS) 1. select distinct col from tbl 2. select distinct col1, distinct col2 from tbl 3. select count(distinct col% 10) from tbl 4. select length(distinct col1% 10) from tbl 5. select ...

2009-05-22 20:13
浏览 2234
评论(3)
论坛回复 / 浏览 (3 / 3818)
分类:数据库

hive的编译模块设计

博客分类：

mapreduce&parallel

Hadoop Mapreduce XML

很少在博客里写翻译的东西, 这次例外. 原文在这儿 . 译文掺杂了些自己的表述。解析器(Parser) 解析器由antlr生成, 文法定义在Hive.g文件中。它的功能是将查询字符串翻译成抽象语法树(Abstract Syntax Tree, 简称AST). 语法分析器(Semantic Analyzer) 语法分析器将AST转换成内部查询形式,此形式为查询块(Query Block), 而不是一棵操作符树(Opertator Tree). 它还验证查询语句中的列名, 符号"*" 等. 同时这一环节还进行类型检查, 隐式类型转换. 如果被查询的表是带分区 ...

2009-05-22 15:39
浏览 3697
评论(0)

HIVE问答, 某天的hadoop群聊天记录

博客分类：

mapreduce&parallel

Hadoop Derby Oracle HBase Mapreduce

某天晚上在hadoop群里一时兴起, 回答了一些hive相关的问题, hive的初学者可以看看 :) 梁建: hive 主要用于结构化数据吗？我: 结构化数据梁建: hadoop 0.19.1 和那个 hive 版本配置我: 它走的是传统数据库, 有compiler解析sql,形成mapreduce任务我: hive都支持,不过要改下配置 hivefans: hive做数据仓库的分析/统计我: hive要做到数据仓库，还早着梁建: google 的三架马车不是 mapreduce, ...

2009-05-07 17:10
浏览 10849
评论(4)
分类:Web前端

暨南大学并行计算实验室MapReduce研究现状

博客分类：

mapreduce&parallel

Mapreduce Hadoop 数据挖掘 JVM 算法

4月份在学校花了半小时做的一个ppt, 内容是我们在应用hadoop集群上的一些监控、调试、调优经验, hadoop的改造思路及我们的分布式数据挖掘项目介绍。有一些东西做了删减,请下载附件。

2009-05-04 21:20
浏览 5064
评论(6)

几种数据库的jdbc驱动实现

博客分类：

misc

JDBC SQL Server Socket SQL Java

要实现自己的JDBC驱动,最重要的是实现以下几个接口: java.sql.Driver java.sql.Connection java.sql.Statement java.sql.ResultSet 这篇文章讲解了如何实现一个简单的jdbc驱动: http://www.javaworld.com/javaworld/jw-05-2002/jw-0517-jdbcdriver.html 但是一个成熟的jdbc驱动, 光实现以上4个接口是不够的。用户经常使用数据库的元数据(metadata)信息, 比如返回某个库中所有表的相关信息; 或者结果集(ResultSet)的元数 ...

2009-05-02 23:00
浏览 3850
评论(0)

并行支持向量机

博客分类：

redpoll

support vector machine svm data mining machine learning

学校开题的东西,分享一下。

2009-04-13 12:48
浏览 2079
评论(0)
论坛回复 / 浏览 (0 / 1238)

convex optimization笔记: 第二章, 凸集

博客分类：

mathematics

IE Firefox Opera 浏览器

请使用非IE浏览器,如firefox,opera等浏览, IE会把\转义成/ 仿射和凸集通过直线上所有的点都满足: 仿射集: 通过集合中任意两不同点的直线都在集合之中. 示例: 线性方程的解就是一仿射集. 通过线段上所有的点都满足: 且凸集: 集合中任何两点之间的线段都在集合之中. 锥超平面和半空间分离和支持超平面对偶锥

2009-03-21 12:07
浏览 3467
评论(1)

convex optimization笔记: 第一章

博客分类：

mathematics

F#IE Firefox Opera 浏览器

请使用非IE浏览器,如firefox,opera等浏览, IE会把\转义成/ PS.很多中文翻译把optimization problem翻译成最优化问题, 而convex optimization翻译成凸优化。这里做个统一，optimization problem翻译成优化问题。数学优化问题,或优化问题是以下形式：其中：此问题的优化变量,它是一个n维向量。：目标函数; ：约束函数，常量：是约束的界限，或称范围。如果存在使得目标函数在满足所有约束下取得最小值，那被称为最优解,或称此数学优化问题的解。如果满足以下条件：则此优化问题称作线性优化问题,不满足此条件则是非线性 ...

2009-03-21 02:02
浏览 4863
评论(1)

数学编辑测试

博客分类：

mathematics

IE C#C C++Firefox

请使用非IE浏览器,如firefox,opera等浏览, IE会把\转义成/ 最优化理论: 给出关于η和ξ,它们满足如下关系：，但是a,b,c却是未知的,只知道一些关于η和ξ的取值样本,如何才能得到此曲线的方程式呢? 一般使用最小二乘法： Array Red Calendar Matrix Braces Integral in center

2009-03-14 15:56
浏览 1692
评论(2)

SVM的并行化

博客分类：

redpoll

算法 Gmail IDEA

目前我在SVM的并行化方面已经有解法. SVM在数学上的本质是凸优化理论, 可以有很多种解法。它的问题具有对偶性, 从原问题出发和从对偶问题出发。传统SVM在大数据集下，它的核矩阵要占用的内存非常大，呈平方地递增。也就是说1000个数据占用的内存会是100个数据占用的内存的100 倍。为了解决此问题，涉及到SVM的分解，极端的情况下是使用SMO算法，这也是目前SVM最流行的解法。 SMO算法每次只求目标函数的两个alpha值,具有占用内存较小,收敛得比较快的优势。但在并行上,不是很好做，因为后一步的alpha值依赖前一步的alpha值，前后数据依赖性比较强, 我一直到今年2月中旬左右才从理 ...

2009-03-10 13:33
浏览 7949
评论(1)

几个搜索相关的pdf(lucene, 分词等)

博客分类：

lucene&nutch

lucene Gmail

写文档时, 偶然发现很久以前的东西,给大家分享一下. 现在lucene已经过了这个版本, 已经有OpenBitSet这种好东西了.~ 1. lucene2.3.2的变更 2. 疱丁解牛分词器分析 3. 几种分词器精度和速度的比较 Lucene2.3.2的变更 Author: Jeremy Chow(cod ...

2009-02-26 15:01
浏览 3375
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

用户推荐Slope One算法与mapreduce&hive实现

hive权限控制

avro编译

Hive的一些问题

出道distinct相关的sql题给大家做做

hive的编译模块设计

HIVE问答, 某天的hadoop群聊天记录

暨南大学并行计算实验室MapReduce研究现状

几种数据库的jdbc驱动实现

并行支持向量机

convex optimization笔记: 第二章, 凸集

convex optimization笔记: 第一章

数学编辑测试

SVM的并行化

几个搜索相关的pdf(lucene, 分词等)

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>