`
coderplay
  • 浏览: 571553 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论
文章列表
下载本文代码 用户推荐越来越热, Google使用MinHash, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类;新浪也用Slope One以及一些Item-based的算法对音乐进行推荐; 淘宝定期会启动MapReduce作业分析前一天或者一个月用户收藏的宝贝,给相同喜好的买家提供推荐服务。 本文要描述的Slope One 算法是一种对评分进行预测的算法, 它相对于SVD, PLSI, LDA这一类model-based算法来说有以下特点: 1. 简单, 容易实现 2. 训练得到的模型可以增量更新 3. 预测速度很快 4. 用户可以只做 ...
对hive的元数据表结构要作以下调整: hive用户不与表有直接关系,表没有owner,只有能看见(能操作)/不能看见(不能操作)某个表之分。所以TBLS表应当去掉Owner字段。 对于CLI版本还是有一些冲突。目前Hive的CLI是运行在hive本地, 各用户使用各自的配置。配置里有元数据所在持久层(我们使用的是mysql)的位置,所以得有此库的写权限。一般情况下,每个用户对应自己的一个mysql库,这样就能与其它用户隔离, 自己建的hive表不会被其它人所删掉。但如果把hive做成多用户环境,大家都使用同一个mysql库,就会存在安全上的隐患。 得添加User, Db_priv和Ta ...
avro是doug cutting主持的rpc项目,有点类似google的protobuf和facebook的thrift. avro用来做以后hadoop的rpc, 使hadoop的rpc模块通信速度更快,数据结构更紧凑。还有一个很令人兴奋的一点,就是支持多种语言,例如: c/c++,java,python。 这就意味着我们 ...
偏激了一点. 总体来说Hive的思想是不错的, 思路是清晰的, 但代码也是啰嗦的, 简单的功能非得涉及到3,4个类,有时候十多个类。   1. 实现代码过量使用自己造的术语以及由它们引申的术语,导致代码理解起来非常困难, 例如SerDe(Dy ...
这几天在做sql编译相关的东西, 自己弄了个题目,连资深数据库开发人员都可能会搞错. 以下sql中哪些执行时会报错? (适于所有常见DBMS) 1. select distinct col from tbl 2. select distinct col1, distinct col2 from tbl   3. select count(distinct col% 10) from tbl  4. select length(distinct col1% 10) from tbl  5. select ...
很少在博客里写翻译的东西, 这次例外. 原文在这儿 . 译文掺杂了些自己的表述。 解析器(Parser) 解析器 由antlr生成, 文法定义在Hive.g文件中。它的功能是将查询字符串翻译成抽象语法树(Abstract Syntax Tree, 简称AST). 语法分析器(Semantic Analyzer) 语法分析器将AST转换成内部查询形式,此形式为查询块(Query Block), 而不是一棵操作符树(Opertator Tree). 它还验证查询语句中的列名, 符号"*" 等. 同时这一环节还进行类型检查, 隐式类型转换. 如果被查询的表是带分区 ...
某天晚上在hadoop群里一时兴起, 回答了一些hive相关的问题, hive的初学者可以看看 :)     梁建:    hive 主要用于 结构化数据 吗? 我:    结构化数据 梁建:    hadoop 0.19.1 和 那个  hive 版本 配置 我:    它走的是传统数据库, 有compiler解析sql,形成mapreduce任务 我:    hive都支持,不过要改下配置 hivefans: hive做数据仓库的 分析/统计 我:    hive要做到数据仓库,还早着 梁建:     google  的 三架马车 不是 mapreduce, ...
4月份在学校花了半小时做的一个ppt,  内容是我们在应用hadoop集群上的一些监控、调试、调优经验, hadoop的改造思路及我们的分布式数据挖掘项目介绍。有一些东西做了删减,请下载附件。
要实现自己的JDBC驱动,最重要的是实现以下几个接口: java.sql.Driver java.sql.Connection java.sql.Statement java.sql.ResultSet 这篇文章讲解了如何实现一个简单的jdbc驱动: http://www.javaworld.com/javaworld/jw-05-2002/jw-0517-jdbcdriver.html   但是一个成熟的jdbc驱动, 光实现以上4个接口是不够的。用户经常使用数据库的元数据(metadata)信息, 比如返回某个库中所有表的相关信息; 或者结果集(ResultSet)的元数 ...
学校开题的东西,分享一下。
请使用非IE浏览器,如firefox,opera等浏览, IE会把\转义成/ 仿射和凸集 通过直线上所有的点都满足: 仿射集: 通过集合中任意两不同点的直线都在集合之中. 示例: 线性方程的解就是一仿射集. 通过线段上所有的点都满足: 且 凸集: 集合中任何两点之间的线段都在集合之中. 锥 超平面和半空间 分离和支持超平面 对偶锥
请使用非IE浏览器,如firefox,opera等浏览, IE会把\转义成/ PS.很多中文翻译把optimization problem翻译成最优化问题, 而convex optimization翻译成凸优化。这里做个统一,optimization problem翻译成优化问题。 数学优化问题,或优化问题是以下形式: 其中 :此问题的优化变量,它是一个n维向量。 :目标函数; :约束函数, 常量:是约束的界限,或称范围。 如果存在使得目标函数在满足所有约束下取得最小值,那被称为最优解,或称此数学优化问题的解。 如果满足以下条件: 则此优化问题称作线性优化问题,不满足此条件则是非线性 ...
请使用非IE浏览器,如firefox,opera等浏览, IE会把\转义成/ 最优化理论: 给出关于η和ξ,它们满足如下关系:,但是a,b,c却是未知的,只知道一些关于η和ξ的取值样本,如何才能得到此曲线的方程式呢? 一般使用最小二乘法: Array Red Calendar Matrix Braces Integral in center
目前我在SVM的并行化方面已经有解法. SVM在数学上的本质是凸优化理论, 可以有很多种解法。 它的问题具有对偶性, 从原问题出发和从对偶问题出发。传统SVM在大数据集下,它的核矩阵要占用的内存非常大,呈平方地递增。 也就是说1000个数据占用的内存会是100个数据占用的内存的100 倍。为了解决此问题,涉及到SVM的分解,极端的情况下是使用SMO算法,这也是目前SVM最流行的解法。 SMO算法每次只求目标函数的两个alpha值,具有占用内存较小,收敛得比较快的优势。 但在并行上,不是很好做,因为后一步的alpha值依赖前一步的alpha值,前后数据依赖性比较强, 我一直到今年2月中旬左右才从理 ...
写文档时, 偶然发现很久以前的东西,给大家分享一下. 现在lucene已经过了这个版本, 已经有OpenBitSet这种好东西了.~   1. lucene2.3.2的变更 2. 疱丁解牛分词器分析 3. 几种分词器精度和速度的比较   Lucene2.3.2的变更 Author: Jeremy Chow(cod ...
Global site tag (gtag.js) - Google Analytics