06月26, 2017

Apache SystemML基于大数据的机器学习

原文

目前支持的机器学习算法有:

描述性统计 Descriptive Statistics

该类中的算法用于描述数据集的主要特征。它们提供了对不同观察或数据记录计算的有意义的摘要收集在研究中。这些摘要通常构成初步数据探索的基础,作为其中的一部分更广泛的统计分析。

  1. 单变量统计 Univariate Statistics
  2. 双变量统计 Bivariate Statistics
  3. 分层双变量统计 Stratified Bivariate Statistics

分类 Classification

该类中的算法用于基于一些预定义的类或对象对数据进行分组。这是监督学习的特点。分类算法的一个例子是将社交媒体的评论分为正面评价,负面评价或中立评价。

  1. 二进制类支持向量机 Binary-Class Support Vector Machines
  2. 多类支持向量机 Multi-Class Support Vector Machines
  3. 多项 Logistic 回归 Multinomial Logistic Regression
  4. 支持向量机 Support Vector Machines
  5. 朴素贝叶斯 Naive Bayes
  6. 决策树 Decision Trees
  7. 随机森林 Random Forests

聚类 Clustering

聚类是一种无监督的学习类算法。数据集中没有预定义的类 - 算法在数据中找到关系。聚类算法将数据排列或聚类成若干数量的逻辑组。例如,确定商店客户的购买模式。

  1. K 均值聚类 K-Means Clustering

回归 Regression

回归是另一类监督学习算法。该数据集中的目标变量是连续的。股票市场预测是回归算法的一个例子。这里的股票价格是目标变量,或者是我们想预测的,而且每天都有变化。

  1. 线性回归 Linear Regression
  2. 逐步线性回归 Stepwise Linear Regression
  3. 广义线性模型 Generalized Linear Models
  4. 逐步广义线性回归 Stepwise Generalized Linear Regression
  5. 回归计分与预测 Regression Scoring and Prediction

矩阵分解 Matrix Factorization

矩阵分解算法用于发现嵌入在不同实体之间的交互中的潜在特征。它们利用多个矩阵,当它们相乘时,生成一个类似于原先矩阵的新矩阵。亚马逊和 Netflix 使用矩阵因式分解算法来提出产品建议。例如每行代表您的一个客户,每列表示您的一个产品,矩阵是大而稀疏的。因此,每个单元代表由特定客户购买的特定产品。该矩阵首先填充历史数据,然后将原始矩阵分解为"产品因素"和"客户因素"两个因素。通过将这两个因子相乘在一起,我们产生添加到矩阵中的新的非零值。这些新的非零值表示产品建议。

  1. 主成分分析 Principal Component Analysis
  2. 通过交替最小化完成矩阵 Matrix Completion via Alternating Minimizations

生存分析 Survival Analysis

生存分析检查感兴趣的特定事件发生所需的时间。换句话说,它们用于估计生存概率。例如,在医学研究中,原型的这种事件是患者的死亡,但是该方法可以应用于其他应用领域,例如在心理实验中完成个人的任务或者在工程中的电气部件的故障。

  1. Kaplan-Meier 生存分析 Kaplan-Meier Survival Analysis
  2. Cox 比例风险回归模型 Cox Proportional Hazard Regression Model

本文链接:https://blog.jnliok.com/post/ml-apache-systemml.html

-- EOF --

Comments