PHP实现简单线性回归之数学库的重要性

집

백엔드 개발

PHP 튜토리얼

PHP实现简单线性回归之数学库的重要性_PHP教程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 20, 2016 am 11:17 AM

perlphppython그리고그리고반품성취하다도서관열려 있는수학소스 코드~의단순한선의언어중요성

与其它开放源码语言（比如 Perl 和 Python）相比，PHP 社区缺少强有力的工作来开发数学库。

　　造成这种状况的一个原因可能是由于已经存在大量成熟的数学工具，这可能阻碍了社区自行开发 PHP 工具的工作。例如，我曾研究过一个功能强大的工具 S System，它拥有一组令人印象深刻的统计库，专门被设计成用来分析数据集，并且在 1998 年由于其语言设计而获得了 ACM 奖。如果 S 或者其开放源码同类 R 仅仅是一个 exec_shell 调用，那么为何还要麻烦用 PHP 实现相同的统计计算功能呢？有关 S System、它的 ACM 奖或 R 的更多信息，请参阅相关参考资料。

　　难道这不是在浪费开发人员的精力吗？如果开发 PHP 数学库的动机是出自节省开发人员的精力以及使用最好的工具来完成工作，那么 PHP 现在的课题是很有意义的。

　　另一方面，出于教学动机可能会鼓励对 PHP 数学库的开发。对于大约 10% 的人来说，数学是个值得探索的有趣课题。对于那些同时还熟练应用 PHP 的人来说，PHP 数学库的开发可以增强数学学习过程，换句话说，不要只阅读有关 T 测试的章节，还要实现一个能计算相应的中间值并用标准格式显示它们的类。

　　通过指导和训练，我希望证明开发 PHP 数学库并不是一项很难的任务，它可能代表一项有趣的技术和学习难题。在本文中，我将提供一个 PHP 数学库示例，名为 SimpleLinearRegression ，它演示了一个可以用来开发 PHP 数学库的通用方法。让我们从讨论一些通用的原则开始，这些原则指导我开发这个 SimpleLinearRegression 类。

　　指导原则

　　我使用了六个通用原则来指导 SimpleLinearRegression 类的开发。

每个分析模型建立一个类。
使用逆向链接来开发类。
预计有大量的 getter。
存储中间结果。
为详细的 API 制定首选项。
尽善尽美并非目标。

　　让我们更详细地逐条研究这些指导方针。

每个分析模型建立一个类

　　每种主要的分析测试或过程应当有一个名称与测试或过程名相同的 PHP 类，这个类包含了输入函数、计算中间值和汇总值的函数和输出函数（将中间值和汇总值用文本或图形格式全部显示在屏幕上）。

　　使用逆向链接来开发类

　　在数学编程中，编码的目标通常是分析过程（比如 MultipleRegression 、 TimeSeries 或 ChiSquared ）所希望生成的标准输出值。从解决问题的角度出发，这意味着您可以使用逆向链接来开发数学类的方法。

　　例如，汇总输出屏幕显示了一个或多个汇总统计结果。这些汇总统计结果依赖于中间统计结果的计算，这些中间统计结果又可能会涉及到更深一层的中间统计结果，以此类推。这个基于逆向链接的开发方法导出了下一个原则。

　　预计有大量的 getter

　　数学类的大部分类开发工作都涉及到计算中间值和汇总值。实际上，这意味着，如果您的类包含许多计算中间值和汇总值的 getter 方法，您不应当感到惊讶。

　　存储中间结果

　　将中间计算结果存储在结果对象内，这样您就可以将中间结果用作后续计算的输入。在 S 语言设计中实施了这一原则。在当前环境下，通过选择实例变量来表示计算得到的中间值和汇总结果，从而实施了该原则。

　　为详细的 API 制定首选项

　　当为 SimpleLinearRegression 类中的成员函数和实例变量制定命名方案时，我发现：如果我使用较长的名称（类似于 getSumSquaredError 这样的名称，而不是 getYY2 ）来描述成员函数和实例变量，那么就更容易了解函数的操作内容和变量所代表的意义。

　　我没有完全放弃简写名称；但是，当我用简写形式的名称时，我得设法提供注释以完整阐述该名称的含义。我的看法是：高度简写的命名方案在数学编程中很常见，但它们使得理解和证明某个数学例程是否按部就班更为困难，而原本不必造成此种困难。

　　尽善尽美并非目标

　　这个编码练习的目标不是一定要为 PHP 开发高度优化和严格的数学引擎。在早期阶段，应当强调学习实现意义重大的分析测试，以及解决这方面的难题。

　　实例变量

　　当对统计测试或过程进行建模时，您需要指出声明哪些实例变量。

　　实例变量的选择可以通过说明由分析过程生成的中间值和汇总值来确定。每个中间值和汇总值都可以有一个相应的实例变量，将变量的值作为对象属性。

　　我采用这样的分析来确定为清单 1 中的 SimpleLinearRegression 类声明哪些变量。可以对 MultipleRegression 、 ANOVA 或 TimeSeries 过程执行类似的分析。

　　清单 1. SimpleLinearRegression 类的实例变量

// Copyright 2003, Paul Meagher
// Distributed under GPL
class SimpleLinearRegression {
var $n;
var $X = array();
var $Y = array();
var $ConfInt;
var $Alpha;
var $XMean;
var $YMean;
var $SumXX;
var $SumXY;
var $SumYY;
var $Slope;
var $YInt;
var $PredictedY   = array();
var $Error        = array();
var $SquaredError = array();
var $TotalError;
var $SumError;
var $SumSquaredError;
var $ErrorVariance;
var $StdErr;
var $SlopeStdErr;
var $SlopeVal;   // T value of Slope
var $YIntStdErr;
var $YIntTVal;   // T value for Y Intercept
var $R;
var $RSquared;
var $DF;         // Degrees of Freedom
var $SlopeProb; // Probability of Slope Estimate
var $YIntProb;   // Probability of Y Intercept Estimate
var $AlphaTVal; // T Value for given alpha setting
var $ConfIntOfSlope;

var $RPath = "/usr/local/bin/R"; // Your path here

var $format = "%01.2f"; // Used for formatting output

}
?>

构造函数

　　SimpleLinearRegression 类的构造函数方法接受一个 X和一个 Y向量，每个向量都有相同数量的值。您还可以为您预计的 Y值设置一个缺省为 95% 的置信区间（confidence interval）。

　　构造函数方法从验证数据形式是否适合于处理开始。一旦输入向量通过了“大小相等”和“值大于 1”测试，就执行算法的核心部分。

　　执行这项任务涉及到通过一系列 getter 方法计算统计过程的中间值和汇总值。将每个方法调用的返回值赋给该类的一个实例变量。用这种方法存储计算结果确保了前后链接的计算中的调用例程可以使用中间值和汇总值。还可以通过调用该类的输出方法来显示这些结果，如清单 2 所描述的那样。

　　清单 2. 调用类输出方法

// Copyright 2003, Paul Meagher
// Distributed under GPL
function SimpleLinearRegression($X, $Y, $ConfidenceInterval="95") {
$numX = count($X);
$numY = count($Y);
if ($numX != $numY) {
    die("Error: Size of X and Y vectors must be the same.");
}
if ($numX     die("Error: Size of input array must be at least 2.");
}

$this->n               = $numX;
$this->X               = $X;
$this->Y               = $Y;

$this->ConfInt         = $ConfidenceInterval;
$this->Alpha           = (1 + ($this->ConfInt / 100) ) / 2;
$this->XMean           = $this->getMean($this->X);
$this->YMean           = $this->getMean($this->Y);
$this->SumXX           = $this->getSumXX();
$this->SumYY           = $this->getSumYY();
$this->SumXY           = $this->getSumXY();
$this->Slope           = $this->getSlope();
$this->YInt            = $this->getYInt();
$this->PredictedY      = $this->getPredictedY();
$this->Error           = $this->getError();
$this->SquaredError    = $this->getSquaredError();
$this->SumError        = $this->getSumError();
$this->TotalError      = $this->getTotalError();
$this->SumSquaredError = $this->getSumSquaredError();
$this->ErrorVariance   = $this->getErrorVariance();
$this->StdErr          = $this->getStdErr();
$this->SlopeStdErr     = $this->getSlopeStdErr();
$this->YIntStdErr      = $this->getYIntStdErr();
$this->SlopeTVal       = $this->getSlopeTVal();
$this->YIntTVal        = $this->getYIntTVal();
$this->R               = $this->getR();
$this->RSquared        = $this->getRSquared();
$this->DF              = $this->getDF();
$this->SlopeProb       = $this->getStudentProb($this->SlopeTVal, $this->DF);
$this->YIntProb        = $this->getStudentProb($this->YIntTVal, $this->DF);
$this->AlphaTVal       = $this->getInverseStudentProb($this->Alpha, $this->DF);
$this->ConfIntOfSlope = $this->getConfIntOfSlope();
return true;
}
?>

　　方法名及其序列是通过结合逆向链接和参考大学本科学生使用的统计学教科书推导得出的，该教科书一步一步地说明了如何计算中间值。我需要计算的中间值的名称带有“get”前缀，从而推导出方法名。

　　使模型与数据相吻合

　　SimpleLinearRegression 过程用于产生与数据相吻合的直线，其中直线具有以下标准方程：

　　y = b + mx

　　该方程的 PHP 格式看起来类似于清单 3：

　　清单 3. 使模型与数据相吻合的 PHP 方程

$PredictedY[$i] = $YIntercept + $Slope * $X[$i]

　　SimpleLinearRegression 类使用最小二乘法准则推导出 Y 轴截距（Y Intercept）和斜率（Slope）参数的估计值。这些估计的参数用来构造线性方程（请参阅清单 3），该方程对 X和 Y值之间的关系进行建模。

　　使用推导出的线性方程，您就可以得到每个 X值对应的预测 Y值。如果线性方程与数据非常吻合，那么 Y的观测值与预测值趋近于一致。

　　如何确定是否非常吻合

　　SimpleLinearRegression 类生成了相当多的汇总值。一个重要的汇总值是 T统计值，它可以用来衡量一个线性方程与数据的吻合程度。如果非常吻合，那么 T 统计值往往很大。如果 T 统计值很小，那么应当用一个模型替换该线性方程，该模型假设 Y值的均值是最佳预测值（也就是说，一组值的均值通常是下一个观测值有用的预测值，使之成为缺省模型）。

　　要测试 T 统计值是否大得足以不把 Y值的均值作为最佳预测值，您需要计算获取 T 统计值的随机概率。如果获取 T 统计值的概率很低，那么您可以否定均值是最佳预测值这个无效假设，与此相对应，也就确信简单线性模型与数据非常吻合。

　　那么，如何计算 T 统计值的概率呢？

　　计算 T 统计值概率

　　由于 PHP 缺少计算 T 统计值概率的数学例程，因此我决定将此任务交给统计计算包 R（请参阅参考资料中的 www.r-project.org）来获得必要的值。我还想提醒大家注意该包，因为：

R 提供了许多想法，PHP 开发人员可能会在 PHP 数学库中模拟这些想法。
有了 R，可以确定从 PHP 数学库获得的值与那些从成熟的免费可用的开放源码统计包中获得的值是否一致。
清单 4 中的代码演示了交给 R 来处理以获取一个值是多么容易。

　　清单 4. 交给 R 统计计算包来处理以获取一个值

// Copyright 2003, Paul Meagher
// Distributed under GPL
class SimpleLinearRegression {

var $RPath = "/usr/local/bin/R"; // Your path here
function getStudentProb($T, $df) {
    $Probability = 0.0;
    $cmd = "echo 'dt($T, $df)' | $this->RPath --slave";
    $result = shell_exec($cmd);
    list($LineNumber, $Probability) = explode(" ", trim($result));
    return $Probability;
}
function getInverseStudentProb($alpha, $df) {
    $InverseProbability = 0.0;
    $cmd = "echo 'qt($alpha, $df)' | $this->RPath --slave";
    $result = shell_exec($cmd);
    list($LineNumber, $InverseProbability) = explode(" ", trim($result));
    return $InverseProbability;
}
}
?>

　　请注意，这里已经设置了到 R 可执行文件的路径，并在两个函数中使用了该路径。第一个函数根据学生的 T 分布返回了与 T 统计值相关的概率值，而第二个反函数计算了与给定的 alpha 设置相对应的 T 统计值。 getStudentProb 方法用来评估线性模型的吻合程度； getInverseStudentProb 方法返回一个中间值，它用来计算每个预测的 Y值的置信区间。

　　由于篇幅有限，我不可能逐个详细说明这个类中的所有函数，因此如果您想搞清楚简单线性回归分析中所涉及的术语和步骤，我鼓励您参考大学本科学生使用的统计学教科书。

　　燃耗研究

　　要演示如何使用该类，我可以使用来自公共事业中燃耗（burnout）研究中的数据。Michael Leiter 和 Kimberly Ann Meechan 研究了称为消耗指数（Exhaustion Index)的燃耗度量单位和称之为集中度（Concentration）的独立变量之间的关系。集中度是指人们的社交接触中来自其工作环境的那部分比例。

　　要研究他们样本中个人的消耗指数值与集中度值之间的关系，请将这些值装入适当命名的数组中，并用这些数组值对该类进行实例化。对类进行实例化后，显示该类所生成的某些汇总值以评估线性模型与数据的吻合程度。

　　清单 5 显示了装入数据和显示汇总值的脚本：

　　清单 5. 用于装入数据并显示汇总值的脚本

// BurnoutStudy.php
// Copyright 2003, Paul Meagher
// Distributed under GPL
include "SimpleLinearRegression.php";
// Load data from burnout study
$Concentration   = array(20,60,38,88,79,87,
                         68,12,35,70,80,92,
                         77,86,83,79,75,81,
                         75,77,77,77,17,85,96);

$ExhaustionIndex = array(100,525,300,980,310,900,
                         410,296,120,501,920,810,
                         506,493,892,527,600,855,
                         709,791,718,684,141,400,970);

$slr = new SimpleLinearRegression($Concentration, $ExhaustionIndex);
$YInt      = sprintf($slr->format, $slr->YInt);
$Slope     = sprintf($slr->format, $slr->Slope);
$SlopeTVal = sprintf($slr->format, $slr->SlopeTVal);
$SlopeProb = sprintf("%01.6f", $slr->SlopeProb);
?>

Equation:
T:
Prob > T:

　　通过 Web 浏览器运行该脚本，产生以下输出：

Equation: Exhaustion = -29.50 + (8.87 * Concentration)
T: 6.03
Prob > T: 0.000005

　　这张表的最后一行指出获取这样大 T值的随机概率非常低。可以得出这样的结论：与仅仅使用消耗值的均值相比，简单线性模型的预测能力更好。

　　知道了某个人的工作场所联系的集中度，就可以用来预测他们可能正在消耗的燃耗程度。这个方程告诉我们：集中度值每增加 1 个单位，社会服务领域中一个人的消耗值就会增加 8 个单位。这进一步证明了：要减少潜在的燃耗，社会服务领域中的个人应当考虑在其工作场所之外结交朋友。

　　这只是粗略地描述了这些结果可能表示的含义。为全面研究这个数据集的含义，您可能想更详细地研究这个数据以确信这是正确的解释。在下一篇文章中我将讨论应当执行其它哪些分析。

　　您学到了什么？

　　其一，要开发意义重大的基于 PHP 的数学包，您不必是一名火箭科学家。坚持标准的面向对象技术，以及明确地采用逆向链接问题解决方法，就可以相对方便地使用 PHP 实现某些较为基本的统计过程。

　　从教学的观点出发，我认为：如果只是因为要求您在较高和较低的抽象层次思考统计测试或例程，那么这个练习是非常有用的。换句话说，补充您的统计测试或过程学习的一个好办法就是将这个过程作为算法实现。

　　要实现统计测试通常需要超出所给定的信息范围并创造性地解决和发现问题。对于发现对某个学科认识的不足而言，它也是一个好办法。

　　不利的一面，您发现 PHP 对于取样分布缺乏内在手段，而这是实现大多数统计测试所必需的。您需要交给 R 来处理以获取这些值，但是我担心您会没时间或没兴趣安装 R。某些常见概率函数的本机 PHP 实现可以解决这个问题。

　　另一个问题是：该类生成许多中间值和汇总值，但是汇总输出实际上没有利用这一点。我提供了一些难处理的输出，但是这既不够充分也没进行很好的组织，以致您无法充分地解释分析结果。实际上，我完全不知道如何可以将输出方法集成到该类中。这需要得到解决。

　　最后，要弄明白数据，不仅仅是察看汇总值就可以了。您还需要明白各个数据点是如何分布的。最好的办法之一是将您的数据绘制成图表。再次声明，我对这方面不太了解，但是如果要用这个类来分析实际数据的话就需要解决这个问题。

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

PHP의 현재 상태 : 웹 개발 동향을 살펴보십시오Apr 13, 2025 am 12:20 AM

PHP는 현대 웹 개발, 특히 컨텐츠 관리 및 전자 상거래 플랫폼에서 중요합니다. 1) PHP는 Laravel 및 Symfony와 같은 풍부한 생태계와 강력한 프레임 워크 지원을 가지고 있습니다. 2) Opcache 및 Nginx를 통해 성능 최적화를 달성 할 수 있습니다. 3) PHP8.0은 성능을 향상시키기 위해 JIT 컴파일러를 소개합니다. 4) 클라우드 네이티브 애플리케이션은 Docker 및 Kubernetes를 통해 배포되어 유연성과 확장 성을 향상시킵니다.

PHP 대 기타 언어 : 비교Apr 13, 2025 am 12:19 AM

PHP는 특히 빠른 개발 및 동적 컨텐츠를 처리하는 데 웹 개발에 적합하지만 데이터 과학 및 엔터프라이즈 수준의 애플리케이션에는 적합하지 않습니다. Python과 비교할 때 PHP는 웹 개발에 더 많은 장점이 있지만 데이터 과학 분야에서는 Python만큼 좋지 않습니다. Java와 비교할 때 PHP는 엔터프라이즈 레벨 애플리케이션에서 더 나빠지지만 웹 개발에서는 더 유연합니다. JavaScript와 비교할 때 PHP는 백엔드 개발에서 더 간결하지만 프론트 엔드 개발에서는 JavaScript만큼 좋지 않습니다.

PHP vs. Python : 핵심 기능 및 기능Apr 13, 2025 am 12:16 AM

PHP와 Python은 각각 고유 한 장점이 있으며 다양한 시나리오에 적합합니다. 1.PHP는 웹 개발에 적합하며 내장 웹 서버 및 풍부한 기능 라이브러리를 제공합니다. 2. Python은 간결한 구문과 강력한 표준 라이브러리가있는 데이터 과학 및 기계 학습에 적합합니다. 선택할 때 프로젝트 요구 사항에 따라 결정해야합니다.

PHP : 웹 개발의 핵심 언어Apr 13, 2025 am 12:08 AM

PHP는 서버 측에서 널리 사용되는 스크립팅 언어이며 특히 웹 개발에 적합합니다. 1.PHP는 HTML을 포함하고 HTTP 요청 및 응답을 처리 할 수 있으며 다양한 데이터베이스를 지원할 수 있습니다. 2.PHP는 강력한 커뮤니티 지원 및 오픈 소스 리소스를 통해 동적 웹 컨텐츠, 프로세스 양식 데이터, 액세스 데이터베이스 등을 생성하는 데 사용됩니다. 3. PHP는 해석 된 언어이며, 실행 프로세스에는 어휘 분석, 문법 분석, 편집 및 실행이 포함됩니다. 4. PHP는 사용자 등록 시스템과 같은 고급 응용 프로그램을 위해 MySQL과 결합 할 수 있습니다. 5. PHP를 디버깅 할 때 error_reporting () 및 var_dump ()와 같은 함수를 사용할 수 있습니다. 6. 캐싱 메커니즘을 사용하여 PHP 코드를 최적화하고 데이터베이스 쿼리를 최적화하며 내장 기능을 사용하십시오. 7

PHP : 많은 웹 사이트의 기초Apr 13, 2025 am 12:07 AM

PHP가 많은 웹 사이트에서 선호되는 기술 스택 인 이유에는 사용 편의성, 강력한 커뮤니티 지원 및 광범위한 사용이 포함됩니다. 1) 배우고 사용하기 쉽고 초보자에게 적합합니다. 2) 거대한 개발자 커뮤니티와 풍부한 자원이 있습니다. 3) WordPress, Drupal 및 기타 플랫폼에서 널리 사용됩니다. 4) 웹 서버와 밀접하게 통합하여 개발 배포를 단순화합니다.

과대 광고 : 오늘 PHP의 역할을 평가합니다Apr 12, 2025 am 12:17 AM

PHP는 현대적인 프로그래밍, 특히 웹 개발 분야에서 강력하고 널리 사용되는 도구로 남아 있습니다. 1) PHP는 사용하기 쉽고 데이터베이스와 완벽하게 통합되며 많은 개발자에게 가장 먼저 선택됩니다. 2) 동적 컨텐츠 생성 및 객체 지향 프로그래밍을 지원하여 웹 사이트를 신속하게 작성하고 유지 관리하는 데 적합합니다. 3) 데이터베이스 쿼리를 캐싱하고 최적화함으로써 PHP의 성능을 향상시킬 수 있으며, 광범위한 커뮤니티와 풍부한 생태계는 오늘날의 기술 스택에 여전히 중요합니다.

PHP의 약한 참고 자료는 무엇이며 언제 유용합니까?Apr 12, 2025 am 12:13 AM

PHP에서는 약한 참조가 약한 회의 클래스를 통해 구현되며 쓰레기 수집가가 물체를 되 찾는 것을 방해하지 않습니다. 약한 참조는 캐싱 시스템 및 이벤트 리스너와 같은 시나리오에 적합합니다. 물체의 생존을 보장 할 수 없으며 쓰레기 수집이 지연 될 수 있음에 주목해야합니다.

PHP의 __invoke 마법 방법을 설명하십시오.Apr 12, 2025 am 12:07 AM

\ _ \ _ 호출 메소드를 사용하면 객체를 함수처럼 호출 할 수 있습니다. 1. 객체를 호출 할 수 있도록 메소드를 호출하는 \ _ \ _ 정의하십시오. 2. $ obj (...) 구문을 사용할 때 PHP는 \ _ \ _ invoke 메소드를 실행합니다. 3. 로깅 및 계산기, 코드 유연성 및 가독성 향상과 같은 시나리오에 적합합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.