如何使用拥抱面部评估评估LLM -Analytics Vidhya-人工智能-PHP中文网

首页

科技周边

人工智能

如何使用拥抱面部评估评估LLM -Analytics Vidhya

Jennifer Aniston

Apr 25, 2025 am 09:12 AM

评估大型语言模型（LLM）至关重要。您需要了解它们的表现，并确保它们符合您的标准。拥抱面孔评估图书馆为这项任务提供了一套有用的工具。本指南向您展示了如何使用评估库以实用的代码示例评估LLM。

了解拥抱面孔评估图书馆
入门
- 安装
- 加载评估模块
基本评估示例
- 直接计算精度
- 增量评估（使用add_batch）
- 结合多个指标
- 使用测量
评估特定的NLP任务
- 机器翻译（BLEU）
- 命名实体识别（NER - 使用Seqeval）
- 文本摘要（胭脂）
- 问答（小队）
评估员类的高级评估
- 使用评估套件
- 可视化评估结果
- 保存评估结果
选择正确的度量标准
结论

了解拥抱面孔评估图书馆

拥抱面孔评估图书馆为不同的评估需求提供了工具。这些工具分为三个主要类别：

指标：这些通过将其预测与地面真相标签进行比较来衡量模型的性能。示例包括准确性，F1得分，BLEU和Rouge。
比较：这些有助于比较两个模型，通常是通过检查其预测如何相互对齐或与参考标签进行比较。
测量：这些工具研究了数据集本身的属性，例如计算文本复杂性或标签分布。

您可以使用单个函数访问所有这些评估模块：essuatue.load（）。

入门

安装

首先，您需要安装库。打开您的终端或命令提示符并运行：

 PIP安装评估

PIP安装rouge_score＃文本生成指标所需

PIP安装评估[可视化]＃用于绘制功能

这些命令安装了核心评估库，rouge_score软件包（经常用于摘要中的胭脂公制所需）以及可视化的可视化依赖项，例如雷达图。

加载评估模块

要使用特定的评估工具，请按名称加载。例如，加载精度度量：

进口评估

cercucy_metric = evaluate.load（“准确性”）

打印（“精确度量已加载。”）

输出：

如何使用拥抱面部评估评估LLM -Analytics Vidhya

此代码将导入评估库并加载准确度量对象。您将使用此对象来计算精度得分。

基本评估示例

让我们浏览一些常见的评估场景。

直接计算精度

您可以通过一次提供所有参考（地面真相）和预测来计算度量。

进口评估

＃加载准确度指标

cercucy_metric = evaluate.load（“准确性”）

＃样本地面真相和预测

参考= [0，1，0，1]

预测= [1，0，0，1]

＃计算准确性

结果= ecucty_metric.com pupute（参考=参考，预测=预测）

打印（f“直接计算结果：{结果}”）

＃与extract_match衡量标准的示例

extct_match_metric = evaluate.load（'Ectect_match'）

match_result = extct_match_metric.compute（references = ['Hello world']，预测= ['Hello world']）

no_match_result = extcrip_match_metric.compute（references = ['hello']，prectivions = ['hell']）

打印（f“精确匹配结果（匹配）：{match_result}”）

打印（f“精确匹配结果（否匹配）：{no_match_result}”）

输出：

如何使用拥抱面部评估评估LLM -Analytics Vidhya

解释：

我们定义两个列表：参考文献保存正确的标签，预测保留了模型的输出。
计算方法获取这些列表并计算准确性，并将结果返回为词典。
我们还显示了Exact_Match Metric，该指标检查预测是否与参考值完全匹配。

增量评估（使用add_batch）

对于大型数据集，批处理中的处理预测可以更有效。您可以逐步添加批次，并在最后计算最终分数。

进口评估

＃加载准确度指标

cercucy_metric = evaluate.load（“准确性”）

＃样品批次和预测

references_batch1 = [0，1]

preventions_batch1 = [1，0]

references_batch2 = [0，1]

preventions_batch2 = [0，1]

＃逐步添加批次

efceracy_metric.add_batch（参考= references_batch1，predivitions = prepplionions_batch1）

efceracy_metric.add_batch（参考= references_batch2，预测= prepartive_batch22）

＃计算最终准确性

final_result = efceracy_metric.com pute（）

打印（f“增量计算结果：{final_result}”）

输出：

如何使用拥抱面部评估评估LLM -Analytics Vidhya

解释：

我们分两批模拟处理数据。
add_batch使用每批更新度量标准的内部状态。
在没有参数的情况下调用Compute（）在所有添加批次上计算指标。

结合多个指标

您通常想同时计算几个指标（例如，准确性，F1，精度，召回分类）。 evaluate.combine功能简化了这一点。

进口评估

＃结合多个分类指标

clf_metrics = evaluate.combine（[“准确性”，“ f1”，“ precision”，“召回”]）

＃样本数据

预测= [0，1，0]

参考= [0，1，1]＃注意：最后一个预测不正确

＃一次计算所有指标

结果= clf_metrics.compute（预测=预测，参考=参考）

打印（f“组合度量结果：{结果}”）

输出：

如何使用拥抱面部评估评估LLM -Analytics Vidhya

解释：

estuatue.comBine列出了公制名称列表，并返回一个合并的评估对象。
在此对象上调用计算使用相同的输入数据计算所有指定的指标。

使用测量

测量可用于分析数据集。这是使用Word_length测量的方法：

进口评估

＃加载word_length测量

＃注意：可能需要在第一次运行时下载NLTK数据

尝试：

word_length = evaluate.load（“ word_length”，module_type =“测量”）

data = [“ Hello World”，“这是另一句话”]

结果= word_length.com pupute（data = data）

打印（f“单词长度测量结果：{结果}”）

除例外为E：

打印（F“无法运行Word_length测量，可能缺少NLTK数据：{E}”）

打印（“尝试下载nltk下载...”）

导入NLTK

nltk.download（'punkt'）＃uncomment并在需要时运行

输出：

如何使用拥抱面部评估评估LLM -Analytics Vidhya

解释：

我们加载word_length并指定module_type =“测量”。
计算方法将数据集（此处的字符串列表）作为输入。
它返回有关提供的数据中单词长度的统计信息。（注意：需要NLTK及其“ Punkt”令牌数据）。

评估特定的NLP任务

不同的NLP任务需要特定的指标。拥抱面孔评估包括许多标准标准。

机器翻译（BLEU）

BLEU（双语评估研究）对于翻译质量很常见。它测量了模型翻译（假设）和参考翻译之间的N-Gram重叠。

进口评估

def evaluate_machine_translation（假设，参考）：

“”“计算机器翻译的BLEU得分。”“”

bleu_metric = evaluate.load（“ bleu”）

结果= bleu_metric.com pupute（预测=假设，参考=参考）

＃提取主BLEU分数

bleu_score =结果[“ bleu”]

返回bleu_score

＃示例假设（模型翻译）

假设= [“猫坐在垫子上。”，“狗在花园里玩过。”]

＃示例参考（正确的翻译，每个假设可以有多个）

参考文献= [[“猫坐在垫子上。”]，[“狗在花园里玩过。”]]

bleu_score = evaluate_machine_translation（假设，参考）

打印（f“ bleu得分：{bleu_score：.4f}”）＃格式可读性

输出：

如何使用拥抱面部评估评估LLM -Analytics Vidhya

解释：

该函数加载BLEU度量。
它计算比较预测翻译（假设）与一个或多个正确参考的分数。
较高的BLEU分数（接近1.0）通常表明翻译质量更好，这表明参考翻译的重叠更多。大约0.51的分数表明中等重叠。

命名实体识别（NER - 使用Seqeval）

对于诸如NER之类的序列标记任务，每个实体类型等指标，召回和F1得分等是有用的。 Seqeval度量处理此格式（例如，B-Per，I-Per，O标签）。

要运行以下代码，将需要Seqeval库。可以通过运行以下命令来安装它：

 PIP安装seqeval

代码：

进口评估

＃加载seqeval指标
尝试：

seqeval_metric = evaluate.load（“ seqeval”）

＃示例标签（使用IOB格式）
true_labels = [['o'，'b-per'，'i-per'，'o']，['b-loc'，'i-loc'，'o']]]

predicted_labels = [[['o'，'b-per'，'i-per'，'o']，['b-loc'，'i-loc'，o'']]＃示例：在这里完美预测

结果= seqeval_metric.com pupute（预测= predictions_labels，references = true_labels）

打印（“ seqeval结果（每个实体类型）：”）

＃打印结果很好

对于键，resuts.items（）中的值：

如果是isInstance（value，dict）：

print（f“ {key}：precision = {value ['precision']：。2f}，remepl = {value [recember']：。2f}，f1 = {value [value ['f1']：。2f}，number = {value [value ['number']}”）

别的：

print（f“ {key}：{value：.4f}”）

除了ModulenotFoundError：

打印（“未安装seqeval公制。运行：pip install seqeval”）

输出：

如何使用拥抱面部评估评估LLM -Analytics Vidhya

解释：

我们加载seqeval度量。
它获取列表的列表，其中每个内部列表代表句子的标签。
计算方法返回所标识的每个实体类型（例如人，位置的LOC）和整体分数的详细精度，召回和F1分数。

文本摘要（胭脂）

Rouge（以召回式评估为导向的研究）将生成的摘要与参考摘要进行了比较，重点是重叠的n-gram和最长的共同子序列。

进口评估

DEF Simple_summarizer（文本）：

“”“一个非常基本的摘要 - 只是拿第一句话。”“”

尝试：

句子= text.split（“。”）

返回句子[0] .Strip（）”。如果句子[0] .Strip（）else“”

除了：

返回“”＃处理空或畸形的文本

＃加载胭脂度量

rouge_metric = evaluate.load（“ rouge”）

＃示例文本和参考摘要

文字=“今天是美好的一天。阳光明媚，鸟儿在唱歌。我要在公园里散步。”

参考=“今天的天气很愉快。”

＃使用简单功能生成摘要

预测= simple_summarizer（文本）

打印（f“生成摘要：{预测}”）

打印（f“参考摘要：{参考}”）

＃计算胭脂分数

rouge_results = rouge_metric.compute（预测= [预测]，参考= [参考]）

打印（f“ rouge分数：{rouge_results}”）

输出：

生成的摘要：今天是美好的一天。<br><br>参考摘要：今天天气愉快。<br><br>胭脂分数：{'rouge1'：np.float64（0.40000000000001），'rouge2'：<br> NP.Float64（0.0），'Roogel'：np.float64（0.20000000000000004），'Rogelsum'：<br> NP.Float64（0.20000000000000004）}

解释：

我们加载胭脂度量。
我们为演示定义了简单的总结。
计算计算不同的胭脂分数：
得分接近1.0表示与参考摘要相似。这里的低分反映了我们的simple_summarizer的基本性质。

问答（小队）

该小队指标用于回答基准测试的提取问题。它计算精确匹配（EM）和F1得分。

进口评估

＃加载小队指标

squad_metric = evaluate.load（“ squad”）

＃小队的示例预测和参考格式

预测= [{'prediction_text'：'1976'，'id'：'56e10a3be3433e1400422b22'}]]

参考= [{'答案'：{'wonse_start'：[97]，'text'：['1976']}，'id'：'56e10a3be3433e1400422b22'}]

结果= squad_metric.compute（预测=预测，参考=参考）

打印（f“小队结果：{结果}”）

输出：

如何使用拥抱面部评估评估LLM -Analytics Vidhya

解释：

加载小队指标。
采用特定字典格式的预测和参考，包括预测的文本和基础真理的答案。
extract_match：完全匹配基础真相答案之一的预测百分比。
F1：考虑到令牌级别的部分匹配，F1在所有问题上的平均得分。

评估员类的高级评估

评估者类通过集成模型加载，推理和度量计算来简化该过程。这对于文本分类等标准任务特别有用。

 ＃注意：需要变压器和数据集库
＃PIP安装变形金刚数据集火炬＃或TensorFlow/jax

进口评估

从评估进口评估员

从变形金刚进口管道

从数据集import load_dataset

＃加载预先训练的文本分类管道
＃使用较小的型号进行潜在的更快执行

尝试：

管道=管道（“文本分类”，模型=“ Distilbert-base-base-fineTuned-SST-2-英语”，设备= -1）＃使用CPU

除例外为E：

打印（f“无法加载管道：{e}”）

管道=无

如果管道：

＃加载IMDB数据集的一小部分

尝试：

data = load_dataset（“ imdb”，split =“ test”）。洗牌（种子= 42）.select（range（100））＃速度较小子集

除例外为E：

打印（f“不能加载数据集：{e}”）

数据=无

如果数据：

＃加载准确度指标

cercucy_metric = evaluate.load（“准确性”）

＃为任务创建评估器

task_evaluator =评估器（“文本分类”）

＃正确的IMDB数据集的Label_mapping

label_mapping = {

'负'：0，＃映射为0

“正面”：1＃映射为1

}

＃计算结果

eval_results = task_evaluator.com pute（

model_or_pipeline =管道，

数据=数据，

公制=准确_metric，

input_column =“ text”，＃指定文本列

label_column =“标签”，＃指定标签列

label_mapping = label_mapping＃通过更正的标签映射

）

打印（“ \ nevaluator结果：”）

打印（eval_results）

＃用引导间隔计算置信区间

bootstrap_results = task_evaluator.com upute（

model_or_pipeline =管道，

数据=数据，

公制=准确_metric，

input_column =“ text”，

label_column =“标签”，

label_mapping = label_mapping，＃通过更正的标签映射

策略=“ bootstrap”，

n_resmples = 10＃使用更少的重新采样用于更快的演示

）

print（“ \ nevaluator but boottrapping：”）

打印（bootstrap_results）

输出：

设置用于使用CPU的设备<br><br>评估者结果：<br><br> {'准确性'：0.9，'total_time_in_seconds'：24.27761851799997，<br> 'samples_per_second'：4.119020155368932，'latency_in_seconds'：<br> 0.2427761851799996}<br><br>引导程序的评估器结果：<br><br> {'准确性'：{'profels_interval'：（ np.float64（0.870303044820750653），<br> NP.Float64（0.9335706530476571），“ standard_error”：<br> NP.Float64（0.02412928142780514），'score'：0.9}，'total_time_in_in_seconds'：<br> 23.871316319000016，'samples_per_second'：4.189128017226537，<br> 'latency_in_seconds'：0.23871316319000013}

解释：

我们为文本分类和IMDB数据集的样本加载了变形金刚管道。
我们创建一个专门用于“文本分类”的评估者。
计算方法将馈送数据（文本列）处理到管道，进行预测，使用指定的度量标记将其与真实标签（标签列）进行比较，并应用Label_mapping。
它返回度量评分以及总时间和每秒样本等性能统计数据。
使用策略=“ Bootstrap”执行重新采样以估算度量标准的置信区间和标准误差，从而使得分数的稳定性感。

使用评估套件

评估套件捆绑多次评估，通常针对特定的基准等特定的基准。这允许根据一组标准任务运行模型。

 ＃注意：运行完整的套件可以在计算上进行密集且耗时。

＃本示例展示了这个概念，但可能需要很长时间或需要大量资源。

＃它还安装了多个数据集，可能需要特定的模型配置。

进口评估

尝试：

打印（“ \ nloading胶水评估套件（这可能下载数据集）...”）

＃直接加载胶水任务

＃使用“ MRPC”作为示例任务，但是您可以从上面列出的有效执行中进行选择

task = evaluate.load（“胶”，“ MRPC”）＃指定“ MRPC”，“ SST2”等任务

打印（“已加载任务。”）

＃您现在可以在模型上运行任务（例如：“ Distilbert-Base-uncund”）

＃警告：这可能需要时间进行推理或微调。

＃结果= task.compute（model_or_pipeline =“ distilbert-base-uncasun uncand uncesed”）

＃print（“ \ nevaluation结果（MRPC任务）：”）

＃打印（结果）

打印（“在此示例中跳过对简洁的模型推断。”）

打印（“请参阅拥抱面部文档以进行完整的评估套件。”）

除例外为E：

打印（f“无法加载或运行评估套件：{e}”）

输出：

加载胶水评估套件（这可能下载数据集）...<br><br>加载任务。<br><br>在此示例中跳过对简洁的模型推断。<br><br>请参阅拥抱面部文档以获取完整的评估套件。

解释：

evaluationsuite.load负载一组预定义的评估任务集（在此，仅从胶水基准中的MRPC任务进行演示）。
suite.run（“ model_name”）命令通常会在套件中的每个数据集上执行模型并计算相关的指标。
输出通常是词典列表，每个列表包含套件中一个任务的结果。（注意：运行此操作通常需要特定的环境设置和大量的计算时间）。

可视化评估结果

可视化有助于比较不同指标的多个模型。雷达图对此很有效。

进口评估

导入matplotlib.pyplot作为plt＃确保安装matplotlib

从评估。导入radar_plot

＃跨多个指标的多个模型的示例数据

＃较低的延迟更好，因此我们可以将其倒置或单独考虑。

数据= [

{“准确性”：0.99，“ Precision”：0.80，“ F1”：0.95，“ Latency_inv”：1/33.6}，

{“准确性”：0.98，“ Precision”：0.87，“ F1”：0.91，“ Latency_inv”：1/11.2}，，

{“准确性”：0.98，“精度”：0.78，“ F1”：0.88，“ Latency_inv”：1/87.6}，

{“准确性”：0.88，“精度”：0.78，“ F1”：0.81，“ Latency_inv”：1/101.6}

这是给出的

model_names = [“模型A”，“模型B”，“模型C”，“模型D”]

＃生成雷达图

＃在雷达图上，较高的值通常更好

尝试：

＃生成雷达图（确保您通过正确的格式并且数据有效）

plot = radar_plot（data = data，model_names = model_names）

＃显示情节

plt.show（）＃明确显示该图，在某些环境中可能是必要的

＃要将绘图保存到文件（要使用的删节）

＃plot.savefig（“ model_comparison_radar.png”）

plt.close（）＃显示/保存后关闭绘图窗口

除了Infrorror：

打印（“可视化需要matplotlib。运行：PIP安装matplotlib”）

除例外为E：

print（f“无法生成图：{e}”）

输出：

如何使用拥抱面部评估评估LLM -Analytics Vidhya

解释：

我们为跨精度，精度，F1和倒潜伏期的四个模型准备了样本结果（因此更好）。
radar_plot创建一个图，每个轴代表度量标准，显示模型在视觉上的比较。

保存评估结果

您可以将评估结果保存到通常以JSON格式的文件中，以进行记录保存或以后的分析。

进口评估

从pathlib导入路径

＃进行评估

cercucy_metric = evaluate.load（“准确性”）

结果= ecuctacy_metric.com pupute（参考= [0，1，0，1]，预测= [1，0，0，1]）

打印（f“结果要保存：{result}”）

＃定义超参数或其他元数据

hyperparams = {“ model_name”：“ my_custom_model”，“ Learning_rate”：0.001}

run_details = {“ perveriment_id”：“ run_42”}

＃结合结果和元数据

save_data = {**结果，** hyperparams，** run_details}

＃定义保存目录和文件名

save_dir =路径（“ ./ evaluituon_results”）

save_dir.mkdir（equent_ok = true）＃创建目录（如果不存在）

＃使用estaution.save存储结果

尝试：

saved_path = evaluate.save（save_directory = save_dir，** save_data）

打印（f“结果保存到：{saved_path}”）

＃您也可以手动保存为JSON

进口JSON

Manual_save_path = save_dir /“ manual_results.json”

用开放（Manual_save_path，'w'）作为f：

json.dump（save_data，f，indent = 4）

打印（F“手动保存到：{Manual_save_path}”）

除例外为E：

＃如果在存储库外运行，请捕获潜在的与GIT相关的错误

print（f“ evaluate.save遇到了一个问题（可能与git相关）：{e}”）

打印（“尝试手动JSON保存。”）

进口JSON

Manual_save_path = save_dir /“ Manual_results_fallback.json”

用开放（Manual_save_path，'w'）作为f：

json.dump（save_data，f，indent = 4）

打印（F“手动保存到：{Manual_save_path}”）

输出：

保存的结果：{'准确性'：0.5}<br><br>评估。Save遇到了一个问题（可能与GIT相关）：Save（）缺少1<br> 必需的位置参数：'path_or_file'<br><br>尝试手动JSON保存。<br><br>将结果手动保存到：evaluation_results/manual_results_fallback.json

解释：

我们将计算结果词典与其他元数据（如Hyperparams）相结合。
essuatuate.save试图将此数据保存到指定目录中的JSON文件中。如果在存储库中运行，它可能会尝试添加git提交信息，这可能会导致错误（如原始日志中所示）。
我们包括一个后备，可以手动将字典保存为JSON文件，这通常就足够了。

选择正确的度量标准

选择适当的度量是至关重要的。考虑以下要点：

任务类型：是分类，翻译，摘要，ner，QA吗？将指标标准用于该任务（用于分类的准确性/F1，用于生成的BLEU/ROUGE，seqeval for Ner，QA的小队）。
数据集：一些基准（例如胶水，小队）具有特定相关的指标。排行榜（例如，在带有代码的论文上）通常显示特定数据集的通常指标。
目标：表现的哪个方面最重要？
- 准确性：总体正确性（适合平衡课程）。
- 精度/召回/F1 ：对于不平衡的班级或假阳性/负面成本不同的时候很重要。
- bleu/rouge ：文本生成中的流利性和内容重叠。
- 困惑：语言模型对样本的预测程度（较低，通常用于生成模型）。
公制卡：阅读拥抱面孔卡（文档），以详细说明，限制和适当的用例（例如，BLEU卡，squood卡）。

结论

拥抱面孔评估图书馆提供了一种多功能且用户友好的方式来评估大型语言模型和数据集。它提供标准的指标，数据集测量以及评估仪和评估仪等工具，以简化流程。通过使用这些工具并选择适合您任务的指标，您可以清楚地了解模型的优势和劣势。

有关更多详细信息和高级用法，请咨询官方资源：

拥抱面部评估文档：快速旅行
GitHub存储库：拥抱面/评估
Kaggle Notebook示例：LLM评估框架（此处使用的某些示例的来源）

以上是如何使用拥抱面部评估评估LLM -Analytics Vidhya的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

您必须在无知的面纱后面建立工作场所Apr 29, 2025 am 11:15 AM

在约翰·罗尔斯1971年具有开创性的著作《正义论》中，他提出了一种思想实验，我们应该将其作为当今人工智能设计和使用决策的核心：无知的面纱。这一理念为理解公平提供了一个简单的工具，也为领导者如何利用这种理解来公平地设计和实施人工智能提供了一个蓝图。设想一下，您正在为一个新的社会制定规则。但有一个前提：您事先不知道自己在这个社会中将扮演什么角色。您最终可能富有或贫穷，健康或残疾，属于多数派或边缘少数群体。在这种“无知的面纱”下运作，可以防止规则制定者做出有利于自身的决策。相反，人们会更有动力制定公

决策，决策……实用应用AI的下一步Apr 29, 2025 am 11:14 AM

许多公司专门从事机器人流程自动化（RPA），提供机器人以使重复性任务自动化 - UIPATH，在任何地方自动化，蓝色棱镜等。同时，过程采矿，编排和智能文档处理专业

AI的未来超越了简单的单词预测和对话模拟。 AI代理人正在出现，能够独立行动和任务完成。这种转变已经在诸如Anthropic的Claude之类的工具中很明显。 AI代理：研究

为什么同情在AI驱动的未来中对领导者更重要Apr 29, 2025 am 11:12 AM

快速的技术进步需要对工作未来的前瞻性观点。当AI超越生产力并开始塑造我们的社会结构时，会发生什么？ Topher McDougal即将出版的书Gaia Wakes：

用于产品分类的AI：机器可以总税法吗？Apr 29, 2025 am 11:11 AM

产品分类通常涉及复杂的代码，例如诸如统一系统（HS）等系统的“ HS 8471.30”，对于国际贸易和国内销售至关重要。这些代码确保正确的税收申请，影响每个INV

数据中心的需求会引发气候技术反弹吗？Apr 29, 2025 am 11:10 AM

数据中心能源消耗与气候科技投资的未来本文探讨了人工智能驱动的数据中心能源消耗激增及其对气候变化的影响，并分析了应对这一挑战的创新解决方案和政策建议。能源需求的挑战：大型超大规模数据中心耗电量巨大，堪比数十万个普通北美家庭的总和，而新兴的AI超大规模中心耗电量更是数十倍于此。2024年前八个月，微软、Meta、谷歌和亚马逊在AI数据中心建设和运营方面的投资已达约1250亿美元（摩根大通，2024）（表1）。不断增长的能源需求既是挑战也是机遇。据Canary Media报道，迫在眉睫的电

AI和好莱坞的下一个黄金时代Apr 29, 2025 am 11:09 AM

生成式AI正在彻底改变影视制作。Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等众多新模型，正在以前所未有的速度提升生成视频的质量。这些模型能够轻松制作出复杂的特效和逼真的场景，甚至连短视频剪辑和具有摄像机感知的运动效果也已实现。虽然这些工具的操控性和一致性仍有待提高，但其进步速度令人惊叹。生成式视频正在成为一种独立的媒介形式。一些模型擅长动画制作，另一些则擅长真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否会慢慢成为AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显着退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles