首页 >科技周边 >人工智能 >这个大模型，真的治好了我的论文阅读障碍

这个大模型，真的治好了我的论文阅读障碍

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB原创: 2024-08-12 19:04:48836浏览

Im März dieses Jahres veranstaltete NVIDIA-CEO Jensen Huang eine ganz besondere Veranstaltung. Er lud die Autoren des bahnbrechenden Artikels „Attention Is All You Need“ ein, sich im GTC zu treffen, um über die zukünftige Entwicklungsrichtung der generativen KI zu sprechen.

„Alles, was wir heute in unserem Bereich genießen, lässt sich auf diesen Moment zurückführen … Du hast die Welt verändert …“, sagte Huang Renxun am Tatort.

这个大模型，真的治好了我的论文阅读障碍

Für eine wissenschaftlich forschungsorientierte Branche wie KI kann die nächste Chance, die Welt zu verändern, auch in einem bestimmten Papier verborgen sein.

Daher Wir haben in diesem Kreis ein ungewöhnliches Phänomen beobachtet: Einige CEOs mit nicht-technischem Hintergrund haben auch begonnen, lange wach zu bleiben und Papiere zu lesen, in der Hoffnung, die Trial-and-Error-Kosten der Entscheidungsfindung zu reduzieren.

Wenn dies beim CEO der Fall ist, ganz zu schweigen von anderen Praktikern auf diesem Gebiet. Vor einiger Zeit haben OpenAI, Google und Meta große Fortschritte gemacht, und einige Startups bringen auch ständig neue Modelle und Methoden auf den Markt. Ich glaube, viele Praktiker werden das Gefühl haben, dass es zu viele Artikel gibt, die es zu behandeln gilt.

Heutzutage ist es eine gängige Lesemethode, die Arbeit der KI zu überlassen, aber vielen KI-Zusammenfassungen mangelt es an klaren Ebenen und detaillierten Beschreibungen der Neuerungen und Einschränkungen. Wir müssen mehrere Befragungsrunden durchlaufen, um ein vollständiges Verständnis der Arbeit zu erlangen. Darüber hinaus müssen einige wichtige Modellarchitekturdiagramme und experimentelle Ergebnisdiagramme selbst in der Arbeit gefunden werden, und die tatsächliche Zeitersparnis ist sehr begrenzt.

Im neuesten Update von Tencents „Yuanbao“ haben wir Lösungen für diese Probleme gesehen. Ihr neu eingeführter „Deep Reading Mode“ unterstützt das intensive Lesen langer Texte, kann modulare Analysen mit Bildern und Texten ausgeben und eignet sich sehr gut zum Lesen von Aufsätzen.

Um die Wirkung dieser neuen Funktion zu überprüfen, hat diese Website einen tatsächlichen Test aus erster Hand durchgeführt.

„Intensives Lesen“ des Papiers, wo ist das Wesentliche?

Wie ist es, KI zum Lesen von Papieren zu nutzen? Meistens ist es so: Sie werfen ein PDF und es gibt eine Zusammenfassung + eine Reihe von Zusammenfassungen (manchmal bis zu 10) zurück. Diese Informationen sind in der Tat hilfreich, aber manchmal ist es schwierig zu unterscheiden, welche die Highlights sind, was das Papier löst und was nicht, und welche Kernprobleme es wert sind, betrachtet zu werden.

Unsere tatsächlichen Tests haben ergeben, dass „Yuanbao“ diese Probleme löst, indem es eine Reihe modularer und strukturierter Informationen bereitstellt.

Nehmen Sie als Beispiel ein SIGGRAPH-Papier, das wir getestet haben. Wenn Sie das Papier direkt einwerfen, unterscheidet sich die zurückgegebene Zusammenfassung nicht wesentlich von der anderer KIs. Solange Sie jedoch geduldig nach unten scrollen, sehen Sie eine Schaltfläche zum „Detaillierten Lesen des Dokuments“. Dies ist der „Ein-Klick“-Schalter zum intensiven Lesen des Papiers.

这个大模型，真的治好了我的论文阅读障碍

Im Gegensatz zur vorherigen Benutzeroberfläche, auf der die Arbeit zusammengefasst wurde, wird die Intensive-Lese-Seite die Arbeit auf sehr hierarchische Weise zerlegen Der Forschungshintergrund, die Forschungsmethoden, das experimentelle Design, die Ergebnisanalyse und die Gesamtschlussfolgerung sind jeweils organisiert in ein Modul, das dem sehr ähnlich ist. Auf dieser Website wird normalerweise das Layout von Papieren vorgestellt. All dies kann über die Gliederung auf der linken Seite schnell aufgerufen werden.

这个大模型，真的治好了我的论文阅读障碍

Obwohl jedes Modul nicht viele Wörter enthält, sind diese Wörter tatsächlich sehr informativ. Im Forschungshintergrundmodul beschreibt beispielsweise der Absatz „Forschungsschwierigkeiten“ vier Schwierigkeiten in nur drei kurzen Sätzen, und „Verwandte Arbeit“ ist eine stark komprimierte Version der „verwandten Arbeit“ in Kapitel 2. In einem Absatz wird beschrieben Die vier Schwierigkeiten in diesem Bereich werden klar vorgestellt. Daher können wir nach der Lektüre dieses Moduls grundsätzlich verstehen, welches Problem die Arbeit untersucht und mit welchem Forschungsstand wir konfrontiert sind.

Zusätzlich zu diesen herkömmlichen strukturierten Informationen verfügt Yuanbaos Intensive Reading auch über ein auffälliges Design – Es listet die Vor- und Nachteile des Papiers auf, damit Forscher schnell verstehen können, was sie aus diesem Papier lernen können Themen, die es wert sind, weiter untersucht zu werden?

这个大模型，真的治好了我的论文阅读障碍

为什么这个功能如此重要？中国台湾清华大学教授彭明辉在关于论文阅读的一篇文章中曾经写道，论文和课本不同，课本会提供别人整理、组织好的系统性知识，而论文要求读者自己从无组织的知识中检索、筛选、组织知识。其中，分析既有研究优缺点的能力尤其重要，这是批判性思维的关键部分，也是学术研究中自我提升的重要途径。元宝通过快速分析和总结论文的优缺点，可以帮助研究者节省大量筛选和初步理解的时间，使他们能够更快地聚焦于与自己研究直接相关的论文。

不过，如果你觉得前面这些信息太繁琐，你也可以直接跳转到最后的「关键问题与解答」模块。这里会列出几个最关键的问题，让你快速了解到论文的价值，进而判断是否值得花时间去读原文。当然，之前的很多 AI 助手也会在答案末尾呈现一些关键问题，点一下就能得到答案，但如果你是一名初学者或者跨学科背景的读者，你可能不太容易判断哪些问题比较关键。元宝这种直接呈现的方式感觉更加直观。

这个大模型，真的治好了我的论文阅读障碍

原图原数，谁说 AI 读论文不能配图？

在读论文时，很多人都有一个习惯，一边看图，一边看论文描述。这样理解起来更快、更容易。但是，现在市面上大部分 AI 应用返回的都是文字结果，想看图的话需要自己去原文里找。

我们在测试中发现，元宝是为数不多的直接把论文图截出来并放到段落对应位置的 AI。比如，如果在某个模块讲架构，那它会把对应的架构图放上：

这个大模型，真的治好了我的论文阅读障碍

如果在某个模块讲实验结果，那它会把对应的图表放上：

这个大模型，真的治好了我的论文阅读障碍

众所周知，大模型的幻觉问题现在还没有办法完全解决。因此，这种原图原数的呈现其实是一种更加可靠的输出方式，方便读者随时验证模型的答案，在用作参考时更加保险。

此外，我们还发现，如果你有写博客等对外输出的需求，元宝还可以帮你绘制图表，而且你不需要告诉它数据去哪里找，它能自己定位到论文中的相关表格，并将数据提取出来进行绘制。这一功能可以通过精读页面右侧的「提问」按钮来唤起。

这个大模型，真的治好了我的论文阅读障碍

随时随地想读就读，谁说读论文障碍重重？

除了结构化的信息和图文并茂的输出，我们在测试中还发现，元宝其实有一些非常实用的小功能，能让读论文这件事变得更加方便。

首先是划词翻译和搜索，这是「原文」阅读界面的两个实用小功能。划词翻译可以帮助英语不好的读者随时随地扫清语言障碍，划词搜索则更进一步，像是把元宝的搜索功能做成了一个插件，可以随时搜相关信息。而且，元宝给出的解释不只是简短的总结，还有模块化的展开，真是把「结构化」、「有信息量」做到每一个细节里了。

这个大模型，真的治好了我的论文阅读障碍

其次是「离线阅读」。这个功能的实用之处在于：它可以让你在「飞行模式」下回看精读内容及原文，不浪费一点碎片时间。这让航空公司在与高铁的竞争中扳回一局。说不定，研究者们的下一个灵感就是在飞机上回看精读时产生的呢。

这个大模型，真的治好了我的论文阅读障碍

最后一个小功能是「计算器」。前段时间，AI 因为分不清 9.9 和 9.11 哪个大而引发了很多讨论。在元宝中，我们发现它集成了计算器功能，能够确保根据准确的计算结果来生成答案。这种功能在我们阅读实验数据时非常有用。

长文精读的背后：原来有专家指导

根据官方信息，腾讯元宝的这次升级主打「长文精读」，可原生支持最长近 50 万字的输入。我们在测试中用到的论文远远没有达到这个长度，日常所接触的论文大多也达不到。所以用元宝来精读论文，大部分情况下上下文窗口都是够用的。它的模块化、图文并茂输出以及划词搜索、翻译等小功能也让读论文这件事真正变得方便、高效，向着「实用性」又迈近了一步。

这种进化离不开其背后模型 —— 腾讯混元大模型的升级。据悉，为了在专业领域中提升模型的专业性和实用性，腾讯混元团队专门邀请领域专家概括各专业领域的核心技能，并制定了专业问题的回答标准，使得模型能够作为真正的领域专家来提供服务。所以我们用下来就感觉，元宝是知道论文读者需要什么信息以及信息应该如何呈现的。

除了论文，这个新功能还可以用来精读财报、研报等长文本。在这些场景中，它可以从多个维度梳理信息，根据报告内容生成杜邦分析图等专业图表，让不懂这些文件的人也能看懂企业的财务状况等信息。

这个大模型，真的治好了我的论文阅读障碍

不过，就读论文这个场景来说，元宝依然存在一些改进空间，比如在阅读原文界面缺乏完整的原文 - 译文对照，对公式的识别有时不够准确等。我们也希望元宝能在未来的更新中改进这些问题。

但作为一款推出仅两个多月的应用，腾讯元宝的表现已经有点超出预期。它的进化轨迹让我们看到，大模型将如何一步一步变为新的生产力。我们也期待这个 APP 能给我们带来更多惊喜。

以上是这个大模型，真的治好了我的论文阅读障碍的详细内容。更多信息请关注PHP中文网其他相关文章！

架构

声明：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：AI出图更快、更美、更懂你心意，高美感文生图模型修炼了哪些技术秘籍？下一篇：华为云发布医疗健康解决方案，盘古大模型赋能五大医药健康场景

查看更多