【QA系统】LLM驱动的QA系统的一种新的文档摘要索引
在这篇博客文章中,我们介绍了一种全新的LlamaIndex数据结构:文档摘要索引。我们描述了与传统的语义搜索相比,它如何有助于提供更好的检索性能,并举例说明。
出身背景
大型语言模型(LLM)的核心用例之一是对自己的数据进行问答。为此,我们将LLM与“检索”模型配对,该模型可以在知识语料库上执行信息检索,并使用LLM对检索到的文本执行响应合成。这个整体框架被称为检索增强生成。
如今,大多数构建LLM支持的QA系统的用户倾向于执行以下某种形式的操作:
- 获取源文档,将每个文档拆分为文本块
- 将文本块存储在矢量数据库中
- 在查询期间,通过嵌入相似性和/或关键字过滤器来检索文本块。
- 执行响应合成
由于各种原因,这种方法提供的检索性能有限。
【ChatGTP】使用ChatGPT探索数据建模:第1部分:ChatGPT手动实验
数据建模主要由人类专家进行,包括拥有专业知识和技能的数据架构师、数据建模者和分析师。然而,人工智能的最新进展,特别是在自然语言处理(NLP)和大型语言模型(LLM)方面,引发了人们对其对该领域潜在影响的讨论。作为一名数据爱好者,这让我思考我能在多大程度上突破这些新的人工智能功能的界限,尤其是使用ChatGPT。我决定进行一系列实验来探索各种可能性。
在我实验的最初阶段,我的重点将是手动执行任务和流程,而不是依赖自动化。通过采用这种实践方法,我的目标是全面了解与主题相关的概念、方法和挑战。此外,它将使我能够收集有价值的见解和反馈,这些见解和反馈可以指导未来关于自动化的决策。通过这项手动工作,我的目标是获得可用于评估集成自动化的实用性和优势的知识和经验。
如果你是数据建模领域的新手,我邀请你阅读我关于数据建模在人工智能时代的重要性的另一篇文章。你可以在以下链接找到:数据建模在AI时代的重要性
入门:
获取ChatGPT登录。
【LLM】利用特定领域知识库中的LLM
通过RAG致富:利用LLM的力量,使用检索增强生成与您的数据对话
问ChatGPT一个关于“马拉松”一词起源的问题,它会准确地告诉你希罗多德是如何描述费迪皮德斯从马拉松到雅典完成的42公里传奇长跑的,然后筋疲力尽。
但我祖母的食谱清单呢?当然,我可以把这些食谱数字化,没问题。但是,如果我想根据冰箱里的食材、我最喜欢的颜色和我一天的心情,就准备哪顿饭提出建议,该怎么办?
让我们看看这是否有可能在不因精疲力竭而崩溃的情况下实现。
LLM,达到你的极限…并超越它们
LLM是一种大型语言模型。OpenAI的GPT-4是一个例子,Meta的LLamA是另一个例子。我们在这里有意识地选择使用一般LLM术语来指代这些模型。请记住:这些模型中的每一个都是在一组庞大的(公开可用的)数据上进行训练的。
到目前为止,已经清楚地表明,这些LLM对通用语言有着有意义的理解,并且他们能够(重新)产生与训练数据中存在的信息相关的信息。这就是为什么像ChatGPT这样的生成工具在回答LLM在培训过程中遇到的主题问题方面表现惊人。
【ChatGTP】驯服魔鬼:使用ChatGPT简化软件开发
纵观历史,魔鬼和恶魔的故事一直是民间传说和神话的主要内容。狡猾的巫师驯服这些强大的生物来执行他们的命令的故事吸引了几代观众。
让我们从一个关于狡猾的魔鬼和聪明的巫师的简短故事开始。
从前,在两座高耸的山脉之间的一个小村庄里,住着一位名叫阿拉里克的聪明的老巫师。在一个决定性的日子里,阿拉里克的任务是制造一种药水,可以治愈肆虐附近土地的可怕瘟疫。然而,关键成分,一种罕见的金色草本植物,只能在闹鬼的森林中找到。
阿拉里克为了拯救他的人民,不顾一切地召唤了一个狡猾的魔鬼泽菲罗斯,并达成了协议。作为Zephyros在危险的森林中航行和取回金色草药的帮助的交换,巫师承诺将魔鬼从一个世纪的奴役中释放出来。凭借魔鬼的指引和无与伦比的敏捷,阿拉里克冒着森林中的重重陷阱和危险,最终获得了难以捉摸的金色草药。
他们一起回到了村庄,阿拉里克在那里成功地酿造了救命药,结束了这场毁灭性的瘟疫。巫师信守诺言,将泽菲罗斯从束缚中释放出来,魔鬼和巫师对彼此的能力和决心都获得了新的尊重。
这个故事的寓意强调了相互尊重和合作的重要性。虽然魔鬼拥有独特的能力,但它需要我们的帮助才能完成任务。通过共同努力,我们可以更有效地实现我们的目标。
【LLM】用LlamaIndex建立和评估QA保证体系
介绍
LlamaIndex(GPT Index)提供了一个将大型语言模型(LLM)与外部数据连接起来的接口。LlamaIndex提供了各种数据结构来索引数据,如列表索引、向量索引、关键字索引和树索引。它提供了高级API和低级API——高级API允许您仅用五行代码构建问题解答(QA)系统,而低级API允许您定制检索和合成的各个方面。
然而,将这些系统投入生产需要仔细评估整个系统的性能,即给定输入的输出质量。检索增强生成的评估可能具有挑战性,因为用户需要针对给定的上下文提出相关问题的数据集。为了克服这些障碍,LlamaIndex提供了问题生成和无标签评估模块。
在本博客中,我们将讨论使用问题生成和评估模块的三步评估过程:
- 从文档生成问题
- 使用LlamaIndex QueryEngine抽象生成问题的答案/源节点,该抽象管理LLM和数据索引之间的交互。
- 评估问题(查询)、答案和源节点是否匹配/内联
【OpenAI】我如何使用OpenAI将公司的文档转化为可搜索数据库
以及如何对您的文档进行同样的处理
在过去的六个月里,我一直在一个初创公司Voxel51工作,该公司是开源计算机视觉工具包FiftyOne的创始人。作为一名机器学习工程师和开发人员,我的工作是倾听我们的开源社区,并为他们带来他们需要的东西——新功能、集成、教程、研讨会,你能想到的。
几周前,我们在FiftyOne中添加了对矢量搜索引擎和文本相似性查询的原生支持,这样用户就可以通过简单的自然语言查询在他们的(通常是海量的,包含数百万或数千万个样本)数据集中找到最相关的图像。
这让我们陷入了一个奇怪的境地:现在,使用开源FiftyOne的人可以通过自然语言查询轻松搜索数据集,但使用我们的文档仍然需要传统的关键字搜索。
我们有很多文档,这些文档有其优点和缺点。作为一名用户,我有时会发现,考虑到文档的数量,准确地找到我想要的内容需要比我想要的更多的时间。
【ChatGPT 】如何使用自定义知识库构建自己的自定义ChatGPT
ChatGPT已经成为大多数人每天用来自动化各种任务的不可或缺的工具。如果你使用过ChatGPT任何一段时间,你都会意识到它可能会提供错误的答案,并且在一些小众主题上限制为零上下文。这就提出了一个问题,即我们如何利用chatGPT来弥合差距,并允许chatGPT拥有更多的自定义数据。
丰富的知识分布在我们日常互动的各种平台上,即通过工作中的融合wiki页面、松弛组、公司知识库、Reddit、Stack Overflow、书籍、时事通讯和同事共享的谷歌文档。掌握所有这些信息来源本身就是一项全职工作。
如果你能有选择地选择你的数据源,并将这些信息轻松地输入到ChatGPT与你的数据的对话中,那不是很好吗?
1.通过Prompt Engineering提供数据
在我们讨论如何扩展ChatGPT之前,让我们看看如何手动扩展ChatGPT以及存在哪些问题。扩展ChatGPT的传统方法是通过即时工程(prompt engineering)。
这很简单,因为ChatGPT是上下文感知的。首先,我们需要通过在实际问题之前附加原始文档内容来与ChatGPT进行交互。
【ChatGPT 】如何使用自己的数据创建私人ChatGPT
了解使用ChatGPT/LLM创建自己的问答引擎所需的体系结构和数据要求。
开发工具
- 阅读更多 关于 开发工具
- 登录 发表评论
【开发工具】11 VS每个Web开发人员都应该拥有的代码扩展
扩展使我们能够修改和增加开发经验,同时提高生产力。