(原标题:LangChain:为你定制一个专属的GPT)
本次重点介绍LangChain搭配自有的知识库让LLM发挥更大功能的流程。
(相关资料图)
在缺少了上下文的情况下,即使是目前公认最顶级的LLM GPT-4也无法回答部分需要特定领域的知识。
而要是想仅用自有知识库来训练出LLMs又是不可能的,这个时候最好的方法就是利用LangChain的模块来改善LLM的使用,通过输入自己的知识库来“定制化”自己的LLM。
Question Answering over specific documents是一个写在LangChain主页的主推功能。翻译过来就是 基于特定文档的问答 。 1.准备自定义数据 准备好需要LLM学习的内容,它可以是一个纯文本文件或者其他类型的文本(不同类型的文本需要不同的文档加载器)。 2.拆分文档 一般来讲,每个文档都是由复杂长短句、多种语法结合写作而成的。在进行输入之前,就必须对这些文字进行解构处理。 对于英文LangChain一般会使用RecursiveCharacterTextSplitter处理。由于中文的复杂性,会使用到jieba等处理工具预处理中文语句。 3.文本嵌入(Embeddings) 处理完文本之后,就可以对文本进行嵌入(Embeddings)了。通过调用OpenAI的Embeddings API将文本向量化。在这步处理之后,文本就已经不再是文字,而是以向量化存储的信息。 再使用一个开源的Embeddings数据库ChromaDB保存Embeddings数据,就可以达到使用数据长期存储和快速调用。 图:将原文本嵌入 4.使用链(Chain)对矢量数据库进行问答在拥有了嵌入数据之后,我们就可以利用LangChain的强大链功能来执行我们的问答。这时就可以通过自然语言对于文档内容进行提问了。
通过LangChain回答问题/完成任务
LangChain可能的应用场景LangChain为所有人提供了一个新的商业化方案。此前有将LLM导入客服软件中应用的方案,但是由于LLM容易出现事实幻觉而无法实施。 同时,将所需内容通过Prompt导入LLM的想法也由于LLM的对话(Context)输入限制而不可能实施。LangChain则通过将数据向量化避免了使用输入限制,从而将所需内容导入LLM进行问答。 当下的人工成本逐渐提升,例如淘宝客服等人工密集型产业的成本逐步提升。当前的智能问答距离可用仍有较远的距离。 通过已经预训练好的LLM是一个快速降本增效的方案。基于每个产品的数据,可以将数据引入LLM中,让LLM接替客服工作,准确、快速的回答客户的定制化问题,同时语气贴合自然口吻,避免了情绪化工作。 基于文档的工作还可以在各类公司培训和智能化文档方面提供作用。很多产品文档随着时间的积累变得越来越复杂,多层跳转也会让人学习起来效率低下且不适。 此时基于LangChain就可以将文档重新梳理,输出为大纲类,在使用的时候可以随时通过问答的形式将内容输出。类似于新员工培训和产品说明书等等场景都可以有所应用。这就极大的拓宽了文字类LLM的使用场景。
基于LangChain的问答 除了直接与人交互的方面外,还可以导入特定领域的知识库,实时更新LLM的内容,让LLM的知识时刻处于最新的状态。依赖于此,LangChain除了可以完成自然语言文档搜索外,还可以基于及时的资源进行快速开发。 导入资源后LangChain开发出的网页 当前LangChain的局限性LangChain是当前众多的AGI实验性工具的基石项目。基于链(Chain)的LLM调用思维势必会贯穿未来LLM的发展生态。
提前关注AI发展动向,关注LangChain的开发进度,会对未来的AI应用落地有极大的帮助。
X 关闭
2月7日,在北京冬奥会短道速滑男子1000米A...
科技日报合肥2月8日电 (记者吴长锋)8日...
在北京冬奥会自由式滑雪女子大跳台决赛中...
2月8日,当看到中国选手谷爱凌以漂亮的高...
科技日报北京2月8日电 (记者张佳星)记...
人民网北京2月9日电 (记者王连香)记者...
科技日报北京2月8日电 (记者张梦然)据...
科技日报讯 (记者马爱平 通讯员赵鹏跃...
2月2日,海军航空兵某旅组织战备巡逻。刘...
“前方道路遭‘敌’破坏,车辆无法通过。...
Copyright © 2015-2022 大西洋产业园区网版权所有 备案号:沪ICP备2020036824号-2 联系邮箱: 562 66 29@qq.com