知识库
Last updated
Last updated
通过将各类知识文档导入 Bot 并训练,可以有效地提升 Bot 的回答能力。
支持从同组织的其他 Bot 复制状态未可用的文档至当前 Bot,成为当前 Bot 的知识文档。该过程不会消耗积分。
当前知识文档支持以文档文件、表格文件、网站、文本及 Q&A 的形式导入 Bot 进行训练。
进入【Bot - 知识管理 - 知识文档】页面,【选择文档类型-添加数据集】,即可添加对应类型的知识文档。
添加并训练成功的知识文档,状态将变为“已可用”。
若您有现成的文档文件,则您可以将文件导入 Bot 成为知识。支持的格式:pdf、doc、docx、txt、md。
点击上传区域,或直接将文件拖拽入上传区域,点击“下一步”。
支持对文档内容进行自定义切片,可以选择“按最大 Token 数切片”或“按标识符切片”方式进行切片。
按最大 Token 数切片:定义单个切片最大 Token 数,系统按该 Token 切片。上图按照 600 Token 数进行切片,最右侧会显示对应的 Token 数。
按标识符切片:定义切片标识符,系统按标识符进行切片。若切片超出系统限定最大 Token 长度,则会自动截断。上图根据标识符(======)进行切片,选择标志符后,需要点击“更新预览”才能按照当前选择的规则进行预览。
点击【保存】即可上传文件进行训练。
在知识文档的操作栏内,选择【更多 - 文档编辑】即可对文档内容进行在线编辑。
在线编辑完成后【保存】,即对该文档内容进行再次训练。
若您有现成的表格文件,则您可以将文件导入 Bot 成为知识。支持的格式:csv、xls、xlsx。
注意:
1. 系统仅读取文件内的第1张工作表(Sheet)。
2. 请务必保证表格以A1单元格作为起始,否则数据切片结果可能会达不到预期。
点击或拖拽文件到此区域上传,点击“下一步”。
以行为表头进行切片,则会以行为单位进行切片,每个切片内会包含表头信息及行信息。若切片超出系统限定最大Token长度,则会自动截断。默认“行1”为表头,只能选择从“行1”起连续的多行作为表头。点击“更新预览”可以进行切片预览。
点击【提交】即可上传文件进行训练。
若您的知识是以网站的形式存在的,则您可以输入网址,系统会将网页上的信息爬取,并导入训练为 Bot 知识。
请注意,在某些特殊情况下,网页内容无法被爬取,包括但不限于:
需要登录才能访问
有防爬机制
……
因此,我们并不鼓励您将网页作为知识管理的优先选择。
有两种方式添加网站信息为知识。
在【整站导入】,您只需要输入一个域名,点击【识别网址】,系统会将该域名下的所有子页面都识别出来。您可以在下方列表中删去您不需要导入 Bot 的网页。
选择切片方式(操作与文档文件方式一致),点击【更新预览-保存】即可导入列表中的所有网页内容,并训练为 Bot 知识。
在【批量导入】,您可以仅导入某些指定链接作为 Bot 知识。提交操作与【整站导入】一致。
与【文件】一致。
在知识文档的操作栏内,点击【更多 - 刷新】即可对该网页类型的知识进行刷新。
该功能是网页类型的文档所独有的。因为网站的内容由可能会发生变化,因此该功能为您再次获取网页最新内容,并训练为 Bot 知识。
您可以将知识信息,以文本的形式,直接在线输入。
选择切片方式(操作与文档文件方式一致),点击【更新预览-保存】即可导入文本内容,并训练为 Bot 知识。
与【文档文件】一致。
Q&A 是指将知识内容以“一问一答”的形式进行保存和管理。
Q&A 与文件、文本或网站相比,其优势在于,知识数据是结构化的,这意味着管理起来更加清晰,训练成本更低,且在特定的提问场景下,能够返回更加准确的回答内容。而劣势则在于,由于是结构化的数据,因此较为死板,并不灵活。
若您的知识信息内存在着大量的问答类型的内容(如:FAQ),则可以优先考虑使用该类型的知识文档。
支持文档导入、模板导入和文档转 Q&A 三种方式,新增的 Q&A 可以添加到原有的文档。
选择【文档导入】,输入多个 Q&A,添加后可以在右侧预览切片。
按照模板格式整理 Q&A 文件,选择【模板导入】上传模板文件,上传成功后可以在右侧预览切片。
选择【文档转 Q&A】上传文档,系统将通过 LLM 能力,将文档内容解析并转化为多个 Q&A,该功能将会消耗积分。
点击【保存】,即可将内容导入至 Bot 进行训练。
与【文件】一致,但编辑的格式保持了“Q”和“A”的结构,与添加时一致。
在向量管理中,您可以查看每个知识文档的分片情况,并对指定分片,或整个知识设定向量搜索设定开启或关闭。被关闭的知识或分片,Bot 将不会对该部分的知识进行检索和返回。
在知识文档的操作栏内,选择【更多 - 向量管理】。
在这里,可以对分片和知识进行向量搜索的开启或关闭操作。
【向量搜索】是一个供您检验知识向量搜索效果的模块。您可以通过输入信息,执行向量搜索。系统会为您按向量相似度分值从大到小返回搜索结果分片。