知识库

通过将各类知识文档导入 Bot 并训练,可以有效地提升 Bot 的回答能力。

支持从同组织的其他 Bot 复制状态未可用的文档至当前 Bot,成为当前 Bot 的知识文档。该过程不会消耗积分。

知识文档

当前知识文档支持以文档文件、表格文件、网站、文本及 Q&A 的形式导入 Bot 进行训练。

进入【Bot - 知识管理 - 知识文档】页面,【选择文档类型-添加数据集】,即可添加对应类型的知识文档。

添加并训练成功的知识文档,状态将变为“已可用”。

文档文件

若您有现成的文档文件,则您可以将文件导入 Bot 成为知识。支持的格式:pdf、doc、docx、txt、md。

添加文件

点击上传区域,或直接将文件拖拽入上传区域,点击“下一步”。

切片规则

支持对文档内容进行自定义切片,可以选择“按最大 Token 数切片”或“按标识符切片”方式进行切片。

  • 按最大 Token 数切片:定义单个切片最大 Token 数,系统按该 Token 切片。上图按照 600 Token 数进行切片,最右侧会显示对应的 Token 数。

  • 按标识符切片:定义切片标识符,系统按标识符进行切片。若切片超出系统限定最大 Token 长度,则会自动截断。上图根据标识符(======)进行切片,选择标志符后,需要点击“更新预览”才能按照当前选择的规则进行预览。

点击【保存】即可上传文件进行训练。

编辑文件

在知识文档的操作栏内,选择【更多 - 文档编辑】即可对文档内容进行在线编辑。

在线编辑完成后【保存】,即对该文档内容进行再次训练。

表格文件

若您有现成的表格文件,则您可以将文件导入 Bot 成为知识。支持的格式:csv、xls、xlsx。

注意:

1. 系统仅读取文件内的第1张工作表(Sheet)。

2. 请务必保证表格以A1单元格作为起始,否则数据切片结果可能会达不到预期。

点击或拖拽文件到此区域上传,点击“下一步”。

以行为表头进行切片,则会以行为单位进行切片,每个切片内会包含表头信息及行信息。若切片超出系统限定最大Token长度,则会自动截断。默认“行1”为表头,只能选择从“行1”起连续的多行作为表头。点击“更新预览”可以进行切片预览。

点击【提交】即可上传文件进行训练。

网站

若您的知识是以网站的形式存在的,则您可以输入网址,系统会将网页上的信息爬取,并导入训练为 Bot 知识。

请注意,在某些特殊情况下,网页内容无法被爬取,包括但不限于:

  • 需要登录才能访问

  • 有防爬机制

  • ……

因此,我们并不鼓励您将网页作为知识管理的优先选择。

添加网站

有两种方式添加网站信息为知识。

在【整站导入】,您只需要输入一个域名,点击【识别网址】,系统会将该域名下的所有子页面都识别出来。您可以在下方列表中删去您不需要导入 Bot 的网页。

选择切片方式(操作与文档文件方式一致),点击【更新预览-保存】即可导入列表中的所有网页内容,并训练为 Bot 知识。

在【批量导入】,您可以仅导入某些指定链接作为 Bot 知识。提交操作与【整站导入】一致。

编辑网页内容

与【文件】一致。

刷新

在知识文档的操作栏内,点击【更多 - 刷新】即可对该网页类型的知识进行刷新。

该功能是网页类型的文档所独有的。因为网站的内容由可能会发生变化,因此该功能为您再次获取网页最新内容,并训练为 Bot 知识。

文本

添加文本

您可以将知识信息,以文本的形式,直接在线输入。

选择切片方式(操作与文档文件方式一致),点击【更新预览-保存】即可导入文本内容,并训练为 Bot 知识。

编辑文本

与【文档文件】一致。

Q&A

Q&A 是指将知识内容以“一问一答”的形式进行保存和管理。

Q&A 与文件、文本或网站相比,其优势在于,知识数据是结构化的,这意味着管理起来更加清晰,训练成本更低,且在特定的提问场景下,能够返回更加准确的回答内容。而劣势则在于,由于是结构化的数据,因此较为死板,并不灵活。

若您的知识信息内存在着大量的问答类型的内容(如:FAQ),则可以优先考虑使用该类型的知识文档。

添加 Q&A

支持文档导入、模板导入和文档转 Q&A 三种方式,新增的 Q&A 可以添加到原有的文档。

  • 选择【文档导入】,输入多个 Q&A,添加后可以在右侧预览切片。

  • 按照模板格式整理 Q&A 文件,选择【模板导入】上传模板文件,上传成功后可以在右侧预览切片。

  • 选择【文档转 Q&A】上传文档,系统将通过 LLM 能力,将文档内容解析并转化为多个 Q&A,该功能将会消耗积分。

点击【保存】,即可将内容导入至 Bot 进行训练。

编辑 Q&A

与【文件】一致,但编辑的格式保持了“Q”和“A”的结构,与添加时一致。

向量管理

在向量管理中,您可以查看每个知识文档的分片情况,并对指定分片,或整个知识设定向量搜索设定开启或关闭。被关闭的知识或分片,Bot 将不会对该部分的知识进行检索和返回。

在知识文档的操作栏内,选择【更多 - 向量管理】。

在这里,可以对分片和知识进行向量搜索的开启或关闭操作。

向量搜索

【向量搜索】是一个供您检验知识向量搜索效果的模块。您可以通过输入信息,执行向量搜索。系统会为您按向量相似度分值从大到小返回搜索结果分片。

Last updated