|
| 1 | +# 通过知识库工作流构建MaxKB图、音、视多模态知识库 |
| 2 | + |
| 3 | +!!! Abstract "" |
| 4 | + 借助 MaxKB 开源企业级智能体平台的工作流知识库功能,企业可以构建端到端的多模态知识处理流水线,让业务系统自动识别文件类型并调用相应的处理流程。 |
| 5 | + |
| 6 | + 系统从多模态文件中提取结构化信息,根据内容逻辑自动切分知识片段,进一步将文本及对应的图片、音频、视频源文件统一存储,最终实现跨模态的语义相似度检索,使非结构化的知识得以高效整合与复用。 |
| 7 | + |
| 8 | +## 1 方案设计 |
| 9 | +!!! Abstract "" |
| 10 | + 图、音、视多模态工作流知识库的核心是实现用户上传多类型文件(图片/音频/视频)的循环处理、内容提取与知识库导入。 |
| 11 | + |
| 12 | + 整体流程说明如下: |
| 13 | + |
| 14 | + (1)文件上传与初始处理:通过 MaxKB 的文件上传节点,接收用户上传的图片、音频、视频等多类型文件,输入循环节点(适配多文件批量处理场景)。 |
| 15 | + |
| 16 | + (2)文件信息提取与类型识别:通过参数提取组件提取文件的元数据信息,包括 file_id 和 file_name。 |
| 17 | + |
| 18 | + (3)文件类型分流处理:根据意图识别节点的结果,对不同类型文件执行对应的专属处理逻辑,为后续内容提取与知识库导入做好准备。 |
| 19 | + |
| 20 | + (4)文件内容解析:根据文件类型依次执行以下操作: |
| 21 | + |
| 22 | + ① 若为图片文件:调用图片理解组件节点,返回图片的视觉内容与文本信息描述。然后调用自定义工具节点,获取图片原图资源; |
| 23 | + |
| 24 | + ② 若为音频文件:调用语音转文本组件节点,将音频内容转换为文本。然后调用自定义工具节点,获取音频原件资源; |
| 25 | + |
| 26 | + ③ 若为视频文件:调用视频理解组件节点,提取视频的画面与音频融合的文本信息。然后调用自定义工具节点,获取视频原件资源; |
| 27 | + |
| 28 | + ④ 编写 Python 函数,将上述内容提取结果、原件资源信息传入函数,汇总生成符合知识库导入规范的分段文本/数据结构。 |
| 29 | + |
| 30 | + (5)知识库导入:调用MaxKB知识库导入节点,将数据导入知识库,完成文件的最终处理任务。 |
| 31 | + |
| 32 | + |
| 33 | + |
| 34 | +## 2 实现逻辑 |
| 35 | + |
| 36 | +!!! Abstract "" |
| 37 | + MaxKB 图、音、视多模态工作流知识库完整逻辑如图所示: |
| 38 | + |
| 39 | + |
| 40 | + |
| 41 | +### 2.1 图片工作流内部逻辑 |
| 42 | + |
| 43 | +!!! Abstract "" |
| 44 | + 在循环体中,通过函数获得提取图片文件的 data 参数,用图片理解节点理解图片内容,并用函数为该文件生成可直接渲染的图片路径标签。用指定回复节点将二者拼接,通过函数将提取结果与 file_id、name 整合为标准化的结构,在分段节点中按需求分段后写入知识库。 |
| 45 | + |
| 46 | + |
| 47 | + |
| 48 | +!!! Abstract "" |
| 49 | + 原图路径生成及渲染函数: |
| 50 | + |
| 51 | + ``` |
| 52 | + def image(data): |
| 53 | + try: |
| 54 | + # 1. 使用f-string将data变量嵌入到图片路径中,生成完整的Markdown图片语法字符串 |
| 55 | + markdown_img = f'' |
| 56 | + # 2. 返回包含图片字符串的列表 |
| 57 | + return markdown_img |
| 58 | + except Exception as e: |
| 59 | + # 3. 异常处理,返回错误信息 |
| 60 | + return [f"【错误】处理图片URL失败:{str(e)}"] |
| 61 | + ``` |
| 62 | + |
| 63 | +!!! Abstract "" |
| 64 | + 图片理解组件提示词: |
| 65 | + ``` |
| 66 | + 请严格遵循以下步骤,分析并描述提供的图片: |
| 67 | + |
| 68 | + **第一步:全面解析图片视觉信息** |
| 69 | + * **图片内容**:仔细识别并完整、一字不差地提取图片中的所有可见文字。不得进行任何概括、总结或删减,内容格式易读。 |
| 70 | + |
| 71 | + **第二步:基于解析生成总结** |
| 72 | + * **归纳核心主题**:根据提取的文字和视觉元素,用一句话精准概括图片的核心主题。此句话将作为你最终回复的标题。 |
| 73 | + * **说明图片目的**:结合文字与视觉内容,综合分析这张图片旨在传达的主要信息、目的或功能。 |
| 74 | + |
| 75 | + **第三步:格式化输出** |
| 76 | + 请将你的全部回答内容置于**一个Markdown分段**中,格式要求如下: |
| 77 | + * 将第二步中生成的“核心主题”句子,作为该分段的**一级标题**(使用一个 `#`)。 |
| 78 | + * 在标题下方,依次呈现“图片内容”和“图片目的说明”作为正文内容。 |
| 79 | + ``` |
| 80 | + |
| 81 | +!!! Abstract "" |
| 82 | + 生成“文档分段”组件所能接收的格式: |
| 83 | + ``` |
| 84 | + import re |
| 85 | + def all_content(content: str,content_name: str,content_id: str) -> str: |
| 86 | + result = [ |
| 87 | + { |
| 88 | + 'id': content_id, 'name': content_name, 'content': content |
| 89 | + } |
| 90 | + ] |
| 91 | + # 添加返回语句,将构造的列表返回 |
| 92 | + return result |
| 93 | + ``` |
| 94 | + |
| 95 | +### 2.2 音频工作流内部逻辑 |
| 96 | + |
| 97 | +!!! Abstract "" |
| 98 | + 在循环体中,通过函数获取语音文件的 data 参数,用语音转文本节点将语音转为文本,并用函数为该文件生成 Markdown 语法的路径字符串。用指定回复节点将二者进行拼接,通过函数将提取结果与元数据信息 file_id、name整合为标准化结构,在分段节点中按需求分段后写入知识库。 |
| 99 | + |
| 100 | + |
| 101 | + |
| 102 | +!!! Abstract "" |
| 103 | + 语音源文件生成及渲染函数: |
| 104 | + ``` |
| 105 | + def voice(data): |
| 106 | + try: |
| 107 | + # 1. 使用f-string将data变量嵌入到语音路径中,生成HTML的audio标签字符串 |
| 108 | + # controls属性显示播放控件,可根据需要添加autoplay(自动播放,部分浏览器限制)等属性 |
| 109 | + audio_html = f'<audio src="./oss/file/{data}" controls></audio>' |
| 110 | + return audio_html |
| 111 | + except Exception as e: |
| 112 | + # 2. 异常处理,返回错误信息 |
| 113 | + return [f"【错误】处理语音URL失败:{str(e)}"] |
| 114 | + ``` |
| 115 | + |
| 116 | +### 2.3 视频工作流内部逻辑 |
| 117 | + |
| 118 | +!!! Abstract "" |
| 119 | + 在循环体中,通过函数获取视频文件的 data 参数,用视频理解节点理解视频内容,并且用函数为该文件生成 Markdown 语法的路径字符串。用指定回复节点将二者进行拼接,通过函数将提取结果与元数据信息 file_id、name 整合为标准化结构,在分段节点中按需求分段后写入知识库。 |
| 120 | + |
| 121 | + |
| 122 | + |
| 123 | +!!! Abstract "" |
| 124 | + 视频源文件生成及渲染函数: |
| 125 | + ``` |
| 126 | + def video(data): |
| 127 | + try: |
| 128 | + # 1. 使用f-string将data变量嵌入到视频路径中,生成HTML的video标签字符串(支持本地/oss视频文件) |
| 129 | + # controls属性表示显示播放控件,width可以根据需要调整(如100%、600px等) |
| 130 | + video_html = f'<video src="./oss/file/{data}" controls width=500 height=300></video>' |
| 131 | + |
| 132 | + return video_html |
| 133 | + except Exception as e: |
| 134 | + # 2. 异常处理,返回错误信息 |
| 135 | + return [f"【错误】处理视频URL失败:{str(e)}"] |
| 136 | + ``` |
| 137 | + |
| 138 | +## 3 效果展示 |
| 139 | + |
| 140 | +### 3.1 知识库导入效果展示 |
| 141 | + |
| 142 | +!!! Abstract "" |
| 143 | + 在MaxKB图、音、视多模态知识库工作流搭建完成后,以上传图片、音频、视频三种格式文件为例,验证最终实现效果。 |
| 144 | + |
| 145 | + 任务执行完成后,进入 MaxKB 知识库后台进行查看,可以观察到三种类型文件均实现了“内容提取+源文件关联”的完整导入效果。 |
| 146 | + |
| 147 | +!!! Abstract "" |
| 148 | + 图片文件:知识库中清晰呈现图片理解生成的图片内容解读,下方附带图片预览。 |
| 149 | + |
| 150 | + |
| 151 | + |
| 152 | +!!! Abstract "" |
| 153 | + 音频文件:知识库中呈现完整的语音转文本结果,下方附有显示可直接播放的音频控件。 |
| 154 | + |
| 155 | + |
| 156 | + |
| 157 | +!!! Abstract "" |
| 158 | + 视频文件:知识库中包含视频简介和展示固定尺寸的视频播放窗口,支持播放、暂停、进度调节等基础操作。 |
| 159 | + |
| 160 | + |
| 161 | + |
| 162 | +### 3.2 应用问答效果展示 |
| 163 | + |
| 164 | +!!! Abstract "" |
| 165 | + 为进一步验证多模态知识库的实用价值,我们搭建简单的智能问答应用,并关联此多模态知识库,通过自然语言提问测试回答效果。 |
| 166 | + |
| 167 | + |
0 commit comments