操作使用-资料上传
大约 7 分钟knowledgeknowledgeupload
操作说明
本文档详细介绍知识库资料上传的具体操作步骤,包括文件选择、格式支持、分段配置和批量处理等核心功能。资料上传是知识库建设的关键环节,通过合理的文档处理和分段策略可以显著提升后续的检索效果和问答质量。
一、支持的资料类型
- 进入知识库管理页面后,点击上传资料功能。
- 系统支持多种文档格式的上传和处理:
- 文本文档:TXT、MD(Markdown)格式
- 办公文档:DOC、DOCX、PDF格式
- 表格文档:XLS、XLSX格式
- 网页内容:HTML格式
- 每种格式都有相应的解析和处理机制,确保内容准确提取。

二、资料上传页面
1. 进入上传界面
- 在知识库管理页面,点击【上传资料】按钮。
- 系统会跳转到资料上传的专用页面。
- 上传页面采用步骤式引导,包含文件选择、处理配置和确认上传三个阶段。

2. 上传页面功能
- 拖拽上传:支持文件拖拽到指定区域进行上传
- 点击选择:点击上传区域选择本地文件
- 批量上传:支持同时选择多个文件进行批量上传
- 格式验证:自动验证文件格式和大小限制
上传建议
- 建议单个文件大小不超过100MB
- 确保文件内容清晰完整,避免扫描件等低质量文档
- PDF文件建议使用文字版本,避免纯图片PDF
- 批量上传时注意文件命名规范
三、选择资料后的处理
1. 文件选择确认
- 选择文件后,系统会显示已选择的文件列表。
- 可以查看每个文件的基本信息:
- 文件名称和格式
- 文件大小
- 上传状态
- 支持删除已选择的文件或继续添加新文件。

2. 文件预处理
- 系统会对选择的文件进行预处理检查:
- 文件格式验证
- 文件完整性检查
- 内容可读性验证
- 预处理完成后,可以进入下一步配置阶段。
四、分段读取配置
1. 分段策略选择
- 点击【下一步】进入分段配置页面。
- 系统提供多种分段策略:
- 固定长度分段:按指定字符数或token数进行分段
- 智能分段:基于文档结构和语义进行智能分段
- 段落分段:按自然段落进行分段
- 章节分段:按文档章节结构进行分段

2. 分段参数设置
分段长度设置:
- 设置每个分段的最大字符数
- 推荐范围:500-2000字符
- 根据内容特点调整合适的长度
重叠长度设置:
- 设置分段间的重叠字符数
- 重叠有助于保持语义连贯性
- 一般设置为分段长度的10%-20%
其他配置选项:
- 是否保留格式信息
- 是否提取元数据
- 特殊字符处理方式
分段配置注意事项
- 分段长度影响检索的精确度和召回率
- 过短的分段可能导致语义不完整
- 过长的分段可能影响检索准确性
- 重叠设置有助于处理跨段落的语义内容
五、分段处理完毕状态
1. 处理进度监控
- 配置完成后,系统开始自动处理文档分段。
- 处理页面显示实时进度:
- 当前处理的文件名称
- 处理进度百分比
- 已完成的分段数量
- 预计剩余时间

2. 处理结果确认
处理完成后,可以预览分段结果:
- 查看分段的数量和分布
- 检查分段内容的准确性
- 确认分段质量是否符合预期
支持的操作:
- 重新分段:如果结果不满意可以调整参数重新处理
- 手动编辑:对部分分段进行手动调整
- 确认上传:确认分段结果并继续后续流程
六、处理完成后的跳转
1. 自动跳转到知识库页面
- 分段处理完成后,系统会自动跳转回知识库管理页面。
- 在知识库页面可以看到新上传的文档资料。
- 文档会显示在资料列表中,包含基本信息和处理状态。

2. 查看上传结果
文档状态查看:
- 上传成功的文档会显示在列表中
- 可以查看文档的分段数量和状态
- 显示向量化处理的进度
后续操作:
- 可以继续上传更多文档
- 开始向量化处理
- 进行语义搜索测试
后续操作建议
- 上传完成后建议立即进行向量化处理
- 定期检查文档处理状态和质量
- 根据实际使用效果调整分段策略
- 建立文档更新和维护机制
七、批量上传管理
1. 批量文件处理
多文件同时上传:
- 支持一次性选择多个文件
- 系统会按顺序处理每个文件
- 可以查看每个文件的处理进度
批量配置应用:
- 相同的分段配置可以应用到所有文件
- 支持为不同类型文件设置不同配置
- 提高批量处理的效率
2. 上传错误处理
错误文件识别:
- 系统会自动识别上传失败的文件
- 显示具体的错误原因和建议
- 支持重新上传失败的文件
部分成功处理:
- 即使部分文件失败,成功的文件会正常处理
- 可以查看详细的处理报告
- 支持针对失败文件的单独处理
八、高级上传功能
1. 文档预览功能
上传前预览:
- 上传前可以预览文档内容
- 检查文档格式和内容质量
- 确认是否适合作为知识库资料
分段预览:
- 分段处理后可以预览分段效果
- 查看每个分段的内容和长度
- 评估分段质量和合理性
2. 增量上传管理
版本控制:
- 支持同名文件的版本管理
- 可以选择覆盖或创建新版本
- 保留文档的更新历史
差异化处理:
- 识别文档的增量内容
- 只处理新增或修改的部分
- 提高处理效率和资源利用率
九、上传质量优化
1. 文档质量检查
- 内容完整性:确保文档内容完整,无缺失页面或章节
- 格式规范性:使用标准的文档格式,避免特殊编码
- 文本清晰度:确保文字清晰可读,避免模糊或低分辨率内容
- 结构化程度:具有良好结构的文档分段效果更佳
2. 分段策略优化
- 内容特点匹配:根据文档类型选择合适的分段策略
- 业务场景适配:考虑后续检索和问答的使用场景
- 参数调优:根据实际效果持续优化分段参数
- 质量监控:建立分段质量的评估和监控机制
3. 性能优化建议
- 文件大小控制:合理控制单个文件的大小
- 批量数量限制:避免一次性上传过多文件
- 网络稳定性:确保上传过程中网络连接稳定
- 资源监控:关注系统资源使用情况,避免过载
4. 维护管理
- 定期清理:清理不再需要的文档和分段
- 内容更新:及时更新过时或错误的文档内容
- 备份策略:建立重要文档的备份机制
- 访问日志:记录文档的访问和使用情况