二开定制指南

BladeX大约 19 分钟modelcustomization

大模型二次开发定制指南

定制概述

BladeX AI大模型模块采用高度可扩展的架构设计，支持快速集成新的大模型提供商。通过继承AbstractLlmTemplate抽象类并实现特定的抽象方法，开发者可以轻松添加对新模型的支持。本文档提供完整的二次开发指南。

扩展能力

新模型接入：支持任何兼容HTTP API的大模型
参数定制：灵活适配不同模型的参数格式
响应解析：自定义响应数据的解析逻辑
认证机制：支持多种API认证方式
错误处理：定制化的错误处理策略
性能优化：针对特定模型的性能调优

一、开发环境准备

1.1 项目结构

模块目录结构

BladeX AI大模型模块采用分层目录结构，将不同功能模块分别组织，便于开发和维护。

src/main/java/org/springblade/modules/aigc/llm/engine/
├── provider/                          # 模型适配器目录
│   ├── AbstractLlmTemplate.java      # 抽象模板基类
│   ├── LlmTemplate.java              # 接口定义
│   ├── LlmFactory.java               # 工厂类
│   ├── LlmProcessor.java             # 流处理器
│   ├── openai/                       # OpenAI适配器
│   ├── anthropic/                    # Anthropic适配器
│   ├── deepseek/                     # DeepSeek适配器
│   └── custom/                       # 自定义适配器目录
│       └── CustomTemplate.java       # 新模型适配器
├── model/                            # 数据模型
├── config/                           # 配置类
├── constant/                         # 常量定义
└── exception/                        # 异常处理

1.2 依赖配置

必要依赖

自定义模型适配器开发需要以下核心依赖，包括Spring Boot Web、WebFlux、重试机制等。

<dependencies>
    <!-- Spring Boot Web -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-web</artifactId>
    </dependency>
    
    <!-- Spring Boot WebFlux (流式处理) -->
    <dependency>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-webflux</artifactId>
    </dependency>
    
    <!-- Spring Retry -->
    <dependency>
        <groupId>org.springframework.retry</groupId>
        <artifactId>spring-retry</artifactId>
    </dependency>
    
    <!-- Jackson JSON处理 -->
    <dependency>
        <groupId>com.fasterxml.jackson.core</groupId>
        <artifactId>jackson-databind</artifactId>
    </dependency>
    
    <!-- Apache HttpClient -->
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
    </dependency>
</dependencies>

二、自定义模型适配器开发

2.1 创建适配器类

基础模板代码

自定义模型适配器需要继承AbstractLlmTemplate抽象类，并实现所有抽象方法来适配特定的模型API。

package org.springblade.modules.aigc.llm.engine.provider.custom;

import com.fasterxml.jackson.databind.JsonNode;
import lombok.extern.slf4j.Slf4j;
import org.springblade.modules.aigc.llm.engine.config.ModelConfig;
import org.springblade.modules.aigc.llm.engine.exception.LlmException;
import org.springblade.modules.aigc.llm.engine.model.*;
import org.springblade.modules.aigc.llm.engine.provider.AbstractLlmTemplate;

import java.util.Collections;
import java.util.Map;

/**
 * 自定义大模型适配器
 * 
 * @author YourName
 */
@Slf4j
public class CustomTemplate extends AbstractLlmTemplate {

    // 默认API地址
    private static final String DEFAULT_API_URL = "https://api.custom-model.com/v1";

    public CustomTemplate(String model, ModelConfig config) {
        super(model, config);
    }

    @Override
    protected String getDefaultApiUrl() {
        return DEFAULT_API_URL;
    }

    @Override
    protected String getProviderName() {
        return "CustomModel";
    }

    @Override
    protected void addModelSpecificParams(Map<String, Object> requestBody, BladeChatRequest request) {
        // 添加模型特有参数
        // 示例：自定义参数映射
        addIfNotNull(requestBody, "custom_temperature", request.getTemperature());
        addIfNotNull(requestBody, "custom_max_length", request.getMaxTokens());
        
        // 处理扩展参数
        if (request.getExtraParams() != null) {
            // 可以对扩展参数进行特殊处理
            Map<String, Object> extraParams = request.getExtraParams();
            if (extraParams.containsKey("custom_param")) {
                requestBody.put("special_param", extraParams.get("custom_param"));
            }
        }
    }

    @Override
    protected BladeChatResponse buildResponse(JsonNode responseNode) {
        try {
            // 解析自定义模型的响应格式
            return parseCustomResponse(responseNode);
        } catch (Exception e) {
            log.error("解析{}响应失败: ", getProviderName(), e);
            throw LlmException.apiError("解析响应失败: " + e.getMessage());
        }
    }

    @Override
    protected BladeChatResponse buildStreamResponse(String responseLine) {
        try {
            // 解析流式响应
            return parseCustomStreamResponse(responseLine);
        } catch (Exception e) {
            log.error("解析{}流式响应失败: ", getProviderName(), e);
            throw LlmException.apiError("解析流式响应失败: " + e.getMessage());
        }
    }

    // 自定义响应解析方法
    private BladeChatResponse parseCustomResponse(JsonNode responseNode) {
        // 根据自定义模型的响应格式进行解析
        // 这里需要根据实际的API响应格式来实现
        
        String id = responseNode.has("request_id") ? 
            responseNode.get("request_id").asText() : "custom-" + System.currentTimeMillis();
        
        String content = extractContent(responseNode);
        String finishReason = extractFinishReason(responseNode);
        ChatUsage usage = extractUsage(responseNode);
        
        ChatMessage message = ChatMessage.builder()
            .role("assistant")
            .content(content)
            .build();
        
        ChatChoice choice = ChatChoice.builder()
            .index(0)
            .message(message)
            .finishReason(finishReason)
            .build();
        
        return BladeChatResponse.builder()
            .id(id)
            .object("chat.completion")
            .created((int) (System.currentTimeMillis() / 1000))
            .model(getModel())
            .choices(Collections.singletonList(choice))
            .usage(usage)
            .result(ChatResult.builder().done(true).build())
            .build();
    }

    private BladeChatResponse parseCustomStreamResponse(String responseLine) {
        // 解析流式响应的单行数据
        JsonNode responseNode = objectMapper.readTree(responseLine);
        
        String content = extractStreamContent(responseNode);
        String finishReason = extractStreamFinishReason(responseNode);
        
        ChatDelta delta = ChatDelta.builder()
            .role("assistant")
            .content(content)
            .build();
        
        ChatChoice choice = ChatChoice.builder()
            .index(0)
            .delta(delta)
            .finishReason(finishReason)
            .build();
        
        return BladeChatResponse.builder()
            .id("custom-stream-" + System.currentTimeMillis())
            .object("chat.completion.chunk")
            .created((int) (System.currentTimeMillis() / 1000))
            .model(getModel())
            .choices(Collections.singletonList(choice))
            .result(ChatResult.builder().done(finishReason != null).build())
            .build();
    }

    // 辅助方法：提取内容
    private String extractContent(JsonNode responseNode) {
        // 根据实际API响应格式提取内容
        if (responseNode.has("output")) {
            return responseNode.get("output").asText();
        }
        if (responseNode.has("text")) {
            return responseNode.get("text").asText();
        }
        return "";
    }

    // 辅助方法：提取结束原因
    private String extractFinishReason(JsonNode responseNode) {
        if (responseNode.has("finish_reason")) {
            return responseNode.get("finish_reason").asText();
        }
        return "stop";
    }

    // 辅助方法：提取使用统计
    private ChatUsage extractUsage(JsonNode responseNode) {
        if (responseNode.has("usage")) {
            JsonNode usageNode = responseNode.get("usage");
            return ChatUsage.builder()
                .promptTokens(usageNode.has("prompt_tokens") ? usageNode.get("prompt_tokens").asInt() : 0)
                .completionTokens(usageNode.has("completion_tokens") ? usageNode.get("completion_tokens").asInt() : 0)
                .totalTokens(usageNode.has("total_tokens") ? usageNode.get("total_tokens").asInt() : 0)
                .build();
        }
        return ChatUsage.builder().build();
    }

    // 流式内容提取
    private String extractStreamContent(JsonNode responseNode) {
        if (responseNode.has("delta") && responseNode.get("delta").has("content")) {
            return responseNode.get("delta").get("content").asText();
        }
        return "";
    }

    // 流式结束原因提取
    private String extractStreamFinishReason(JsonNode responseNode) {
        if (responseNode.has("finish_reason") && !responseNode.get("finish_reason").isNull()) {
            return responseNode.get("finish_reason").asText();
        }
        return null;
    }
}

2.2 自定义认证机制

认证头定制

自定义认证机制允许适配不同模型提供商的认证方式，包括API Key、Bearer Token等多种认证头格式。

@Override
protected void addCustomHeaders(HttpHeaders headers) {
    // 自定义认证头
    headers.set("X-API-Key", getApiKey());
    headers.set("X-Custom-Auth", "Bearer " + getApiKey());
    
    // 添加其他必要的头信息
    headers.set("User-Agent", "BladeX-AI/1.0");
    headers.set("Accept", "application/json");
    
    // 如果需要特殊的Content-Type
    headers.setContentType(MediaType.APPLICATION_JSON);
}

@Override
protected String getAuthHeaderName() {
    // 返回认证头的名称
    return "X-API-Key";
}

@Override
protected String getAuthHeaderValue() {
    // 返回认证头的值
    return getApiKey();
}

2.3 参数映射定制

高级参数处理

参数映射定制支持将标准参数转换为特定模型的参数格式，包括参数名称映射、数值转换、白名单过滤等功能。

@Override
protected void addModelSpecificParams(Map<String, Object> requestBody, BladeChatRequest request) {
    // 基础参数映射
    addIfNotNull(requestBody, "temperature", request.getTemperature());
    addIfNotNull(requestBody, "max_tokens", request.getMaxTokens());
    addIfNotNull(requestBody, "top_p", request.getTopP());
    
    // 自定义参数映射
    if (request.getFrequencyPenalty() != null) {
        requestBody.put("repetition_penalty", 1.0 + request.getFrequencyPenalty());
    }
    
    // 停止词处理
    if (request.getStop() != null && !request.getStop().isEmpty()) {
        requestBody.put("stop_sequences", request.getStop());
    }
    
    // 工具函数处理（如果支持）
    if (request.getFunctions() != null) {
        requestBody.put("tools", convertFunctions(request.getFunctions()));
    }
    
    // 扩展参数处理
    handleExtraParams(requestBody, request.getExtraParams());
}

private void handleExtraParams(Map<String, Object> requestBody, Map<String, Object> extraParams) {
    if (extraParams == null) return;
    
    // 参数白名单过滤
    Set<String> allowedParams = Set.of(
        "do_sample", "num_beams", "early_stopping",
        "length_penalty", "no_repeat_ngram_size"
    );
    
    extraParams.entrySet().stream()
        .filter(entry -> allowedParams.contains(entry.getKey()))
        .forEach(entry -> requestBody.put(entry.getKey(), entry.getValue()));
}

private List<Map<String, Object>> convertFunctions(List<Map<String, Object>> functions) {
    // 将标准函数格式转换为自定义模型的格式
    return functions.stream()
        .map(this::convertSingleFunction)
        .collect(Collectors.toList());
}

private Map<String, Object> convertSingleFunction(Map<String, Object> function) {
    // 根据自定义模型的工具函数格式进行转换
    Map<String, Object> converted = new HashMap<>();
    converted.put("name", function.get("name"));
    converted.put("description", function.get("description"));
    converted.put("parameters", function.get("parameters"));
    return converted;
}

三、工厂类集成

3.1 注册新模型类型

工厂类修改

在LlmFactory中注册新的模型类型，包括类型常量定义和创建逻辑实现。

// 在LlmFactory.java中添加新的模型类型
public class LlmFactory {
    
    public LlmTemplate createTemplate(String model, ModelConfig config) {
        String modelType = parseModelType(model, config);
        
        return switch (modelType.toLowerCase()) {
            case MODEL_TYPE_OPENAI -> new OpenAITemplate(model, config);
            case MODEL_TYPE_ANTHROPIC -> new AnthropicTemplate(model, config);
            case MODEL_TYPE_DEEPSEEK -> new DeepSeekTemplate(model, config);
            case MODEL_TYPE_OLLAMA -> new OllamaTemplate(model, config);
            case MODEL_TYPE_VOLCENGINE -> new VolcEngineTemplate(model, config);
            case MODEL_TYPE_SILICONFLOW -> new SiliconFlowTemplate(model, config);
            case MODEL_TYPE_CUSTOM -> new CustomTemplate(model, config);  // 新增
            default -> throw LlmException.unsupportedModel(modelType);
        };
    }
    
    private String parseModelType(String modelName, ModelConfig config) {
        if (StringUtil.isNotBlank(config.getModelType())) {
            return config.getModelType();
        }
        
        modelName = modelName.toLowerCase();
        
        // 添加新模型的识别逻辑
        if (modelName.startsWith("custom-") || modelName.contains("custom")) {
            return MODEL_TYPE_CUSTOM;
        }
        
        // 其他现有逻辑...
        
        return MODEL_TYPE_OPENAI; // 默认
    }
}

3.2 常量定义

常量配置

在常量类中定义新模型的类型常量、前缀常量和API端点常量。

// 在LlmConstant.java中添加新的常量
public class LlmConstant {
    
    // 模型类型常量
    public static final String MODEL_TYPE_OPENAI = "openai";
    public static final String MODEL_TYPE_ANTHROPIC = "anthropic";
    public static final String MODEL_TYPE_DEEPSEEK = "deepseek";
    public static final String MODEL_TYPE_OLLAMA = "ollama";
    public static final String MODEL_TYPE_VOLCENGINE = "volcengine";
    public static final String MODEL_TYPE_SILICONFLOW = "siliconflow";
    public static final String MODEL_TYPE_CUSTOM = "custom";  // 新增
    
    // 模型前缀常量
    public static final String PREFIX_GPT = "gpt-";
    public static final String PREFIX_CLAUDE = "claude-";
    public static final String PREFIX_DEEPSEEK = "deepseek-";
    public static final String PREFIX_OLLAMA = "ollama-";
    public static final String PREFIX_CUSTOM = "custom-";  // 新增
    
    // API端点常量
    public static final String ENDPOINT_CHAT = "/chat/completions";
    public static final String ENDPOINT_CUSTOM_CHAT = "/v1/chat";  // 新增
}

四、配置和测试

4.1 配置文件设置

配置示例

生产环境配置文件示例，包括基础配置、超时设置、重试策略和连接池配置。

# application.yml
blade:
  llm:
    custom:
      enabled: true
      base-url: https://api.custom-model.com/v1
      api-key: your-custom-api-key
      timeout: 30000
      retry:
        max-attempts: 3
        initial-interval: 1000
        multiplier: 2.0
        max-interval: 10000

4.2 单元测试

测试用例

单元测试用例包括模型创建测试、聊天功能测试和流式响应测试。

@SpringBootTest
class CustomTemplateTest {
    
    @Autowired
    private LlmFactory llmFactory;
    
    @Test
    void testCustomModelCreation() {
        ModelConfig config = new ModelConfig();
        config.setBaseUrl("https://api.custom-model.com/v1");
        config.setApiKey("test-key");
        config.setModelType("custom");
        
        LlmTemplate template = llmFactory.createTemplate("custom-model", config);
        
        assertThat(template).isInstanceOf(CustomTemplate.class);
        assertThat(template.getModel()).isEqualTo("custom-model");
    }
    
    @Test
    void testCustomModelChat() {
        // 准备测试数据
        BladeChatRequest request = BladeChatRequest.builder()
            .model("custom-model")
            .messages(Arrays.asList(
                ChatMessage.builder()
                    .role("user")
                    .content("Hello, how are you?")
                    .build()
            ))
            .temperature(0.7)
            .maxTokens(100)
            .build();
        
        // 创建模板
        ModelConfig config = createTestConfig();
        CustomTemplate template = new CustomTemplate("custom-model", config);
        
        // 模拟HTTP响应
        mockHttpResponse();
        
        // 执行测试
        BladeChatResponse response = template.chat(request);
        
        // 验证结果
        assertThat(response).isNotNull();
        assertThat(response.getChoices()).hasSize(1);
        assertThat(response.getChoices().get(0).getMessage().getContent()).isNotBlank();
    }
    
    @Test
    void testCustomModelStream() {
        // 流式测试
        BladeChatRequest request = createStreamRequest();
        CustomTemplate template = createCustomTemplate();
        
        Flux<BladeChatResponse> responseFlux = template.chatStream(request);
        
        StepVerifier.create(responseFlux)
            .expectNextMatches(response -> response.getChoices().get(0).getDelta().getContent() != null)
            .expectComplete()
            .verify();
    }
    
    private ModelConfig createTestConfig() {
        ModelConfig config = new ModelConfig();
        config.setBaseUrl("https://api.custom-model.com/v1");
        config.setApiKey("test-key");
        config.setTimeout(30000);
        return config;
    }
    
    private void mockHttpResponse() {
        // 使用WireMock或MockWebServer模拟HTTP响应
        // 这里省略具体实现
    }
}

4.3 集成测试

集成测试示例

集成测试验证端到端的功能，包括配置加载、服务调用和响应处理。

@SpringBootTest
@TestPropertySource(properties = {
    "blade.llm.custom.base-url=https://api.custom-model.com/v1",
    "blade.llm.custom.api-key=test-key"
})
class CustomModelIntegrationTest {
    
    @Autowired
    private ChatService chatService;
    
    @Test
    void testEndToEndChat() {
        // 端到端测试
        BladeChatRequest request = BladeChatRequest.builder()
            .model("custom-model")
            .messages(createTestMessages())
            .build();
        
        BladeChatResponse response = chatService.chat(request);
        
        assertThat(response).isNotNull();
        assertThat(response.getChoices()).isNotEmpty();
    }
    
    private List<ChatMessage> createTestMessages() {
        return Arrays.asList(
            ChatMessage.builder()
                .role("system")
                .content("You are a helpful assistant.")
                .build(),
            ChatMessage.builder()
                .role("user")
                .content("What is the capital of France?")
                .build()
        );
    }
}

五、高级定制功能

5.1 自定义错误处理

错误处理定制

自定义错误处理机制支持不同模型的错误响应格式，提供统一的异常处理和错误分类。

public class CustomTemplate extends AbstractLlmTemplate {
    
    @Override
    protected BladeChatResponse doChatRequest(BladeChatRequest request) {
        try {
            return super.doChatRequest(request);
        } catch (Exception e) {
            return handleCustomError(e, request);
        }
    }
    
    private BladeChatResponse handleCustomError(Exception e, BladeChatRequest request) {
        if (e instanceof HttpClientErrorException) {
            HttpClientErrorException httpError = (HttpClientErrorException) e;
            
            // 解析自定义错误响应
            try {
                JsonNode errorNode = objectMapper.readTree(httpError.getResponseBodyAsString());
                String errorCode = errorNode.has("error_code") ? 
                    errorNode.get("error_code").asText() : "unknown";
                String errorMessage = errorNode.has("error_message") ? 
                    errorNode.get("error_message").asText() : "Unknown error";
                
                // 根据错误类型进行不同处理
                switch (errorCode) {
                    case "rate_limit_exceeded":
                        throw LlmException.rateLimitExceeded(errorMessage);
                    case "invalid_api_key":
                        throw LlmException.authenticationError(errorMessage);
                    case "model_not_found":
                        throw LlmException.unsupportedModel(request.getModel());
                    default:
                        throw LlmException.apiError(errorMessage);
                }
            } catch (Exception parseError) {
                throw LlmException.apiError("API调用失败: " + httpError.getStatusCode());
            }
        }
        
        throw LlmException.apiError("未知错误: " + e.getMessage());
    }
}

5.2 性能监控集成

监控指标

性能监控集成提供请求计时、成功率统计、错误分类等关键指标的监控能力。

@Component
public class CustomModelMetrics {
    
    private final MeterRegistry meterRegistry;
    private final Timer requestTimer;
    private final Counter successCounter;
    private final Counter errorCounter;
    
    public CustomModelMetrics(MeterRegistry meterRegistry) {
        this.meterRegistry = meterRegistry;
        this.requestTimer = Timer.builder("custom.model.request.duration")
            .description("Custom model request duration")
            .register(meterRegistry);
        this.successCounter = Counter.builder("custom.model.request.success")
            .description("Custom model successful requests")
            .register(meterRegistry);
        this.errorCounter = Counter.builder("custom.model.request.error")
            .description("Custom model failed requests")
            .register(meterRegistry);
    }
    
    public Timer.Sample startTimer() {
        return Timer.start(meterRegistry);
    }
    
    public void recordSuccess(Timer.Sample sample) {
        sample.stop(requestTimer);
        successCounter.increment();
    }
    
    public void recordError(Timer.Sample sample, String errorType) {
        sample.stop(requestTimer);
        errorCounter.increment(Tags.of("error.type", errorType));
    }
}

// 在CustomTemplate中使用监控
public class CustomTemplate extends AbstractLlmTemplate {
    
    @Autowired
    private CustomModelMetrics metrics;
    
    @Override
    public BladeChatResponse chat(BladeChatRequest request) {
        Timer.Sample sample = metrics.startTimer();
        try {
            BladeChatResponse response = super.chat(request);
            metrics.recordSuccess(sample);
            return response;
        } catch (Exception e) {
            metrics.recordError(sample, e.getClass().getSimpleName());
            throw e;
        }
    }
}

5.3 缓存策略定制

缓存优化

缓存策略定制支持响应缓存、配置缓存等多种缓存机制，提升系统性能。

@Component
public class CustomModelCache {
    
    private final Cache<String, BladeChatResponse> responseCache;
    private final Cache<String, ModelConfig> configCache;
    
    public CustomModelCache() {
        this.responseCache = Caffeine.newBuilder()
            .maximumSize(1000)
            .expireAfterWrite(Duration.ofMinutes(5))
            .build();
        
        this.configCache = Caffeine.newBuilder()
            .maximumSize(100)
            .expireAfterWrite(Duration.ofHours(1))
            .build();
    }
    
    public BladeChatResponse getCachedResponse(String cacheKey) {
        return responseCache.getIfPresent(cacheKey);
    }
    
    public void cacheResponse(String cacheKey, BladeChatResponse response) {
        // 只缓存成功的响应
        if (response != null && response.getChoices() != null && !response.getChoices().isEmpty()) {
            responseCache.put(cacheKey, response);
        }
    }
    
    public String generateCacheKey(BladeChatRequest request) {
        // 生成缓存键，考虑重要参数
        return String.format("%s:%s:%s:%s", 
            request.getModel(),
            request.getMessages().hashCode(),
            request.getTemperature(),
            request.getMaxTokens()
        );
    }
}

六、部署和运维

6.1 配置管理

生产环境配置

生产环境配置管理支持环境变量注入、动态配置更新等企业级特性。

# application-prod.yml
blade:
  llm:
    custom:
      enabled: true
      base-url: ${CUSTOM_MODEL_BASE_URL:https://api.custom-model.com/v1}
      api-key: ${CUSTOM_MODEL_API_KEY}
      timeout: ${CUSTOM_MODEL_TIMEOUT:30000}
      retry:
        max-attempts: ${CUSTOM_MODEL_RETRY_MAX:3}
        initial-interval: ${CUSTOM_MODEL_RETRY_INITIAL:1000}
        multiplier: ${CUSTOM_MODEL_RETRY_MULTIPLIER:2.0}
        max-interval: ${CUSTOM_MODEL_RETRY_MAX_INTERVAL:10000}
      connection-pool:
        max-total: ${CUSTOM_MODEL_POOL_MAX_TOTAL:200}
        max-per-route: ${CUSTOM_MODEL_POOL_MAX_PER_ROUTE:50}
        connection-timeout: ${CUSTOM_MODEL_CONNECTION_TIMEOUT:5000}
        socket-timeout: ${CUSTOM_MODEL_SOCKET_TIMEOUT:30000}

6.2 健康检查

健康检查实现

健康检查组件通过发送测试请求验证模型服务的可用性，支持Spring Boot Actuator集成。

@Component
public class CustomModelHealthIndicator implements HealthIndicator {
    
    private final CustomTemplate customTemplate;
    
    @Override
    public Health health() {
        try {
            // 发送简单的健康检查请求
            BladeChatRequest healthRequest = BladeChatRequest.builder()
                .model("custom-model")
                .messages(Arrays.asList(
                    ChatMessage.builder()
                        .role("user")
                        .content("ping")
                        .build()
                ))
                .maxTokens(1)
                .build();
            
            BladeChatResponse response = customTemplate.chat(healthRequest);
            
            if (response != null && response.getChoices() != null) {
                return Health.up()
                    .withDetail("model", "custom-model")
                    .withDetail("status", "available")
                    .build();
            } else {
                return Health.down()
                    .withDetail("model", "custom-model")
                    .withDetail("status", "unavailable")
                    .withDetail("reason", "empty response")
                    .build();
            }
        } catch (Exception e) {
            return Health.down()
                .withDetail("model", "custom-model")
                .withDetail("status", "error")
                .withDetail("error", e.getMessage())
                .build();
        }
    }
}

6.3 日志配置

日志配置

日志配置支持分级日志记录、文件滚动、日志脱敏等企业级日志管理功能。

<!-- logback-spring.xml -->
<configuration>
    <logger name="org.springblade.modules.aigc.llm.engine.provider.custom" level="INFO"/>
    
    <appender name="CUSTOM_MODEL_FILE" class="ch.qos.logback.core.rolling.RollingFileAppender">
        <file>logs/custom-model.log</file>
        <rollingPolicy class="ch.qos.logback.core.rolling.TimeBasedRollingPolicy">
            <fileNamePattern>logs/custom-model.%d{yyyy-MM-dd}.%i.log</fileNamePattern>
            <maxFileSize>100MB</maxFileSize>
            <maxHistory>30</maxHistory>
        </rollingPolicy>
        <encoder>
            <pattern>%d{yyyy-MM-dd HH:mm:ss.SSS} [%thread] %-5level %logger{36} - %msg%n</pattern>
        </encoder>
    </appender>
    
    <logger name="org.springblade.modules.aigc.llm.engine.provider.custom" level="INFO" additivity="false">
        <appender-ref ref="CUSTOM_MODEL_FILE"/>
    </logger>
</configuration>

通过以上完整的二次开发指南，开发者可以快速集成新的大模型提供商，实现定制化的AI能力扩展。BladeX AI大模型模块的高度可扩展架构确保了新模型的无缝集成和稳定运行。

七、最佳实践

7.1 开发规范

开发建议

遵循以下开发规范，确保大模型适配器的质量和可维护性。

代码规范：

命名规范：使用清晰、有意义的类名和方法名，体现模型提供商特征
注释完整：为API适配逻辑、参数映射和响应解析添加详细注释
异常处理：统一使用LlmException处理API调用异常，提供清晰的错误信息
参数验证：严格验证API请求参数和响应格式的有效性
资源管理：正确管理HTTP连接、线程池等外部资源的生命周期

设计原则：

单一职责：每个适配器专注于特定模型提供商的API适配
开闭原则：通过继承AbstractLlmTemplate扩展功能，避免修改基类
依赖注入：合理使用Spring的依赖注入机制管理组件
配置外置：将API端点、认证信息等配置参数外置化

7.2 性能优化

性能考虑

在开发大模型适配器时，需要重点考虑性能因素，确保API调用的高效性和稳定性。

连接池优化：

// 自定义HTTP客户端配置
@Configuration
public class CustomModelHttpConfig {
    
    @Bean
    @ConditionalOnProperty(name = "blade.llm.custom.enabled", havingValue = "true")
    public RestTemplate customModelRestTemplate() {
        // 连接池配置
        PoolingHttpClientConnectionManager connectionManager = new PoolingHttpClientConnectionManager();
        connectionManager.setMaxTotal(200); // 最大连接数
        connectionManager.setDefaultMaxPerRoute(50); // 每个路由最大连接数
        connectionManager.setValidateAfterInactivity(2000); // 空闲连接验证时间
        
        // 请求配置
        RequestConfig requestConfig = RequestConfig.custom()
            .setConnectionRequestTimeout(5000) // 从连接池获取连接超时
            .setConnectTimeout(5000) // 建立连接超时
            .setSocketTimeout(30000) // 数据传输超时
            .build();
        
        // HTTP客户端配置
        CloseableHttpClient httpClient = HttpClients.custom()
            .setConnectionManager(connectionManager)
            .setDefaultRequestConfig(requestConfig)
            .setRetryHandler(new DefaultHttpRequestRetryHandler(3, true))
            .build();
        
        HttpComponentsClientHttpRequestFactory factory = 
            new HttpComponentsClientHttpRequestFactory(httpClient);
        
        return new RestTemplate(factory);
    }
}

响应流式处理优化：

// 优化的流式响应处理
public class OptimizedCustomTemplate extends AbstractLlmTemplate {
    
    private final WebClient webClient;
    
    public OptimizedCustomTemplate(String model, ModelConfig config) {
        super(model, config);
        this.webClient = WebClient.builder()
            .baseUrl(getApiUrl())
            .defaultHeaders(this::addCustomHeaders)
            .codecs(configurer -> configurer
                .defaultCodecs()
                .maxInMemorySize(10 * 1024 * 1024)) // 10MB缓冲区
            .build();
    }
    
    @Override
    public Flux<BladeChatResponse> chatStream(BladeChatRequest request) {
        Map<String, Object> requestBody = buildRequestBody(request);
        requestBody.put("stream", true);
        
        return webClient.post()
            .uri(ENDPOINT_CHAT)
            .bodyValue(requestBody)
            .retrieve()
            .bodyToFlux(String.class)
            .filter(line -> !line.trim().isEmpty() && line.startsWith("data: "))
            .map(line -> line.substring(6)) // 移除 "data: " 前缀
            .filter(line -> !"[DONE]".equals(line))
            .map(this::buildStreamResponse)
            .onErrorMap(this::handleStreamError)
            .doOnError(error -> log.error("流式处理错误: ", error))
            .timeout(Duration.ofSeconds(getConfig().getTimeout() / 1000))
            .retry(3);
    }
    
    private Throwable handleStreamError(Throwable error) {
        if (error instanceof WebClientResponseException) {
            WebClientResponseException webError = (WebClientResponseException) error;
            return LlmException.apiError("流式请求失败: " + webError.getStatusCode());
        }
        return LlmException.apiError("流式处理异常: " + error.getMessage());
    }
}

缓存策略优化：

// 智能缓存管理
@Component
public class ModelResponseCache {
    
    private final Cache<String, BladeChatResponse> responseCache;
    private final Cache<String, ModelConfig> configCache;
    private final MeterRegistry meterRegistry;
    
    public ModelResponseCache(MeterRegistry meterRegistry) {
        this.meterRegistry = meterRegistry;
        
        this.responseCache = Caffeine.newBuilder()
            .maximumSize(1000)
            .expireAfterWrite(Duration.ofMinutes(10))
            .recordStats()
            .build();
        
        this.configCache = Caffeine.newBuilder()
            .maximumSize(100)
            .expireAfterWrite(Duration.ofHours(1))
            .recordStats()
            .build();
        
        // 注册缓存指标
        registerCacheMetrics();
    }
    
    public BladeChatResponse getCachedResponse(BladeChatRequest request) {
        String cacheKey = generateCacheKey(request);
        BladeChatResponse cached = responseCache.getIfPresent(cacheKey);
        
        if (cached != null) {
            meterRegistry.counter("model.cache.hit").increment();
        } else {
            meterRegistry.counter("model.cache.miss").increment();
        }
        
        return cached;
    }
    
    public void cacheResponse(BladeChatRequest request, BladeChatResponse response) {
        // 只缓存确定性响应（temperature=0）
        if (request.getTemperature() != null && request.getTemperature() == 0.0) {
            String cacheKey = generateCacheKey(request);
            responseCache.put(cacheKey, response);
        }
    }
    
    private String generateCacheKey(BladeChatRequest request) {
        // 生成确定性缓存键
        return DigestUtils.md5Hex(
            request.getModel() + ":" +
            request.getMessages().toString() + ":" +
            request.getTemperature() + ":" +
            request.getMaxTokens()
        );
    }
    
    private void registerCacheMetrics() {
        // 注册缓存统计指标
        Gauge.builder("model.cache.size")
            .register(meterRegistry, responseCache, cache -> cache.estimatedSize());
        
        Gauge.builder("model.cache.hit.rate")
            .register(meterRegistry, responseCache, cache -> cache.stats().hitRate());
    }
}

7.3 安全考虑

安全建议

在大模型适配器开发中，需要充分考虑安全因素，保护API密钥和用户数据安全。

API密钥安全管理：

// 安全的密钥管理
@Component
public class SecureApiKeyManager {
    
    private final AESUtil aesUtil;
    private final Environment environment;
    
    /**
     * 安全地获取API密钥
     */
    public String getApiKey(String modelType) {
        String encryptedKey = environment.getProperty("blade.llm." + modelType + ".api-key");
        
        if (StringUtil.isBlank(encryptedKey)) {
            throw LlmException.configurationError("API密钥未配置: " + modelType);
        }
        
        try {
            // 如果是加密的密钥，进行解密
            if (encryptedKey.startsWith("ENC(")) {
                return aesUtil.decrypt(encryptedKey.substring(4, encryptedKey.length() - 1));
            }
            
            return encryptedKey;
        } catch (Exception e) {
            throw LlmException.configurationError("API密钥解密失败: " + e.getMessage());
        }
    }
    
    /**
     * 验证API密钥格式
     */
    public boolean validateApiKeyFormat(String apiKey, String modelType) {
        if (StringUtil.isBlank(apiKey)) {
            return false;
        }
        
        // 根据不同模型类型验证密钥格式
        return switch (modelType.toLowerCase()) {
            case "openai" -> apiKey.startsWith("sk-") && apiKey.length() > 20;
            case "anthropic" -> apiKey.startsWith("sk-ant-") && apiKey.length() > 30;
            case "custom" -> apiKey.length() >= 16; // 自定义模型的最小密钥长度
            default -> apiKey.length() >= 8;
        };
    }
}

请求响应安全处理：

// 安全的请求响应处理
public class SecureCustomTemplate extends AbstractLlmTemplate {
    
    private final DataSanitizer dataSanitizer;
    private final AuditLogger auditLogger;
    
    @Override
    public BladeChatResponse chat(BladeChatRequest request) {
        try {
            // 1. 请求参数脱敏和验证
            BladeChatRequest sanitizedRequest = sanitizeRequest(request);
            
            // 2. 记录审计日志
            auditLogger.logRequestStart(sanitizedRequest);
            
            // 3. 执行API调用
            BladeChatResponse response = super.chat(sanitizedRequest);
            
            // 4. 响应内容安全检查
            BladeChatResponse sanitizedResponse = sanitizeResponse(response);
            
            // 5. 记录成功日志
            auditLogger.logRequestSuccess(sanitizedRequest, sanitizedResponse);
            
            return sanitizedResponse;
            
        } catch (Exception e) {
            auditLogger.logRequestError(request, e);
            throw e;
        }
    }
    
    private BladeChatRequest sanitizeRequest(BladeChatRequest request) {
        // 验证请求参数
        if (request.getMessages() == null || request.getMessages().isEmpty()) {
            throw LlmException.invalidRequest("消息列表不能为空");
        }
        
        // 检查消息内容长度
        for (ChatMessage message : request.getMessages()) {
            if (message.getContent() != null && message.getContent().length() > 100000) {
                throw LlmException.invalidRequest("单条消息内容过长");
            }
        }
        
        // 脱敏敏感信息
        List<ChatMessage> sanitizedMessages = request.getMessages().stream()
            .map(dataSanitizer::sanitizeMessage)
            .collect(Collectors.toList());
        
        return request.toBuilder()
            .messages(sanitizedMessages)
            .build();
    }
    
    private BladeChatResponse sanitizeResponse(BladeChatResponse response) {
        // 检查响应内容安全性
        if (response.getChoices() != null) {
            List<ChatChoice> sanitizedChoices = response.getChoices().stream()
                .map(choice -> {
                    if (choice.getMessage() != null) {
                        String content = choice.getMessage().getContent();
                        if (dataSanitizer.containsSensitiveContent(content)) {
                            content = dataSanitizer.maskSensitiveContent(content);
                            return choice.toBuilder()
                                .message(choice.getMessage().toBuilder()
                                    .content(content)
                                    .build())
                                .build();
                        }
                    }
                    return choice;
                })
                .collect(Collectors.toList());
            
            return response.toBuilder()
                .choices(sanitizedChoices)
                .build();
        }
        
        return response;
    }
}

数据安全措施：

输入验证：严格验证请求参数、消息长度、模型参数范围
密钥加密：对配置文件中的API密钥进行加密存储
敏感数据脱敏：对日志中的敏感信息进行脱敏处理
审计日志：记录所有API调用的审计信息，便于安全追踪
错误信息过滤：避免在错误响应中泄露系统内部信息

7.4 监控运维

运维建议

建立完善的监控运维体系，确保大模型服务的稳定运行和问题快速定位。

关键监控指标：

@Component
@RequiredArgsConstructor
public class ModelOperationsMetrics {
    
    private final MeterRegistry meterRegistry;
    private final AlertService alertService;
    
    private static final double ERROR_RATE_THRESHOLD = 0.05; // 5%错误率阈值
    private static final long LATENCY_THRESHOLD = 10000; // 10秒延迟阈值
    private static final double COST_THRESHOLD = 100.0; // 成本阈值
    
    /**
     * 记录API调用指标
     */
    public void recordApiCall(String modelType, String model, Duration duration, 
        boolean success, ChatUsage usage) {
        
        // 请求延迟
        Timer.builder("model.api.request.duration")
            .tag("model_type", modelType)
            .tag("model", model)
            .tag("status", success ? "success" : "failure")
            .register(meterRegistry)
            .record(duration);
        
        // 请求计数
        Counter.builder("model.api.request.count")
            .tag("model_type", modelType)
            .tag("model", model)
            .tag("status", success ? "success" : "failure")
            .register(meterRegistry)
            .increment();
        
        // Token使用量
        if (usage != null) {
            Gauge.builder("model.api.tokens.prompt")
                .tag("model", model)
                .register(meterRegistry, () -> usage.getPromptTokens());
            
            Gauge.builder("model.api.tokens.completion")
                .tag("model", model)
                .register(meterRegistry, () -> usage.getCompletionTokens());
            
            // 估算成本
            double estimatedCost = calculateCost(model, usage);
            Counter.builder("model.api.cost.estimated")
                .tag("model", model)
                .register(meterRegistry)
                .increment(estimatedCost);
        }
        
        // 异常检测
        detectAnomalies(modelType, model, duration, success);
    }
    
    /**
     * 异常检测和告警
     */
    private void detectAnomalies(String modelType, String model, Duration duration, boolean success) {
        // 延迟异常检测
        if (duration.toMillis() > LATENCY_THRESHOLD) {
            alertService.sendAlert("模型API延迟异常", 
                String.format("模型 %s 响应时间过长: %dms", model, duration.toMillis()));
        }
        
        // 错误率检测
        double recentErrorRate = calculateRecentErrorRate(model);
        if (recentErrorRate > ERROR_RATE_THRESHOLD) {
            alertService.sendAlert("模型API错误率过高", 
                String.format("模型 %s 错误率: %.2f%%", model, recentErrorRate * 100));
        }
        
        // 成本异常检测
        double hourlyCost = calculateHourlyCost(model);
        if (hourlyCost > COST_THRESHOLD) {
            alertService.sendAlert("模型使用成本过高", 
                String.format("模型 %s 小时成本: $%.2f", model, hourlyCost));
        }
    }
    
    /**
     * 系统健康检查
     */
    @Scheduled(fixedRate = 60000) // 每分钟检查
    public void performHealthCheck() {
        Map<String, ModelHealthStatus> healthStatuses = new HashMap<>();
        
        // 检查各个模型的健康状态
        for (String model : getActiveModels()) {
            ModelHealthStatus status = checkModelHealth(model);
            healthStatuses.put(model, status);
            
            // 更新健康状态指标
            Gauge.builder("model.health.score")
                .tag("model", model)
                .register(meterRegistry, () -> status.getHealthScore());
        }
        
        // 整体健康状态评估
        double overallHealth = calculateOverallHealth(healthStatuses);
        if (overallHealth < 0.8) {
            alertService.sendAlert("模型服务整体健康度低", 
                String.format("整体健康度: %.2f", overallHealth));
        }
    }
    
    private ModelHealthStatus checkModelHealth(String model) {
        try {
            // 发送健康检查请求
            BladeChatRequest healthRequest = createHealthCheckRequest(model);
            long startTime = System.currentTimeMillis();
            
            BladeChatResponse response = sendHealthCheckRequest(healthRequest);
            long endTime = System.currentTimeMillis();
            
            return ModelHealthStatus.builder()
                .model(model)
                .available(true)
                .latency(endTime - startTime)
                .lastCheck(System.currentTimeMillis())
                .healthScore(calculateHealthScore(endTime - startTime, true))
                .build();
                
        } catch (Exception e) {
            return ModelHealthStatus.builder()
                .model(model)
                .available(false)
                .error(e.getMessage())
                .lastCheck(System.currentTimeMillis())
                .healthScore(0.0)
                .build();
        }
    }
    
    private double calculateCost(String model, ChatUsage usage) {
        // 根据不同模型的定价计算成本
        ModelPricing pricing = getModelPricing(model);
        if (pricing == null) return 0.0;
        
        double promptCost = (usage.getPromptTokens() / 1000.0) * pricing.getPromptPricePer1K();
        double completionCost = (usage.getCompletionTokens() / 1000.0) * pricing.getCompletionPricePer1K();
        
        return promptCost + completionCost;
    }
}

运维最佳实践：

容量规划：根据业务需求合理配置并发数和超时时间
熔断降级：在API异常时自动启用备用模型或降级服务
成本控制：监控Token使用量和API调用成本，设置预算告警
故障恢复：支持API调用的重试机制和故障转移
版本管理：支持多版本模型并存和灰度发布

7.5 业务场景适配

场景优化

针对不同的业务场景，提供相应的优化策略和配置建议。

聊天对话场景：

# 聊天对话优化配置
blade:
  llm:
    chat-optimized:
      # 模型配置
      model: "gpt-3.5-turbo"
      temperature: 0.7
      max-tokens: 2000
      
      # 性能配置
      timeout: 15000
      stream: true
      cache-enabled: true
      
      # 重试策略
      retry:
        max-attempts: 2
        initial-interval: 1000
        
      # 安全配置
      content-filter: true
      max-message-length: 4000

文档分析场景：

# 文档分析优化配置
blade:
  llm:
    document-analysis:
      # 模型配置
      model: "gpt-4"
      temperature: 0.1
      max-tokens: 8000
      
      # 性能配置
      timeout: 60000
      batch-processing: true
      
      # 分块处理
      chunk:
        size: 4000
        overlap: 200
        strategy: "semantic"
      
      # 缓存策略
      cache:
        enabled: true
        ttl: 3600
        strategy: "content-hash"

代码生成场景：

# 代码生成优化配置
blade:
  llm:
    code-generation:
      # 模型配置
      model: "gpt-4-turbo"
      temperature: 0.2
      max-tokens: 4000
      
      # 特殊参数
      stop: ["```", "---END---"]
      presence-penalty: 0.1
      frequency-penalty: 0.1
      
      # 质量控制
      validation:
        syntax-check: true
        security-scan: true
        
      # 性能配置
      timeout: 30000
      parallel-enabled: false

实时问答场景：

# 实时问答优化配置
blade:
  llm:
    realtime-qa:
      # 模型配置
      model: "gpt-3.5-turbo"
      temperature: 0.3
      max-tokens: 1000
      
      # 性能优化
      timeout: 5000
      stream: true
      cache:
        enabled: true
        ttl: 300
        
      # 连接池配置
      connection-pool:
        max-total: 100
        max-per-route: 20
        
      # 降级策略
      fallback:
        enabled: true
        model: "text-davinci-002"

扩展建议：

模型选择策略：根据任务复杂度和成本要求选择合适的模型
参数调优指南：针对不同场景提供参数调优建议
性能基准测试：建立不同场景下的性能基准和评估标准
成本优化策略：通过缓存、批处理等方式优化API调用成本
质量评估体系：建立输出质量的评估和监控机制

通过遵循以上最佳实践，开发者可以构建高质量、高性能、安全可靠的大模型适配解决方案，充分发挥BladeX AI大模型模块的强大能力。