Reranking
Переупорядочивание документов по релевантности запросу через /v1/rerank.
Используйте reranking, чтобы отсортировать документы по релевантности — это базовый строительный блок для поиска, retrieval и подготовки контекста для LLM.
Примеры моделей у провайдеров
- Cohere:
cohere/rerank-v3.5 - vLLM:
vllm/BAAI/bge-reranker-v2-m3 - Bedrock:
bedrock/<rerank-model-or-arn> - Vertex AI:
vertex/<ranking-model>
Базовый запрос
curl --location 'http://localhost:8080/v1/rerank' \
--header 'Content-Type: application/json' \
--data '{
"model": "cohere/rerank-v3.5",
"query": "What is Meridian?",
"documents": [
{"text": "Meridian is an AI gateway that unifies many LLM providers."},
{"text": "Paris is the capital of France."},
{"text": "Meridian exposes an OpenAI-compatible API."}
]
}'Параметры запроса
| Параметр | Тип | Обязательность | Описание |
|---|---|---|---|
model | string | да | Модель в формате provider/model. |
query | string | да | Запрос, относительно которого ранжируются документы. |
documents | array | да | Массив документов с полем text (опционально id, meta). |
top_n | integer | нет | Максимальное число возвращаемых результатов. |
max_tokens_per_doc | integer | нет | Лимит токенов на документ; поддержка зависит от провайдера. |
priority | string | нет | Подсказка приоритета; поддержка зависит от провайдера. |
return_documents | boolean | нет | Возвращать ли исходный текст документа в каждом результате. |
fallbacks | array | нет | Резервные модели в формате provider/model. |
Пример с дополнительными параметрами
curl --location 'http://localhost:8080/v1/rerank' \
--header 'Content-Type: application/json' \
--data '{
"model": "cohere/rerank-v3.5",
"query": "gateway observability",
"top_n": 2,
"return_documents": true,
"documents": [
{"id": "a", "text": "Meridian supports observability plugins like OTEL and Neria.Cloud."},
{"id": "b", "text": "Meridian can run in Kubernetes and ECS."},
{"id": "c", "text": "Token counting is available at /v1/responses/input_tokens."}
]
}'Совместимость с эндпоинтами vLLM
Для модели вида vllm/... Meridian сначала отправляет rerank-запрос на /v1/rerank и при ответах апстрима 404, 405 или 501 автоматически повторяет запрос на /rerank.
Формат ответа
{
"results": [
{
"index": 0,
"relevance_score": 0.98,
"document": {
"id": "a",
"text": "Meridian supports observability plugins like OTEL and Neria.Cloud."
}
},
{
"index": 2,
"relevance_score": 0.63,
"document": {
"id": "c",
"text": "Token counting is available at /v1/responses/input_tokens."
}
}
],
"model": "rerank-v3.5",
"usage": {
"prompt_tokens": 52,
"completion_tokens": 0,
"total_tokens": 52
},
"extra_fields": {
"request_type": "rerank",
"provider": "cohere",
"latency": 245,
"chunk_index": 0
}
}Типичные ошибки валидации
- Пропущен
query→query is required for rerank - Пустой
documents→documents are required for rerank - Пустой
textу документа →document text is required for rerank at index N top_n < 1→top_n must be at least 1
Поддержка мультимодальности
Обработка изображений, аудио и текста с помощью LLM. Meridian поддерживает анализ изображений, генерацию изображений, синтез речи и транскрипцию аудио — поверх различных провайдеров.
Интеграции
Используйте Meridian как drop-in замену существующих SDK провайдеров без правок кода. Изменив только base URL, вы получаете governance, кэширование, фолбэки и наблюдаемость.