字段分级与嵌入指标
读取逐字段的嵌入相似度指标(六轴)、离群度与最近邻,确认或暂缓分级。这是分级结果的核心接口。
扫描定级后,每个字段都有一组嵌入相似度指标,用来量化"这个字段定到当前级别有多稳"。本页是分级结果的核心读写接口。
嵌入指标(六轴)
text
POST /api/v1/classify/fields/embedding-minibars需认证。一次最多查 500 个字段。
请求体
| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
field_ids | array<UUID> | 是 | 字段 ID 列表,1–500 个 |
响应
顶层:
| 字段 | 类型 | 说明 |
|---|---|---|
items | array | 每个字段一项,见下表 |
baseline_scores | object | 本次列表的基线分数(六轴均值),用于对比 |
field_count | int | 返回的字段数 |
items[] 每一项:
| 字段 | 类型 | 说明 |
|---|---|---|
field_id | UUID | 字段 ID |
scores | object | 归一化六轴指标(0–1),键见下方 |
raw_scores | object | 原始六轴距离 |
category_similarity | float | 与所属分类路径的相似度 |
centroid_similarity | float | 与同组质心的接近度 |
mean_similarity | float | 列表内两两平均相似度 |
outlier_score | float | 离群度,越高越可疑 |
severity | string | 风险等级 low / medium / high |
nearest_field_id | UUID | null | 最近邻字段 ID |
nearest_field_name | string | null | 最近邻字段名 |
reason | string | 该评分的可读解释 |
六轴指标含义
scores / raw_scores 这两个对象的键,对应引擎里的六个度量:
| 键 | 中文 | 含义 |
|---|---|---|
category_anchor | 分类锚定度 | 与目标分类锚点的贴合程度 |
centroid | 群体一致性 | 与同级字段质心的一致性 |
peer_mean | 同类聚集度 | 与同类字段的平均聚集程度 |
nearest | 最近邻接近度 | 与最近邻字段的接近度 |
lower_quartile | 分布下界 | 相似度分布的下四分位 |
farthest | 分布跨度 | 到最远样本的跨度 |
六轴怎么用
六轴不是"准确率",是可解释信号。某字段六轴普遍偏低、outlier_score 偏高 → 它可能被定错级,值得人工复核。控制台的雷达图就是这组指标的可视化。
示例
bash
curl -X POST https://your-dcg-host/api/v1/classify/fields/embedding-minibars \
-H "Authorization: Bearer $TOKEN" \
-H "Content-Type: application/json" \
-d '{"field_ids":["3fa85f64-5717-4562-b3fc-2c963f66afa6"]}'json
{
"items": [
{
"field_id": "3fa85f64-5717-4562-b3fc-2c963f66afa6",
"scores": {
"category_anchor": 0.94,
"centroid": 0.88,
"peer_mean": 0.81,
"nearest": 0.90,
"lower_quartile": 0.72,
"farthest": 0.58
},
"category_similarity": 0.94,
"centroid_similarity": 0.88,
"mean_similarity": 0.81,
"outlier_score": 0.12,
"severity": "low",
"nearest_field_id": "8b1f...",
"nearest_field_name": "id_no",
"reason": "与身份证号锚点高度贴合,群体一致性良好"
}
],
"baseline_scores": {
"category_anchor": 0.86,
"centroid": 0.80,
"peer_mean": 0.75,
"nearest": 0.82,
"lower_quartile": 0.66,
"farthest": 0.61
},
"field_count": 1
}确认分级
text
POST /api/v1/classify/fields/{field_id}/confirm需非 observer 角色。把字段的分级人工确认下来:
| 字段 | 类型 | 说明 |
|---|---|---|
classification_tag_id | int | null | 确认的分类标签 |
classification_chain_path | string | null | 分类链路径 |
lock_level | string | null | 锁定级别 |
返回 status / field_id / review_status。
批量确认
text
POST /api/v1/classify/fields/batch-confirm请求体加一个 field_ids: array<UUID>,把一组字段一次性确认成同一分类。返回 confirmed / skipped / errors。
暂缓
text
POST /api/v1/classify/fields/{field_id}/defer拿不准的字段先搁置:传 reason,返回 review_status: "deferred"。
提示
确认结果会进审计日志,每一次人工裁决都可追溯——这正是"可辩护"分级的一环。