字段分级与嵌入指标

读取逐字段的嵌入相似度指标(六轴)、离群度与最近邻,确认或暂缓分级。这是分级结果的核心接口。

扫描定级后,每个字段都有一组嵌入相似度指标,用来量化"这个字段定到当前级别有多稳"。本页是分级结果的核心读写接口。

嵌入指标(六轴)

text
POST /api/v1/classify/fields/embedding-minibars

需认证。一次最多查 500 个字段。

请求体

字段类型必填说明
field_idsarray<UUID>字段 ID 列表,1–500 个

响应

顶层:

字段类型说明
itemsarray每个字段一项,见下表
baseline_scoresobject本次列表的基线分数(六轴均值),用于对比
field_countint返回的字段数

items[] 每一项:

字段类型说明
field_idUUID字段 ID
scoresobject归一化六轴指标(0–1),键见下方
raw_scoresobject原始六轴距离
category_similarityfloat与所属分类路径的相似度
centroid_similarityfloat与同组质心的接近度
mean_similarityfloat列表内两两平均相似度
outlier_scorefloat离群度,越高越可疑
severitystring风险等级 low / medium / high
nearest_field_idUUID | null最近邻字段 ID
nearest_field_namestring | null最近邻字段名
reasonstring该评分的可读解释

六轴指标含义

scores / raw_scores 这两个对象的键,对应引擎里的六个度量:

中文含义
category_anchor分类锚定度与目标分类锚点的贴合程度
centroid群体一致性与同级字段质心的一致性
peer_mean同类聚集度与同类字段的平均聚集程度
nearest最近邻接近度与最近邻字段的接近度
lower_quartile分布下界相似度分布的下四分位
farthest分布跨度到最远样本的跨度
六轴怎么用

六轴不是"准确率",是可解释信号。某字段六轴普遍偏低、outlier_score 偏高 → 它可能被定错级,值得人工复核。控制台的雷达图就是这组指标的可视化。

示例

bash
curl -X POST https://your-dcg-host/api/v1/classify/fields/embedding-minibars \
  -H "Authorization: Bearer $TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"field_ids":["3fa85f64-5717-4562-b3fc-2c963f66afa6"]}'
json
{
  "items": [
    {
      "field_id": "3fa85f64-5717-4562-b3fc-2c963f66afa6",
      "scores": {
        "category_anchor": 0.94,
        "centroid": 0.88,
        "peer_mean": 0.81,
        "nearest": 0.90,
        "lower_quartile": 0.72,
        "farthest": 0.58
      },
      "category_similarity": 0.94,
      "centroid_similarity": 0.88,
      "mean_similarity": 0.81,
      "outlier_score": 0.12,
      "severity": "low",
      "nearest_field_id": "8b1f...",
      "nearest_field_name": "id_no",
      "reason": "与身份证号锚点高度贴合,群体一致性良好"
    }
  ],
  "baseline_scores": {
    "category_anchor": 0.86,
    "centroid": 0.80,
    "peer_mean": 0.75,
    "nearest": 0.82,
    "lower_quartile": 0.66,
    "farthest": 0.61
  },
  "field_count": 1
}

确认分级

text
POST /api/v1/classify/fields/{field_id}/confirm

需非 observer 角色。把字段的分级人工确认下来:

字段类型说明
classification_tag_idint | null确认的分类标签
classification_chain_pathstring | null分类链路径
lock_levelstring | null锁定级别

返回 status / field_id / review_status

批量确认

text
POST /api/v1/classify/fields/batch-confirm

请求体加一个 field_ids: array<UUID>,把一组字段一次性确认成同一分类。返回 confirmed / skipped / errors

暂缓

text
POST /api/v1/classify/fields/{field_id}/defer

拿不准的字段先搁置:传 reason,返回 review_status: "deferred"

提示

确认结果会进审计日志,每一次人工裁决都可追溯——这正是"可辩护"分级的一环。