如何获取特定边界框的像素坐标
问题描述
我正在尝试从Person类获取边界框的像素坐标(标记为: Mcoco_Label_map.pbtxtitem {
name: "/m/01g317"
id: 1
display_name: "person"
}
目前我正在通过
将边界框和标签放到图像上input_tensor = tf.convert_to_tensor(np.expand_dims(image_np, 0), dtype=tf.float32)
detections, predictions_dict, shapes = detect_fn(input_tensor)
label_id_offset = 1
image_np_with_detections = image_np.copy()
viz_utils.visualize_boxes_and_labels_on_image_array(
image_np_with_detections,
detections['detection_boxes'][0].numpy(),
(detections['detection_classes'][0].numpy() + label_id_offset).astype(int),
detections['detection_scores'][0].numpy(),
category_index,
use_normalized_coordinates=True,
max_boxes_to_draw=3,
min_score_thresh=.30,
agnostic_mode=False)
(所有代码都在While循环中)
但是当我打印出检测时,我得到了这么多归一化的坐标,我不知道如何将这些坐标排序到特殊的框中,例如。人员标签。那么,如何在检测中获取特定边界框的像素坐标?
StackOverflow新手入门,因此非常感谢您的任何提示。
解决方案
sodetection_boxes
应该是归一化坐标中[ymin, xmin, ymax, xmax]
形式的N乘4边界框坐标数组,detection_classes
应该是(`Float?)数字类标签。我假设他们没有太多更改API,因为我从去年年初开始就没有使用过对象检测API。
您应该能够这样做,将其转换为像素坐标,然后只获取一组标签。
detection_boxes = detections['detection_boxes'][0].numpy()
detection_classes = detections['detection_classes'][0].numpy().astype(int) + label_id_offset
detection_scores = detections['detection_scores'][0].numpy()
# Scale to pixel co-ordinates
detection_boxes[:, (0, 2)] *= IMAGE_HEIGHT
detection_boxes[:, (1, 3)] *= IMAGE_WIDTH
# Select person boxes
cond = (detection_classes == PERSON_CLASS_ID) & (detection_scores >= SCORE_THRESH)
person_boxes = detection_boxes[cond, :]
person_boxes = np.round(person_boxes).astype(int)
相关文章