Набор данных HA4M: Мульти

Новости

ДомДом / Новости / Набор данных HA4M: Мульти

May 16, 2023

Набор данных HA4M: Мульти

Том научных данных 9, номер статьи: 745 (2022) Ссылаться на эту статью 2558 Доступов 1 Подробности об альтернативных метриках В этом документе представлен мультимодальный мониторинг действий человека в производстве (HA4M).

Научные данные, том 9, Номер статьи: 745 (2022) Цитировать эту статью

2558 Доступов

1 Альтметрика

Подробности о метриках

В этом документе представлен набор данных мультимодального мониторинга действий человека в производстве (HA4M), набор мультимодальных данных, касающихся действий, выполняемых различными субъектами, создающими эпициклическую зубчатую передачу (EGT). В частности, 41 испытуемый выполнил несколько попыток выполнения задания на сборку, состоящего из 12 действий. Данные были собраны в лабораторных условиях с использованием Microsoft® Azure Kinect, который объединяет камеру глубины, камеру RGB и инфракрасные (ИК) излучатели. Насколько известно авторам, набор данных HA4M является первым мультимодальным набором данных для задачи сборки, содержащим шесть типов данных: изображения RGB, карты глубины, ИК-изображения, изображения, выровненные по глубине, облака точек и скелет. данные. Эти данные представляют собой хорошую основу для разработки и тестирования передовых систем распознавания действий в нескольких областях, включая компьютерное зрение и машинное обучение, а также в таких областях применения, как интеллектуальное производство и сотрудничество человека и робота.

Измерение(я)

действия человека в контексте производства

Тип(ы) технологии

Камера Microsoft Azure Kinect

Распознавание действий человека является активной темой исследований в области компьютерного зрения1,2 и машинного обучения3,4, и, как видно из существующей литературы5, за последнее десятилетие была проведена обширная исследовательская работа. Более того, недавнее широкое распространение недорогих систем видеокамер, в том числе камер глубины6, способствовало развитию систем наблюдения в различных областях применения, таких как видеонаблюдение, безопасность и безопасность умного дома, уход за окружающей средой, здравоохранение. - уход и так далее. Однако мало что было сделано в области распознавания действий человека при промышленной сборке7,8,9, а плохая доступность общедоступных наборов данных ограничивает изучение, разработку и сравнение новых методов. В основном это связано со сложными проблемами, такими как сходство действий, сложность действий, манипулирование инструментами и деталями, наличие тонких движений и сложных операций.

Распознавание действий человека в контексте интеллектуального производства имеет большое значение для различных целей: повышения операционной эффективности8; содействовать сотрудничеству человека и робота10; для оказания помощи операторам11; поддержка обучения сотрудников9,12; повысить производительность и безопасность13; или содействовать хорошему психическому здоровью работников14. В этой статье мы представляем набор данных мультимодального мониторинга действий человека в производстве (HA4M), который представляет собой мультимодальный набор данных, полученный камерой RGB-D во время сборки эпициклической зубчатой ​​передачи (EGT) (см. рис. 1). .

Компоненты, участвующие в сборке планетарной зубчатой ​​передачи. CAD-модель компонентов общедоступна по адресу 44.

Набор данных HA4M обеспечивает хорошую основу для разработки, проверки и тестирования методов и методологий распознавания действий при сборке. Литература богата наборами данных RGB-D для распознавания действий человека15,16,17, которые преимущественно собираются в неограниченных условиях в помещении или на открытом воздухе. В основном они связаны с повседневными действиями (такими как ходьба, прыжки, размахивание руками, наклоны и т. д.), медицинскими состояниями (например, головная боль, боль в спине, шатание и т. д.), взаимодействием двух людей (например, объятиями, фотографированием). , указание пальцем, подача предмета и т. д.) или игровые действия (например, удары вперед, подача в теннисе, размахивание мячом в гольфе и т. д.). В таблице 1 представлены некоторые из наиболее известных и часто используемых наборов данных RGB-D по распознаванию действий человека, описывающие их основные особенности.

Насколько известно авторам, в контексте сборки объектов существует мало наборов данных на основе машинного зрения. Исследователи обычно создают свои собственные наборы данных на основе частных видеоданных7,18. В таблице 2 сравнивается предлагаемый набор данных HA4M с существующими наборами данных по распознаванию действий при сборке. Как показано в Таблице 2, предлагаемый HA4M имеет различные основные преимущества: