Знаете ли вы, что ИИ, по оценкам, увеличит наш ВВП на 13 трлн долларов в 2030 году? [1]
Да, учитывая текущую ситуацию в каждой отрасли, ИИ сейчас вездесущ. Этот неизбежный характер ИИ можно хорошо увидеть, изучив 16 целей в области устойчивого развития (ЦУР), предложенных Организацией Объединенных Наций (ООН) для решения мировых проблем к 2030 году.
Несмотря на задержку в достижении этих целей из-за пандемии, использование искусственного интеллекта (ИИ) может помочь нам достичь их более быстрыми темпами. Из 227 проектов, представленных 40 организациями на конференции ООН, наборы данных и программные инструменты являются наиболее распространенными результатами различных проектов, которые служат основой для любых областей ИИ, чтобы он процветал и процветал.
Давайте теперь углубимся в наборы данных (данные, сформулированные для конкретных задач) и углубимся в область разработки систем с интенсивным использованием программного обеспечения.
В реальном мире данные почти так же редки, как алмаз, который можно найти в чистом виде. Организация или человек могут пойти на крайние меры, чтобы получить эти данные. Он включает в себя как автоматизацию, так и ручную работу по сбору данных. Поскольку каждая модель ИИ ориентирована на решение соответствующих вариантов использования, таких как познание (тип данных, например текст или аудио), восприятие (что мы хотим делать с верхней частью данных) и аспект обучения (тип алгоритма), эти три ключевых аспекта являются основополагающими для постановки вопроса.
Даже после больших усилий вполне вероятно, что данные не самого высокого качества. Тот факт, что 77% ИТ-руководителей не полностью доверяют данным своей организации при принятии решений, согласно исследованию, открывает новые вопросы.
Можем ли мы понять ключевые аспекты извлечения данных для принятия решений на основе ИИ?
Не хватает ли нам прозрачности при создании наборов данных для задач ИИ?
Есть ли у нас какая-либо структура, которая помогает нам документировать наборы данных для улучшения процесса принятия решений?
Демистификация данных:
Поскольку наборы данных являются наиболее важной частью обучения любой модели ИИ, в 2021 году рынок наборов данных для обучения ИИ оценивался в 1 408,5 млн долларов США. Ожидается, что с 2022 по 2030 год среднегодовой темп роста составит 22,2% (см. рисунок ниже). Чтобы ответить на поставленные выше вопросы, мы рассмотрим особенности, преимущества и недостатки развивающейся технологии «Пособие по карточкам данных», которая обеспечивает прозрачность данных, способствует междисциплинарным исследованиям и помогает в принятии решений.
Проблемы возникают, когда большая часть технической документации не затрагивает всех ключевых аспектов принятия обоснованного решения, которое потенциально решается с помощью этой структуры.
Пособие с карточками данных
Набор инструментов, повышающих прозрачность для документирования наборов данных ИИ и принятия решений, был предложен исследователями Google в 2022 году. Для ответственной разработки ИИ заинтересованным сторонам требуется доступ к картам данных, которые представляют собой сводки ключевой информации о различных наборах данных машинного обучения. . Ниже приведен снимок шаблона для создания карт данных.
Более сложные шаблоны см. здесь.
Изучение пьесы приводит к четырем основным темам: «Спросить», «Проверить», «Ответить» и «Проверить», которые обычно требуются для принятия любого решения.
Возможности:
- Расширенная документация и возможность создавать карты оперативных данных с помощью лабораторий.
- Имеет типологию заинтересованных сторон для определения ключевых моментов в наборе данных
- Больше гибкости во временных шкалах после создания набора данных
- Возможность курировать все источники информации о жизненном цикле вашего проекта
- Шаблоны прозрачности для разработки карт данных, которые действительно полезны, значимы и ориентированы на людей.
- Возможность анализа ваших данных с помощью валидаторов на основе форматов
- Параметры прозрачности и эвристика обеспечивают безопасность вашей карты данных.
Преимущества:
- Повышает прозрачность данных и позволяет нам обмениваться картами данных для любого типа данных.
- Многогранный подход дает представление о рабочих процессах документации каждой команды Google, представленных в виде шаблонов, полезных для совместного сбора информации.
- Помогает пересмотреть методы прозрачности и оценки
- Выделяет 15 тем, которые мы регулярно учитываем при принятии решений, обычно не включаемых в описание набора технических данных.
- Высоко интерактивный и адаптируемый для всех
Ограничения:
- Примеры из реального мира могут иметь больше или меньше этих тем при определенных обстоятельствах.
- В полной мере выгоден только крупным проектам, где задействованы большие данные
- Прозрачность - это вопрос вопросов среди безопасных областей исследований, которые делают это возможным только для внутреннего использования (на основе варианта использования и других правил).
В целом, набор карт данных представляет собой прочную основу для сотрудничества и развития исследований прозрачности, которые заложат основу для исследователей для создания этических алгоритмов машинного обучения и наборов данных, полезных для общества. В случае ограничений по срокам и необходимости создания продуктов данных для аналитических вариантов использования используйте канву продуктов данных, описанную в этой статье Сетка данных: как управлять непрерывными изменениями и расширять потоки создания ценности.
Какую проблему он решает в области разработки систем с интенсивным использованием программного обеспечения?
Учебник с карточками данных основан на когнитивной точке зрения аудитории и поможет вам распознать и оценить опыт и выявить возможные места риска и возможности. С использованием кросс-функциональных инновационных методов, таких как тщательная формулировка проблемы, целенаправленная выборка, синтетические данные или добавление ограничений к моделям с использованием этого типа технической документации, можно принять обоснованное решение и преодолеть несоответствие обучающих данных, таких как нехватка данных. , низкое качество и дисбаланс для улучшения неоднородных динамических графиков прослеживаемости.
Использованная литература:
- https://s41721.pcdn.co/wp-content/uploads/2020/12/21-00794_UN-Activities-on-AI-ExecSum.pdf
- https://sites.research.google/datacardsplaybook/
- https://www.datamesh-architecture.com/data-product-canvas
Внешние ссылки: