Наборы данных Shutterstock и контент, созданный искусственным интеллектом ⋆

Часто задаваемые вопросы, касаемые работы Shutterstock.Ai и использования контента в моделях обучения компьютерному зрению.

Наборы данных и использование контента

Что такое компьютерное зрение?

Компьютерное зрение — это научная дисциплина, целью которой является разработка методов, помогающих компьютерам «видеть» и понимать содержимое цифровых изображений, таких как фотографии и видео. Модель — это механизм, управляющий поведением системы компьютерного зрения. Исследователи обучают модели машинного обучения распознавать визуальные объекты, так как это мог бы делать человеческий глаз. Технология компьютерного зрения поддерживает многие функции инструментов визуального поиска Shutterstock.com, включая поиск изображений и предложения аналогичного контента.

Что такое наборы данных?

Наборы данных — это продукт, разработанный для поддержки компаний, создающих модели машинного обучения компьютерному зрению. Наборы данных Shutterstock — это наборы визуального контента, объединенные одной темой, которые могут включать в себя изображения (в том числе фотографии, иллюстрации и векторные изображения), видео и 3D-модели.

Контент, который содержится в наборах данных, включает в себя все метаданные: ключевые слова, описания, геолокацию и категории. Примеры наборов данных включают широкий спектр отраслевых категорий: продукты питания и напитки, транспорт и автономные транспортные средства, животные и дикая природа, одежда и обувь, путешествия, туризм и гостиничный бизнес и т. д.

Использование наборов данных, новыми группами клиентов (исследователи ИИ, ведущие разработчики технологий, производители), может представлять из себя потенциально новый источник дохода для авторов.

Когда были созданы наборы данных?

Микросток Shutterstock.com анонсировал создание своей дочерней компании Shutterstock.Ai, занимающейся технологиями компьютерного зрения в июле 2021 года. В тот же самый временной период были созданы и сами наборы данных.

Включение ранее загруженного авторского контента из библиотеки фотобанка в наборы данных подпадает под условия действующего соглашения между компанией и автором. Однако в ближайшие месяцы, будет добавлена новая функция, которая позволит отказаться от использования контента в моделях обучения технологиям компьютерного зрения и его исключении из любого будущего набора данных.

Каковы варианты использования наборов данных?

Как правило, технологические компании, сотрудничающие с Шаттерстоком, используют наборы данных в следующих ситуациях:

Визуальный поиск: человек может искать изображение в фототеке своего смартфона, вводя ключевое слово, например «кошка» или «закат», чтобы найти все подходящие фотографии.
Автономные транспортные средства: беспилотные автомобили могут безопасно работать только в том случае, если они «знают», что их окружает и как с этим взаимодействовать. Например важно распознавать другие автомобили, людей, дороги, знаки остановки и др.
Модерация контента. Компании, работающие в сегменте социальных сетей, могут использовать алгоритмы компьютерного зрения, чтобы быстро выявлять, просматривать и удалять контент, который носит насильственный или экстремистский характер.
Категоризация продуктов: компании электронной коммерции и розничной торговли могут рекомендовать своим клиентам соответствующие продукты.
Генерация контента ИИ: платформы ИИ могут обучать системы автоматически генерировать новые изображения на основе текстовых подсказок.

Цель состоит в том, чтобы помочь компаниям легко создавать, обучать и автоматизировать модели распознавания объектов, чтобы совершенствовать собственные технологии и удовлетворять пользовательские потребности.

Какой тип контента включен в наборы данных?

В настоящее время, наборы данных Шаттерстока состоят из следующего визуального контента:

Фотографии
Иллюстрации
Векторные иллюстрации
Видео ролики
3Д-модели

Коллекция премиальных фотографий «Offset» и премиальных видео «Select» не включены в наборы данных. Некоторые экземпляры редакционного контента могут быть включены в наборы данных, но при определенных обстоятельствах, которые будут гарантировать, что их использование соответствует всем стандартам редакционной политики. Редакционный контент из коллекции «Premier» исключается из использования.

Какой тип метаданных включен в наборы данных?

В наборы данных включаются только стандартные метаданные, заполняемые авторами при подготовке контента и его отправке на проверку. Конкретный набор метаданных, запрашиваемый клиентами может варьироваться и включать разнообразные вариации. Помимо прочего, клиентам может передаваться и техническая информация об изображении и дополнительные метки, добавленные собственными моделями машинного обучения Шаттерсток.

Обычно авторы предоставляют изображения со следующими метаданными: описание, ключевые слова и категории. В некоторых случаях, метаданные могут включать информацию о геолокации, которая указывается самими авторами. Демографическая информация о моделях, такая как возраст, пол, расовая/этническая принадлежность, также может быть включена в предоставляемые метаданные.

Как используется мой контент? Какая лицензия предоставляется для наборов данных?

Наборы данных лицензируются по крайне ограниченной лицензии. Компании, приобретающие наборы данных (контент и метаданные), могут использовать их только для обучения моделей машинного обучения и компьютерного зрения. Использование контента в коммерческих или публичных целях, таких как маркетинг, реклама и т. д., строго запрещено. Компании должны обеспечить необходимые меры безопасности для предотвращения несанкционированного распространения и использование контента.

Передаются ли какие-либо личные данные партнерам?

Метаданные, включенные в наборы данных, представляют из себя по большому счету описательную информацию о визуальном контенте. Хотя, некоторая информация из релизов моделей (возраст, пол или расовая/этническая принадлежность), может включаться в метаданные наборов данных, оригиналы релизов никогда не будут переданы третьей стороне, что дает гарантию того, что партнеры не получают полную информацию о личности модели.

Контент, созданный искусственным интеллектом

25 октября 2022 года компания Shutterstock объявила о своем желании коммерциализировать контент, созданный с помощью генеративных моделей ИИ. Фотобанк поставил перед собой задачу сделать это ответственно и прозрачно как для клиентов так и для авторов. Расширяя свое партнерство с OpenAI и запуская фонд для вознаграждения авторов за их вклад в развитие системы, Shutterstock стремится соблюсти необходимый баланс и этические нормы.

Что такое ответственный ИИ?

Компания Shutterstock считает, что благодаря контенту, созданному с помощью ИИ, клиенты смогут еще более эффективнее достигать поставленных целей и справляться с задачами любой сложности. Но нужно отнестись к этому с соблюдением всех этических норм.

У Shutterstock есть определенный уровень компетенций, которые позволяют ему подойти к решению проблемы ответственно и защитить права всех сторон. У микростока есть средства защиты, которые позволяют находить и удалять оскорбительный контент и гарантировать, что изображенные люди никоим образом не подвергаются оскорблениям, а их личность уважается на высоком уровне.

Как разрабатывались инструменты Shutterstock для создания контента с помощью ИИ?

Инструмент для создания и генерации контента с помощью искусственного интеллекта, который появится на сайте Shutterstock, основан на технологии OpenAI DALL-E, которая была обучена с использованием наборов данных, лицензированных Shutterstock. Сотрудничество с OpenAI в области обучения модели ИИ для генерации контента, гарантирует, что новая технология была создана этичным и ответственным образом, что гарантирует справедливую компенсацию авторов, чей оригинальный контент был использован при разработке данного инструмента.

Как будет использоваться инструмент генерации ИИ изображений на Shutterstock?

Одним из ключевых бизнес-приоритетов компании является обеспечение клиентов лучшими инструментами и материалами в творческой сфере. Инструмент для создания контента с помощью искусственного интеллекта позволит клиентам мгновенно генерировать изображения на основе введенных ими критериев. Этот контент будет доступен для загрузки создавшему его клиенту и, в конечном итоге, может быть добавлен в обширную библиотеку Shutterstock. Конкретные детали все еще находятся в разработке и компания обещает ими поделиться в ближайшем будущем.

Что делает Shutterstock, чтобы авторы получали справедливое вознаграждение, при использовании их работ в моделях обучения ИИ?

Компания создала специализированный фонд, средства из которого будут напрямую распределяться между авторами микростока, если их интеллектуальная собственность использовалась при разработке моделей, генерирующих ИИ. Помимо этого, Шаттерсток по-прежнему будет выплачивать авторские лицензионные отчисления за контент, созданный с помощью ИИ и основанный на их генеративном инструменте. Доходы, полученные от использования наборов данных, будут опубликованы в четвертом квартале 2022 года.

Весь ли контент, созданный искусственным интеллектом, будет приниматься на Shutterstock?

Shutterstock не разрешает выставлять на продажу контент, созданный генеративными моделями ИИ. Компания хочет быть уверена, что авторы смогут подтвердить все права собственности на весь загружаемый контент и получить в случае использование их контента в моделях обучения ИИ, справедливое вознаграждение.

Учитывая, что на рынке есть различные модели генерации контента с помощью ИИ, микросток не может наверняка проверить источники генерации и обеспечить всем авторам, участвовавшим в создании фрагментов контента, соответствующую защиту и компенсацию. Подробнее, о политике в отношении контента, созданного с помощью ИИ, можно узнать здесь.

Компенсация

Как я буду получать оплату?

Новая форма заработка выходит за рамки стандартного лицензирования отдельных материалов для коммерческого и редакционного использования. Компания намерена отнестись ко всем авторам, как к партнерам и гарантировать, что все, чей контент используется при создании этих технологий, получат свою долю доходов от использования наборов данных компьютерного зрения и генеративных моделей искусственного интеллекта Учитывая коллективный характер и природу этого продукта, микросток разработал специальную модель распределения доли дохода.

Авторы будут получать часть стоимости контракта, купленного партнером, использующим генеративную платформу. Доля, которую будут получать отдельные авторы, будет пропорциональна объему использованного контента и метаданных, включенных в приобретенные наборы данных. Хотя, включение в наборы данных не будет отображаться в сводке доходов (как это делается при покупке изображений, видео и других типов контента), Shutterstock ведет внутренний учет всех активов, используемых во всех наборах данных, которые были созданы с момента запуска этого продукта. Этот факт будет гарантировать, что все авторы получат причитающуюся им долю дохода.

Доходы от использования наборов данных и загрузок контента, сгенерированного ИИ, созданного с помощью интегрированной технологии на платформе микростока, объединяются в коллективный фонд и будут распределяться каждые 6 месяцев. Если вы получили доход от фонда, вы увидите его в разделе «Сводка доходов» с пометкой «Фонд вкладчика» (англ. «Contributor Fund»). Выплаты будут происходить каждые 6 месяцев и будут включать в себя как доходы от сделок с данными, так и гонорары за контент, сгенерированный искусственным интеллектом и созданный с помощью инструмента, встроенного в платформу микростока.

Могу ли я отказаться от включения моего контента в будущие наборы данных?

Да, в ближайшие месяцы будет добавлена функция, которая позволит отказаться от включения авторского контента в будущие наборы данных.

Наборы данных Shutterstock и контент, созданный искусственным интеллектом