Читайте по моим губам: 17 428–51=ОМГ!

ЧТОБЫ ПОЛУЧИТЬ ощущение огромной разницы в способностях искусственного интеллекта среди лучших и остальных, подумайте вот о чем: набор данных из программы Google DeepMind и Оксфордского университета для обучения их системе чтения по губам содержал 17 428 уникальных слов — в то время как конкурент Оксфордский проект под названием LipNet насчитывал всего 51.

Эти две инициативы выпустили документы с разницей всего в неделю в ноябре 2016 года. Но они были совершенно разными: спичка по сравнению с массивной, раскаленной добела промышленной печью. И промышленности и научному сообществу лучше привыкнуть к этому. Те же преимущества масштаба, что и в талантах, доходах, зарплатах и ​​вычислительной мощности, существуют и в данных.

Искусственный интеллект опирается на данные для обучения алгоритмов, и более крупные и хорошо финансируемые игроки имеют невероятное преимущество. Часто они лидируют, прослушивая информацию, проходящую через их платформы. Google знает, что интересует людей; Facebook знает, кого они знают; Amazon знает, что они хотят купить; и Т. Д.

Тем не менее, у них также есть большое преимущество в том, что они могут превращать необработанные данные в пригодные для использования данные для обучения. Так было с проектом Оксфорда и DeepMind по чтению по губам. Они прослушивали 5000 часов видео BBC, но поскольку звук и видео иногда рассинхронизировались на целых секунды, им сначала нужно было настроить это. Это потребовало невероятного ноу-хау, времени и ресурсов. Немногие, кроме крупных компаний, способны сделать такие инвестиции.

Решением, конечно же, являются открытые наборы данных и консорциумы. Так было и с ImageNet для распознавания изображений. И надо отдать должное, Oxford и DeepMind делают синхронизированные видеоданные BBC открытыми для других, особенно для конкурирующих исследователей LipNet.

Но такая корпоративная щедрость может продолжаться недолго. Таким образом, университеты, стартапы, венчурные фонды и организации, такие как OpenAI, должны убедить сторонние организации, которые владеют фактическими данными, — такие группы, как BBC, больничные системы и т. д., — что основной ресурс ИИ должен быть делятся на открытой основе.

В противном случае некоторые организации будут процветать, поскольку другим будет трудно конкурировать. На это уже обратили внимание антимонопольные органы. Данные, как сырье, станут барьером для выхода на рынки, и в долгосрочной перспективе у нас будет менее конкурентоспособный и динамичный сектор ИИ. Это, даже если мы можем восхвалять невероятные достижения майоров.