За даними The Verge, гонка за відеоматеріалами з реального побуту перетворилась на повноцінну індустрію: технологічні компанії та стартапи платять людям, пропонують безкоштовні послуги та встановлюють камери в домівках, аби отримати дані, без яких навчання роботів неможливе.
Чому фізичні дані коштують так дорого
Чат-боти, генератори зображень та інші AI-інструменти навчались на мільярдах текстів і фото, зібраних з інтернету — часто без відома авторів. Фізичний світ такого не дозволяє: робот повинен розуміти простір, рух, силу тертя, незвичні матеріали, погане освітлення. Саме тому завдання, які людина виконує автоматично — скласти одяг, підняти яблуко, налити воду — виявились надзвичайно складними для програмування. Кожне з них потребує тисяч годин розмічених відеозаписів від першої особи, так званих egocentric-даних.
Хто і як збирає ці дані
На ринку сформувалось кілька підходів:
- Shift — пропонує безкоштовне прибирання в обмін на відеозапис роботи клінкерів; стартап стверджує, що охопив десятки тисяч учасників у 15 країнах.
- Pronto (Індія) — збирає відео під час реальних замовлень на прибирання й готування за умови явної згоди клієнта; що саме отримує клієнт натомість — компанія не уточнює.
- Human Archive (Silicon Valley) — партнерується з платформами на кшталт Pronto та постачає гіг-працівникам камери у формі кепок для запису від першої особи.
- «Дата-ферми» без прив'язки до корисної роботи — учасники виконують стандартизовані рухи знову і знову перед масивами камер і сенсорів.
Backlash навколо Pronto в Індії показав, що споживачі болісно реагують на зйомку в домівках навіть за наявності згоди: конкуренти публічно заявили, що ніколи не записували відео всередині будинків і не планують цього робити.
Дані від роботів у реальних умовах
Окремий потік даних надходить від роботів, які вже продаються або тестуються у споживчому середовищі. Попри гучні анонси, повна автономія залишається віддаленою перспективою — компанії свідомо виводять продукти на ринок раніше, щоб збирати дані з реальних домівок і поступово вдосконалювати моделі. Це означає, що покупці таких пристроїв фактично стають учасниками програми збору даних, не завжди усвідомлюючи масштаб цього процесу. Регуляторна відповідь на ці практики поки залишається фрагментарною, а прозорість умов — мінімальною.
EVERYTHING