Дослідники Google створили штучний інтелект, що аналізує моделі машинного навчання і визначає, які працюватимуть найкраще. Технологія базується на методах Off-Policy Classification (або OPC) — оцінювання продуктивності агентів, керованих ШІ, на основі попередніх даних.
Для тренування агентів зазвичай використовується навчання з підкріпленням (далі RL). Це база, що дає змогу агентам робити вибір на основі попереднього досвіду.
Одним з багатьох варіантів такого навчання є off-policy RL. Агент вчиться на двох типах даних: тих, які зібрали інші агенти, і тих, котрі він набув сам. Другі — це зазвичай навички, на кшталт хапання чи ходьби.
Протилежний йому метод fully off-policy RL передбачає, що агент повністю вчиться на попередньо зібраних даних. Це означає, не потрібно використовувати фізичного робота. Можна навчити декілька моделей на одному і тому ж фіксованому наборі даних, а тоді вибрати найкращу.
Здавалося б оптимальний метод, але є недоліки. Якщо тренування можна проводити без робота, то оцінювання моделей — ніяк. Щоб перевірити ефективність, треба побачити модель в дії. А оцінювання за допомогою фізичних роботів не доцільне, коли треба проаналізувати багато моделей.
Тож вчені розробили штучний інтелект, щоб аналізути моделі й тестувати на роботах тільки найперспективніші.
Передбачається, що немає випадковостей і під час експерименту всі дії призводять або до успіху, або до провалу. Кожна дія отримує позначку «ефективна» чи «катастрофічна». Зрештою обираються лише ті моделі, які працюють найкраще. З цим методом можна проводити масштабні експерименти й не витрачатись на роботів.
Детальніше з методом можна ознайомитись за посиланням.
Ще немає коментарів