آموزش سریع ربات ها برای انجام کارهای سنگین
محققان دانشگاه کالیفرنیای جنوبی توانستند سیستمی جدید برای آموزش سریع و پیشرفته ربات ها طراحی کنند.
محققان دانشگاه کالیفرنیای جنوبی (USC) سیستمی را ایجاد کردهاند که فقط با ویدئوی ساده میتواند کارهای پیچیدهای را انجام دهد. مقاله تحقیقاتی تحت عنوان، یادگیری از نمایش با استفاده از منطق زمانی سیگنال، در کنفرانس یادگیری ربات هفته گذشته ارائه شد.
در مقاله تحقیق ذکر شده که این سیستم به محدودیتهای موجود در یادگیری تقویت در رباتها مانند نقص، ایمنی و تفسیرپذیری پرداخته است. محققان از منطق Signal Temporal استفاده کردهاند تا ربات فقط از طریق چند ویدئو، کارهایی مانند رانندگی با ماشین و پختن غذا را بیاموزد.
دانشجوی دکترای علوم کامپیوتر در دانشکده مهندسی USC Viterbi و نویسنده اصلی این تحقیق، Aniruddh Puranic میگوید، بسیاری از سیستمهای یادگیری ماشین و یادگیری تقویتکننده به مقادیر زیادی داده و صدها ویدئو نیاز دارند که فراهم کردن آنها عملی نیست.
محدودیتهای مدل یادگیری از ویدئو و تصاوی (LfD)
مدل یادگیری از روی نمایشهای موجود در رباتها شامل یادگیری تقویت کننده است. در طول سالها LfD موجود محققان را قادر ساخته است تا در مورد مشخصات ربات بینش کنند. با این حال، محدودیتهای خاصی برای این مدل وجود دارد. در حالی که برخی از نمایشها میتوانند نتایج دلخواه را نشان دهند، برخی دیگر برای ارائه نتایج باکیفیت به کمک انسان نیاز دارند. کمبود معیارهای لازم برای ارزیابی کیفیت نمایشها یا کارها به چالش سوم LfD میافزاید.
ویژگیهای سیستم جدید یادگیری ماشین
منطق زمانی سیگنال که توسط آرتور پریور با نام Tense Logic در سال ۱۹۶۰ معرفی شد، یک زبان ریاضی است که استدلال رباتیک را در مورد نتایج فعلی و آینده امکان پذیر میکند.
محققان پیش از این از STL در برنامههای سیستم فیزیکی سایبری مانند رباتها و اتومبیلهای خودران برای ارزیابی منطق و استدلال در موارد اضطراری استفاده کرده بودند. سیستم STL موجود نتایج مثبتی را برای ارزیابی رفتار زمانی در رباتها مانند سیگنال چند بعدی متشکل از موقعیت ربات، زاویههای مفصل، سرعتهای زاویهای و سرعت خطی ارائه میدهد. این سیستم همچنین کیفیت ویدئو و تصاویر را تخمین میزند تا رباتها نتوانند از نمونههای نامطلوب درس بگیرند.
محققان اظهار داشتند که بینش اساسی این کار آن است که استفاده از مشخصات جزئی STL میتواند به مکانیزمی برای ارزیابی و رتبه بندی خودکار تظاهرات کمک کند.
برخلاف مدل سنتی، این سیستم ربات را قادر میسازد تا از موفقیت و شکست خود، تنها با چند نمایش درس بگیرد و تجربه کسب کند. از طریق این سیستم، رباتها میتوانند بدون نیاز به منطق، کار را یاد بگیرند و میتوانند نتیجه گیری خود را در مورد عملکردشان صورت دهند.محققان نتیجه گرفتند که این روش جهتهای جدیدی را برای ایمنی و تفسیر پذیری سیاستهای کنترل ربات و تایید روشهای یادگیری بدون مدل فراهم میکند.