تولید تصاویر آموزشی با زوایای مختلف توسط GAN برای بهبود تشخیص تصویر محصول مواد غذایی

ساخت وبلاگ

شناخت تصویر بر اساس روشهای یادگیری عمیق با تغذیه با داده های آموزشی فراوان ، دستاوردهای چشمگیری به دست آورده است. متأسفانه ، جمع آوری تعداد زیادی از تصاویر حاشیه نویسی ، بسیار وقت گیر و گران است ، به خصوص در کارهای تشخیص محصول مواد غذایی. تشخیص دقیق محصولات مواد غذایی به طور دقیق هنگامی که مدل یادگیری عمیق با داده های ناکافی آموزش داده می شود ، چالش برانگیز است. در این مقاله شبکه های مخالف چند زاویه ای (MAGAN) ارائه شده است ، که می تواند تصاویر آموزشی واقع بینانه با زوایای مختلف برای تقویت داده ها ایجاد کند. اطلاعات متقابل در GAN رمان برای دستیابی به یادگیری زاویه ها به روشی بدون نظارت استفاده می شود. این مقاله با هدف ایجاد تصاویر آموزشی حاوی محصولات مواد غذایی از زوایای مختلف ، بنابراین باعث بهبود دقت تشخیص محصول مواد غذایی می شود. ما ابتدا با استفاده از Magan و انواع پیشرفته GAN ، مجموعه داده های میوه را بزرگ می کنیم. سپس ، ما نتایج دقت 1 را از طبقه بندی کننده های CNN آموزش داده شده با روش های مختلف تقویت داده ها مقایسه می کنیم. سرانجام ، آزمایش های ما نشان می دهد که Magan از GAN های موجود برای کارهای تشخیص محصول مواد غذایی فراتر می رود و باعث افزایش قابل توجهی در دقت می شود.

معرفی

شناخت محصولات مواد غذایی از طریق تصاویر ، توجه بیشتری را در دامنه دید رایانه به خود جلب کرده است. بسیاری از شرکتهای غول پیکر برای استفاده از تکنیک های هوش مصنوعی ، به ویژه روشهای یادگیری عمیق ، برای بررسی انطباق Planogram و تحقق پرداخت خودکار ، منابع را سرمایه گذاری می کنند. شناخت خودکار محصولات مواد غذایی از قفسه ها برای مدیریت فروشگاه های خرده فروشی از اهمیت زیادی برخوردار است و اتوماسیون روند پرداخت به طور چشمگیری تجربه خرید مصرف کنندگان را بهبود می بخشد. گزارش Juniper Research [10] پیش بینی می کند که هزینه های جهانی برای خدمات اطلاعاتی مصنوعی در صنعت خرده فروشی در سه سال آینده به 12 میلیارد دلار افزایش می یابد ، که حدود سال گذشته سه برابر است.

یادگیری عمیق ، که توسط [12] پیشنهاد شده است ، به دلیل ظهور داده های بزرگ ، در بسیاری از حوزه های تحقیقاتی مختلف به موفقیت عظیمی رسیده است. یک شبکه عصبی عمیق از چندین لایه پنهان تشکیل شده است ، بنابراین تعداد زیادی از پارامترها را برای آموزش به ارمغان می آورد. ارائه داده های حاشیه نویسی فراوان برای آموزش شبکه های عمیق ضروری است. به عنوان مثال ، مجموعه داده Imagenet [4] شامل میلیون ها تصویر دارای برچسب است. با این حال ، یک چالش قابل توجه در وظایف تشخیص محصول مواد غذایی ، اجرای یادگیری عمیق با کمبود نمونه های آموزشی دارای برچسب است [33]. در ابتدا ، محصولات مواد غذایی اشیاء 3 بعدی هستند و ویژگی های بصری همان محصول از منظره های مختلف می تواند بسیار متفاوت باشد. به طور معمول ، برای هر محصول که از دیدگاه های مختلف در یک بستر چرخان گرفته شده است ، باید چندین تصویر وجود داشته باشد. علاوه بر این ، شرایط محیطی (روشنایی و پس زمینه) و کاتالوگ محصول می تواند در فروشگاه های مختلف مواد غذایی متفاوت باشد. متأسفانه ، جمع آوری داده های سفارشی برای فروشگاه های مختلف خرده فروشی بسیار وقت گیر و گران خواهد بود.

محققان تلاش می کنند از افزایش داده ها برای تکمیل تصاویر مصنوعی برای آموزش شبکه های عصبی عمیق ، به ویژه برای شبکه های عصبی حلقوی (CNN) [15] ، [2] استفاده کنند. با این حال ، روش های کلاسیک افزایش داده ها ، از جمله ترجمه ها ، چرخش ها ، بازتاب آینه ، مقیاس گذاری و اضافه کردن نویز تصادفی ، فقط می توانند تنظیمات کوچکی را برای تصاویر فراهم کنند. علاوه بر این ، روشهای کلاسیک نمی توانند ویژگی های متنوعی را از زوایای مختلف یک شی ایجاد کنند ، که در CNN کاملاً ضروری هستند. در سالهای اخیر ، شبکه های مخالف مولد (GAN) [9] توانایی بالقوه ای برای جمع آوری داده های آموزش با تصاویر مصنوعی برای تقویت داده ها فراهم شده است. ساختار اصلی گان از دو بازیکن تشکیل شده است: ژنراتوری که تصاویر مصنوعی تولید می کند و یک تبعیض که یک تصویر را مشخص می کند از توزیع واقعی یا مصنوعی است. پس از فرآیند آموزش مخالف ، ژنراتور توزیع داده های واقعی را درک می کند و سپس تصاویر واقع بینانه جدیدی ایجاد می کند.

روشهای مختلفی برای استفاده از GAN در بینایی رایانه ثابت کرده است که افزایش داده های مبتنی بر GAN می تواند به طور مؤثر مجموعه داده های آموزشی را برای بهبود دقت تشخیص تصویر گسترش دهد [34] ، [6] ، [32] ، [36] ، [26]. بیشتر مطالعات GAN را به عنوان یک مترجم تصویر به تصویر برای تولید تصاویر حاوی همان اشیاء اما با شرایط روشنایی واقع بینانه و پیش زمینه استفاده کرده اند. کار محدود در حال بررسی نحوه استفاده از GAN برای ایجاد تصاویر جدید با اشیاء مختلف است ، بنابراین مستقیماً میزان داده های آموزش را برای هر گروه افزایش می دهد. علاوه بر این ، تحقیقات افزودنی داده های موجود بر اساس GAN به ورودی نویز تصادفی متکی است ، که نمی تواند نمای شی از تصاویر تولید شده را کنترل کند. این مقاله پس از تجزیه و تحلیل مدلهای پیشرفته فعلی GAN ، یک GAN جدید برای تولید تصاویر چند زاویه ای برای تقویت مجموعه داده های محصول مواد غذایی ارائه می دهد. ما مفهوم اطلاعات متقابل را در ساختار MAGAN اضافه می کنیم تا از یک کد نهفته برای دستکاری زاویه نمای تصاویر تولید شده استفاده کنیم. معماری مفصل Magan در بخش 3 ارائه خواهد شد. سپس ، یک طبقه بندی کننده CNN که با مجموعه داده های بزرگ شده آموزش دیده است برای ارزیابی کیفیت تصاویر تولید شده استفاده می شود. سرانجام ، نتایج تجربی نشان می دهد که Magan ما در مقایسه با GAN های پیشرفته ، از جمله DCGAN [22] ، Acgan [21] و Wgan [1] به بهترین عملکرد دست یافته است.

  • • از آنجا که داده های حاشیه نویسی در کارهای تشخیص محصول مواد غذایی محدود است ، یک مدل GAN جدید برای تقویت داده ها ارائه شده است. ما یک پخش کننده جدید Q را در ساختار ACGAN اعمال می کنیم تا اطلاعات متقابل بین کدهای ورودی و تصاویر تولید شده را به حداقل برساند. این Q برای کنترل زاویه دید نمونه تولید شده طراحی شده است. علاوه بر این ، ما همچنین با اطلاعات برچسب ، تبعیض آمیز را تغذیه می کنیم تا به طور مؤثر واگرایی بین توزیع داده های جعلی و واقعی را به حداقل برسانیم.
  • • ما نتایج بین طبقه بندی کننده های آموزش دیده با همان مقدار داده های واقعی و داده های افزوده را مقایسه کرده ایم. این نشان می دهد که پس از مکمل با تصاویر تولید شده توسط MAGAN ، طبقه بندی کننده مبتنی بر افزایش داده ها می تواند محصولات مواد غذایی را به همان اندازه با استفاده از نمونه های واقعی تشخیص دهد.
  • مهمتر از همه ، ما MAGAN خود را با چندین الگوریتم تولیدی پیشرفته مقایسه می کنیم و پارامترهای مدل پیشنهادی را با جزئیات بیشتری تجزیه و تحلیل می کنیم. نتایج نشان می دهد که رویکرد جدید ما منجر به عملکرد بهتر برای کارهای تشخیص محصول مواد غذایی می شود.

قطعه قطعه

تشخیص محصول مواد غذایی با یادگیری عمیق

در سالهای گذشته ، روشهای یادگیری عمیق به طور گسترده ای برای تشخیص اشیاء محبوب در زندگی روزمره ما اجرا شده است [16] ، از جمله ماشین ، هواپیما ، شخص و غیره. از بسیاری از شرکت های خرده فروشی غول پیکر در سراسر جهان. محققان بیشتر و بیشتر شروع به انجام مطالعات در تشخیص محصولات خرده فروشی با یادگیری عمیق می کنند. جوند و همکاران.[13] از طبقه بندی کننده شبکه عصبی عمیق استفاده کرد

رویکرد پیشنهادی

چارچوب افزایش داده های پیشنهادی در شکل 1 نشان داده شده است. در ابتدا روشهای تولیدی با استفاده از تصاویر واقعی آموزش دیده اند ، به طوری که بعداً می توانیم داده های تکمیلی را از مدل های تولیدی ایجاد کنیم. نکته قابل توجه ، مجموعه داده بزرگ شده ترکیبی از تصاویر طبیعی و تصاویر مصنوعی است. سرانجام ، ما با استفاده از مجموعه داده های توسعه یافته ، یک طبقه بندی کننده CNN را آموزش می دهیم تا عملکرد بهتری در مورد شناسایی محصول مواد غذایی بدست آوریم.

مجموعه داده های میو ه-360

ما ابتدا رویکرد خود را در مجموعه داده های Fruit-360 [19] اجرا می کنیم ، که 120 دسته میوه و سبزیجات را در بر می گیرد. هنگام ضبط تصاویر ، میوه ها و سبزیجات در یک سکوی ریسندگی سفید قرار می گیرند. سپس نویسندگان از یک الگوریتم اختصاصی برای استخراج میوه یا سبزی از پس زمینه استفاده می کنند. هر تصویر فقط شامل یک نمونه است و اندازه آن به 100*100 پیکسل کاهش می یابد. به طور متوسط ، برای هر گروه 500 نمونه آموزش وجود دارد ، در حالی که حدود 170 تصویر در هر گروه برای

نتیجه

در این مقاله ، ما MAGAN ، یک مدل تولیدی جدید برای تقویت داده ها در تشخیص محصول مواد غذایی را پیشنهاد می کنیم. با استفاده از MAGAN ، ما با موفقیت زاویه های محصول را در تصاویر تولید شده دستکاری کرده ایم. متفاوت از ACGAN ، ما یک پخش کننده جدید ، Q Net را معرفی می کنیم که هدف آن به حداکثر رساندن اطلاعات متقابل بین کدهای نهفته و تصاویر خروجی مربوطه است. در نتیجه ، مدل ما ترکیبی از یادگیری تحت نظارت و بدون نظارت است ، جایی که G ، D و C در حالی که Q تحت نظارت قرار می گیرند

بیانیه مشارکت در نویسندگی اعتباری

Yuchen WEI: مفهوم سازی ، روش شناسی ، نرم افزار ، اعتبار سنجی ، تجزیه و تحلیل رسمی ، درمان داده ها ، منابع ، تحقیق ، نوشتن - پیش نویس اصلی ، نوشتن - بررسی و ویرایش ، تجسم ، مدیریت پروژه. Shuxiang Xu: نوشتن - بررسی و ویرایش ، اعتبار سنجی ، منابع ، نظارت ، مدیریت پروژه. Byeong Kang: نوشتن - بررسی و ویرایش ، نظارت ، مدیریت پروژه. Sabera Hoque: نوشتن - بررسی و ویرایش.

اعلام علاقه رقیب

نویسندگان اعلام می كنند كه آنها هیچ منافع مالی رقیب یا روابط شخصی را كه به نظر می رسد بر اثر گزارش شده در این مقاله تأثیر می گذارد ، ندارند.

تصدیق

اولین نویسنده Y. W. توسط شورای بورس تحصیلی چین (CSC) حمایت مالی می شود و آرزو می کند از CSC بخاطر حمایت مالی سخاوتمندانه آنها تشکر کند.

یوچن وی در حال حاضر دانشجوی دکترا در دانشکده فناوری اطلاعات و ارتباطات ، دانشگاه تاسمانی است. وی در سال 2012 B. E. Degree را در مهندسی اطلاعات از دانشگاه معدن و فناوری چین ، Xuzhou ، چین دریافت کرد و MSC را دریافت کرد. مدرک مهندسی وسایل نقلیه از دانشگاه تونگجی ، شانگهای ، چین ، در سال 2015. علایق تحقیق وی شامل هوش مصنوعی ، یادگیری ماشین و پردازش تصویر است.< Pan> اعلامیه علاقه رقیب

دوره ی فارکس...
ما را در سایت دوره ی فارکس دنبال می کنید

برچسب : نویسنده : مهناز افشار بازدید : 31 تاريخ : يکشنبه 22 مرداد 1402 ساعت: 1:39