دومین کنگره انفورماتیک پزشکی و هفتمین همایش سلامت الکترونیک

عنوان فارسی شناسایی ژن های عامل بیماری با بکارگیری جمعی از ماشین های یادگیر سریع
چکیده فارسی مقاله مقدمه: شناسایی پایه­های ژنتیکی یک بیماری، یک چالش عمده در ژنتیک انسانی است. از آنجا که نتایج بیماری از تغییر عملکرد طبیعی ژن ناشی می­شود، شناسایی ژن عامل بیماری نیز به تعریف مسیر مولکولی که دچار اختلال عملکرد شده است نیاز دارد. تلاش­ها در مورد خواص ژن عامل بیماری در شبکه­های مولکولی نشان می­دهد که ژن­های مرتبط با بیماری­های یکسان یا مشابه، تمایل به اقامت در همسایگی این شبکه­ها دارند و به شکل ماژول­های فیزیکی و یا کارکردی بروز پیدا می­کنند. این یافته­ها پایه و اساس توسعه روش­های محاسباتی برای پیش بینی و اولویت بندی ژن عامل بیماری شده است. شناسایی ژن­های عامل بیماری در ژنوم انسانی یک کار مهم اما چالشی در تحقیقات زیست پزشکی است. یکی از روش­های محاسباتی دربیوانفورماتیک برای کشف ژن بیماری جدید استفاده از هوش مصنوعی و روش­های یادگیری ماشین بر اساس ژن­های شناخته شده است. روش­های هوشمند موجود به طور معمول ژن­های بیماری شناخته شده را به عنوان داده آموزشی مثبت و ژن­های ناشناخته را به عنوان مجموعه آموزشی منفی در نظر می­گیرند. در مساله شناسایی ژن­های عامل بیماری بازه وسیعی از داده­های بیولوژیکی همچون داده­های میانکنش بین پروتئینی (PPI)و آنتولوژی ژن (GO) به کار رفته است . در این پژوهش سعی در بهبود دقت روش­های جاری برای شناسایی ژن­های عامل بیماری شده است که از جمله آن­ها استفاده از دسته بندی کننده­های قوی همچون روش­های جمعی است. در این پژوهش از یک مدل یادگیری مبتنی بر جمعی از ماشین­های یادگیر سریع استفاده شده است. ماشین یادگیر سریع یک نوع شبکه عصبی با یک لایه مخفی است که به دلیل سرعت بالای آموزش و پیچیدگی محاسباتی کم، می­تواند جهت دسته بندی داده­های حجیم مانند ژن­های عامل بیماری مورد استفاده قرار گیرد. در این مدل، تعدادی ماشین یادگیر سریع آموزش داده می­شوند و سپس با اعمال رای اکثریت روی نتایج ماشین­ها، پاسخ نهایی مدل بدست می­آید. روش بررسی: در این مقاله از داده­های دامنه پروتئین، داده­های میانکنش بین پروتئینی و آنتولوژی ژن استفاده شده است، یا به زبان دیگر هر ژن به صورت یک بردار ویژگی شامل موارد بالا می­باشد. دامنه پروتئین، داده­های تکاملی ماژول­های اسید آمینه هستند که به عنوان تابعی از بلوک­های سازنده برای ساخت آرایه وسیعی از پرروتئین­ها عمل می­کنند. بنابراین دامنه پروتئین واحدی ضروری برای مشارکت در فعالیت­های رونویسی و دیگر تعاملات بین مولکولی می­باشد. داده­های میانکنش بین پروتئینی، با استفاده از فن آوری­های جدید، استفاده از مقادیر زیادی از داده­ها میانکنش بین پروتئینی، که نشان دهنده یک منبع با ارزش برایاولویت­بندی ژن نامزد است را امکان پذیر کرده است. علت با ارزش بودن این داده­ها این است که ژن­های مربوط به یک فنوتیپ بیماری مشابه یا خاص، تمایل دارند که در یک همسایگی خاص در شبکه میانکنش بین پروتئینی واقع شوند. آنتولوژی ژن به مجموعه ای از لغات کنترلی گفته می­شود که برای حاشیه نویسی ژن­ها و محصولات آن­ها استفاده می­شوند. آنتولوژی ژن شامل سه زیر مجموعه فرآیند بیولوژیکی BP)) عمکرد ملکولی (MF) و اجزای سلولی (CC) می­باشد. برای دسته بندی ژن­ها از یک مدل جمعی ماشین یادگیر سریع استفاده شده است که دقت دسته بندی را نسبت به روش­های موجود بالاتر برده است. همان طور که پیش از این توضیح داده شد، داده­ها به صورت بردار ویژگی جهت ارائه به دسته بندی کننده آماده شده اند. داده­ها به دو دسته، کلاس بیماری P وکلاس غیربیماری N تقسیم شده اند. برای جلوگیری از انحراف در نمونه برداری، به طور تصادفی 10 زیر مجموعه از مجموعه N انتخاب شده و مدل دسته بندی کننده با اجرای 3 فولد اعتبارسنجی متقابل آموزش داده شده است. جهت ارزیابی مدل از معیار­های دقت، بازیابی و معیار F استفاده شده است. در این پژوهش برای پیاده سازی مدل از نرم افزار متلب 2016a استفاده شده است. یافته ها: در جدول یک روش پیشنهادی با مدل­های جمعی موجود مقایسه شده است. در روش­های Boosting از 100 یادگیرنده درخت دو دویی به عنوان یادگیرنده ضعیف استفاده شده است همچنین در روش Baggingاز متد Random Forest با عمق 100 استفاده شده است. در مدل پیشنهادی تنها از 10 یادگیرنده که هر کدام یک ماشین یادگیر سریع می­باشد استفاده شده است. جدول یک: مقایسه مدل­های جمعی با روش پیشنهادی معیار F بازیابی دقت مدل 93.64 93.84 93.47 روش پیشنهادی 80.1 80.1 79.1 LogitBoostروش 78.3 79.8 77.3 PUDIروش 69.7 83.3 60.5 ProDiGeروش 68.6 72.3 67.0 Smalterروش 68.4 69.7 68.0 Xu روش نتیجه ­گیری بر اساس این مشاهده که ژن­های مرتبط با فنوتیپ بیماری مشابه به احتمال زیاد ویژگی­های بیولوژیکی مشابهی را به اشتراک می­گذارند، روش­های یادگیری ماشین می­توانند برای پیش بینی ژن بیماری جدید از ژن بیماری تایید شده مورد استفاده قرار گیرند. استفاده از این روش­ها درتشخیص­ها، پیش آگهی و مشاوره مناسب در دوران بارداری و پس از تولد در خانواده­های آسیب پذیر مفید بوده و ضمن کاهش هزینه­های سیستم درمانی در برخی موارد حتی ممکن است منجر به توسعه استراتژی­های درمانی شود.
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی Ensemble of ELMs for Discovering Disease-Genes in Human Protein
چکیده انگلیسی مقاله
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله مسار سارا | مسار
دانشگاه شیراز
سازمان اصلی تایید شده: دانشگاه شیراز (Shiraz university)

اقبال منصوری |
دانشگاه شیراز
سازمان اصلی تایید شده: دانشگاه شیراز (Shiraz university)


نشانی اینترنتی http://mieh-2018.modares.ac.ir/browse.php?a_code=A-10-353-1&slc_lang=fa&sid=1
فایل مقاله فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
برگشت به: صفحه اول پایگاه   |   دوره مرتبط   |   کنفرانس مرتبط   |   فهرست کنفرانس ها