|
دومین کنگره انفورماتیک پزشکی و هفتمین همایش سلامت الکترونیک
|
|
|
عنوان فارسی |
شناسایی ژن های عامل بیماری با بکارگیری جمعی از ماشین های یادگیر سریع |
|
چکیده فارسی مقاله |
مقدمه: شناسایی پایههای ژنتیکی یک بیماری، یک چالش عمده در ژنتیک انسانی است. از آنجا که نتایج بیماری از تغییر عملکرد طبیعی ژن ناشی میشود، شناسایی ژن عامل بیماری نیز به تعریف مسیر مولکولی که دچار اختلال عملکرد شده است نیاز دارد. تلاشها در مورد خواص ژن عامل بیماری در شبکههای مولکولی نشان میدهد که ژنهای مرتبط با بیماریهای یکسان یا مشابه، تمایل به اقامت در همسایگی این شبکهها دارند و به شکل ماژولهای فیزیکی و یا کارکردی بروز پیدا میکنند. این یافتهها پایه و اساس توسعه روشهای محاسباتی برای پیش بینی و اولویت بندی ژن عامل بیماری شده است. شناسایی ژنهای عامل بیماری در ژنوم انسانی یک کار مهم اما چالشی در تحقیقات زیست پزشکی است. یکی از روشهای محاسباتی دربیوانفورماتیک برای کشف ژن بیماری جدید استفاده از هوش مصنوعی و روشهای یادگیری ماشین بر اساس ژنهای شناخته شده است. روشهای هوشمند موجود به طور معمول ژنهای بیماری شناخته شده را به عنوان داده آموزشی مثبت و ژنهای ناشناخته را به عنوان مجموعه آموزشی منفی در نظر میگیرند. در مساله شناسایی ژنهای عامل بیماری بازه وسیعی از دادههای بیولوژیکی همچون دادههای میانکنش بین پروتئینی (PPI)و آنتولوژی ژن (GO) به کار رفته است . در این پژوهش سعی در بهبود دقت روشهای جاری برای شناسایی ژنهای عامل بیماری شده است که از جمله آنها استفاده از دسته بندی کنندههای قوی همچون روشهای جمعی است. در این پژوهش از یک مدل یادگیری مبتنی بر جمعی از ماشینهای یادگیر سریع استفاده شده است. ماشین یادگیر سریع یک نوع شبکه عصبی با یک لایه مخفی است که به دلیل سرعت بالای آموزش و پیچیدگی محاسباتی کم، میتواند جهت دسته بندی دادههای حجیم مانند ژنهای عامل بیماری مورد استفاده قرار گیرد. در این مدل، تعدادی ماشین یادگیر سریع آموزش داده میشوند و سپس با اعمال رای اکثریت روی نتایج ماشینها، پاسخ نهایی مدل بدست میآید. روش بررسی: در این مقاله از دادههای دامنه پروتئین، دادههای میانکنش بین پروتئینی و آنتولوژی ژن استفاده شده است، یا به زبان دیگر هر ژن به صورت یک بردار ویژگی شامل موارد بالا میباشد. دامنه پروتئین، دادههای تکاملی ماژولهای اسید آمینه هستند که به عنوان تابعی از بلوکهای سازنده برای ساخت آرایه وسیعی از پرروتئینها عمل میکنند. بنابراین دامنه پروتئین واحدی ضروری برای مشارکت در فعالیتهای رونویسی و دیگر تعاملات بین مولکولی میباشد. دادههای میانکنش بین پروتئینی، با استفاده از فن آوریهای جدید، استفاده از مقادیر زیادی از دادهها میانکنش بین پروتئینی، که نشان دهنده یک منبع با ارزش برایاولویتبندی ژن نامزد است را امکان پذیر کرده است. علت با ارزش بودن این دادهها این است که ژنهای مربوط به یک فنوتیپ بیماری مشابه یا خاص، تمایل دارند که در یک همسایگی خاص در شبکه میانکنش بین پروتئینی واقع شوند. آنتولوژی ژن به مجموعه ای از لغات کنترلی گفته میشود که برای حاشیه نویسی ژنها و محصولات آنها استفاده میشوند. آنتولوژی ژن شامل سه زیر مجموعه فرآیند بیولوژیکی BP)) عمکرد ملکولی (MF) و اجزای سلولی (CC) میباشد. برای دسته بندی ژنها از یک مدل جمعی ماشین یادگیر سریع استفاده شده است که دقت دسته بندی را نسبت به روشهای موجود بالاتر برده است. همان طور که پیش از این توضیح داده شد، دادهها به صورت بردار ویژگی جهت ارائه به دسته بندی کننده آماده شده اند. دادهها به دو دسته، کلاس بیماری P وکلاس غیربیماری N تقسیم شده اند. برای جلوگیری از انحراف در نمونه برداری، به طور تصادفی 10 زیر مجموعه از مجموعه N انتخاب شده و مدل دسته بندی کننده با اجرای 3 فولد اعتبارسنجی متقابل آموزش داده شده است. جهت ارزیابی مدل از معیارهای دقت، بازیابی و معیار F استفاده شده است. در این پژوهش برای پیاده سازی مدل از نرم افزار متلب 2016a استفاده شده است. یافته ها: در جدول یک روش پیشنهادی با مدلهای جمعی موجود مقایسه شده است. در روشهای Boosting از 100 یادگیرنده درخت دو دویی به عنوان یادگیرنده ضعیف استفاده شده است همچنین در روش Baggingاز متد Random Forest با عمق 100 استفاده شده است. در مدل پیشنهادی تنها از 10 یادگیرنده که هر کدام یک ماشین یادگیر سریع میباشد استفاده شده است. جدول یک: مقایسه مدلهای جمعی با روش پیشنهادی معیار F بازیابی دقت مدل 93.64 93.84 93.47 روش پیشنهادی 80.1 80.1 79.1 LogitBoostروش 78.3 79.8 77.3 PUDIروش 69.7 83.3 60.5 ProDiGeروش 68.6 72.3 67.0 Smalterروش 68.4 69.7 68.0 Xu روش نتیجه گیری بر اساس این مشاهده که ژنهای مرتبط با فنوتیپ بیماری مشابه به احتمال زیاد ویژگیهای بیولوژیکی مشابهی را به اشتراک میگذارند، روشهای یادگیری ماشین میتوانند برای پیش بینی ژن بیماری جدید از ژن بیماری تایید شده مورد استفاده قرار گیرند. استفاده از این روشها درتشخیصها، پیش آگهی و مشاوره مناسب در دوران بارداری و پس از تولد در خانوادههای آسیب پذیر مفید بوده و ضمن کاهش هزینههای سیستم درمانی در برخی موارد حتی ممکن است منجر به توسعه استراتژیهای درمانی شود. |
|
کلیدواژههای فارسی مقاله |
|
|
عنوان انگلیسی |
Ensemble of ELMs for Discovering Disease-Genes in Human Protein |
|
چکیده انگلیسی مقاله |
|
|
کلیدواژههای انگلیسی مقاله |
|
|
نویسندگان مقاله |
مسار سارا | مسار دانشگاه شیراز سازمان اصلی تایید شده: دانشگاه شیراز (Shiraz university)
اقبال منصوری | دانشگاه شیراز سازمان اصلی تایید شده: دانشگاه شیراز (Shiraz university)
|
|
نشانی اینترنتی |
http://mieh-2018.modares.ac.ir/browse.php?a_code=A-10-353-1&slc_lang=fa&sid=1 |
فایل مقاله |
فایلی برای مقاله ذخیره نشده است |
کد مقاله (doi) |
|
زبان مقاله منتشر شده |
fa |
موضوعات مقاله منتشر شده |
|
نوع مقاله منتشر شده |
|
|
|
برگشت به:
صفحه اول پایگاه |
دوره مرتبط |
کنفرانس مرتبط |
فهرست کنفرانس ها
|