سال پژوهنده (مجلهچهاردهم ، شماره پژوهشي 6، پي در دانشگاه پيعلوم72 ، پزشكي صفحات شهيد288 تا 294بهشتي) تاريخ دريافت مقاله: 9/11/1387
بهمن و اسفند 1388 تاريخ پذيرش مقاله: 11/9/1388

به كارگيري خوشه بندي فازي در ريزآرايه DNA
محسن واحدي 1*، دكتر حميد علوي مجد 2، دكتر يدا… محرابي 3، بهار نقوي 4

كارشناس ارشد آمار زيستي، مركز تحقيقات بيماريهاي گوارش و كبد، دانشگاه علوم پزشكي شهيد بهشتي
دانشيار، گروه آمار زيستي، دانشكده پيراپزشكي، دانشگاه علوم پزشكي شهيد بهشتي
استاد، گروه آمار و اپيدميولوژي، دانشكده بهداشت، دانشگاه علوم پزشكي شهيد بهشتي
-9903205605

مربي، دانشكده پرستاري و مامايي، دانشگاه علوم پزشكي شهيد بهشتي چكيده
سابقه و هدف: فناوري ريزآرايه براي بررسي همزمان بيان هزاران ژن در بازه وسيعي از ژنوميك، نظير شناسايي ژنها، اكتشاف داروها وتشخيصهاي كلينيكي مورد استفاده قرار گرفته است. آزمايشهايي كه بر اساس فناوري ريزآرايه انجام مي شوند حجـم بـسيار زيـادي ازداده ها را فراهم ميكنند كه در مطالعات بيولوژيك بينظير بوده است. نرمال سازي، خوشهبندي، طبقه بندي و… از جمله روشهاي مورداستفاده در تحليل آماري اين نوع داده هاست. هدف اين مقاله بررسي نحوه به كارگيري روش خوشهبنـدي فـازي در دادههـاي ريزآرايـهDNA است.
مواد و روش ها: تحقيق به روش توصيفي انجام شده و دادههاي بيان ژني سرطان خون گلوب و همكاران (1999) كه بـر اسـاس روشآرايه اليگونوكلئوتيد توليد شده و از طريق اينترنت در اختيار عموم قرار دارد، با استفاده از روش آماري خوشه بندي فازي، مورد تجزيه و تحليل قرار گرفته است. خوشه بندي داده هاي ريزآرايه به صورت خيلي محدود و گرايش بيشتر به سمت خوشه بندي كلاسيك در ايرانصورت پذيرفته است و اين مقاله شروعي در خوشه بندي فازي دادههاي ريزآرايه به شمار مي آيد. مجموعه داده ها شامل 20 بيمار مبـتلابه سرطان خون لنفوئيدي حاد (ALL) و 14 بيمار مبتلا به سرطان خون ميلوئيدي حاد(AML) است. كارايي روش خوشه بندي فـازي با توجه به گروه بندي واقعي نمونهها (ALL و AML) مورد ارزيابي قرار گرفت. نرم افزار R براي تحليل دادهها استفاده شد.
يافته ها: ويژگي روش خوشهبندي فازي در تشخيص افراد AML، 90% و حساسيت آن 93% و صحت آن 91% به دست آمد كه نشان دهنده عملكرد خوب اين روش است. نمونه سي و يكم كه بر اساس يافته هاي باليني در گروه AML قرار دارد در گروه ALL قرار گرفت، همچنين نمونه هاي دوم و هفدهم كه بر اساس يافتههاي باليني در گروه ALL قرار دارد طبق نتايج در گروه AML قرار گرفتند كه از نظر باليني ميتوانند قابل توجه باشند.
نتيجهگيري: خوشهبندي فازي اطلاعات نسبتاً قابل قبولي درباره ساختار دادهها فراهم مي كند كه با توجه به انطباق نتايج اين روش با گروه بندي واقعي دادهها، از اين روش آماري ميتوان در مواردي كه اطلاع دقيقي درباره گروهبندي واقعي داده ها در دست نيست، استفاده كرد. به علاوه با بررسي نتايج خوشهبندي ممكن است زيرگروه هايي از نمونهها را به نحوي متمايز كرد كه براي انطباق آن با يافته هاي باليني، پژوهشهاي آزمايشگاهي يا باليني جديدي لازم باشد.
واژگان كليدي: ريزآرايه DNA، بيان ژن، خوشهبندي كلاسيك، خوشه بندي فازي، سرطان خون

مقدمه 1
در سالهاي اخير فناوري ريزآرايه، امكان كنترل بيان هزاران ژنرا به صورت همزمان فراهم كرده و ژنـوميكس و پروتئـوميكساساس شيوه هاي علمي مطالعه پايه مولكولي رفتارهاي بافـت و

[email protected] :الكترونيك
* نويسنده مسئول مكاتبات: محـسن واحـدي؛ تهـران، اويـن، خيابـان تابنـاك،بيمارستان آيت ا… طالقـاني، مركـز تحقيقـات بيماريهـاي گـوارش و كبـد؛ پـست
سلول در شرايط فيزيولوژيـك و پاتولوژيـك را تغييـر دادهانـد .
فناوري ريزآرايه براي بررسي همزمان بيان هـزاران ژن در بـازهوسيعي از ژنوميك، نظيـر شناسـايي ژنهـا، اكتـشاف داروهـا وتشخيص هاي كلين يكي به صورت موفقيتآميزي مورد استفادهقرار گرفته است (1).
داده هـاي سـطوح بيـان ژنهـا اطلاعـات ارزشـمندي در مـورد شبكه هاي بيولوژيك، حالات سلولي و فهميدن كاركرد ژنهـا در بر دارد. يك هدف از تحليل دادههاي بيان ژن، تعيين چگونگيتأثير بيان هر ژن منفرد روي بيان ژنهاي ديگر در همان شبكهژنتيكي است . هدف ديگر ، مشخص كردن اين نكتـه اسـت كـهچگونه ژنها در سلولهاي سالم و بيمار بيـان مـي شـوند . كـاربردعلمي بررسي بيان ژن ريزآرايـه مـديريت و كنتـرل سـرطان وبيماريهاي عفوني است. هدف اصـلي ايـن مطالعـات، تعيـين وشناسايي فرايند پاتولوژيك مرتبط با نوع بيماري و مرحله آن ونيز پيش بيني پاسخ به درمان خاصي است. همچنين برخـي ازمسايل در زمينه تشخيص، با استفاده از تحليل داده هاي بيـانژن قابل حل شدهاند (2).
ريزآرايه ابزاري بـراي انـدازهگيـري و كـسب اطلاعـات از بيـانژنهاست. هر توالي ژني شناخته شده مورد نظر به عنـوان يـكپروب (Prob) روي يك آرايه (Array) شيشه اي يا نايلوني چاپمي شود. mRNA از بافت يا نمونه خون بـا رنگهـاي فلورسـنتعلامت گذاري مـيشـود و پروبهـا بـر روي يـك آرايـه هيبريـدمي شوند. دو نوع آرايه بيشترين كاربرد را دارند: 1- آرايـههـايبر پايه DNA مكمـل (DNA Complementary Spotted) 2- آرايه اليگونوكلئوتيد (Oligonucleotide array) كه به اختـصاراليگو گفته ميشود (3).
اغلب داده هاي حاصل از اين دو روش در ماتريس بيان ژني(Gene Expression) ذخيره ميشوند كه سطرهاي آن ژنها و ستونهاي آن افراد نمونه ميباشند.
آناليز پايه دادههاي بيان ژن شامل يك مرحله پيش پردازش وآماده سازي مجموعه داده براي مراحل آناليز سطوح بالاتر است.
پيش پردازش دادههاي خام ميتواند اثرات عميقي روي مراحلبعدي آناليز داشـته باشـد. اسـتفاده از روشـهاي آمـاري بـرايتحليل دادههاي حاصل از اين فناوري ميتواند گـام مـؤثري در جهت تشخيص و درمان بيماريها داشته باشد. يكي از روشهايآماري كـه در تحليـل ايـن داده هـا بـه صـورت فزاينـده مـورداسـتفاده قـرار مـي گيـرد خوش ه بنـدي اسـت. از سـال 1998 خوشه بندي داده هاي بيان ژنـي شـروع گرديـده اسـت (4). درابتدا فقط روش هاي خوشهبندي كلاسيك نظير خوشـه بنـدي سلسله مراتبي مورد استفاده قرار ميگرفت كـه در بـسياري ازموارد روشـهاي كـارا و مفيـد بودنـد ولـي در بعـضي از مواقـعكاستي هايي نيز داشتند كه باعث شد تا روشهاي خوشـهبنـديغيركلاسيك نظير خوشه بندي فازي در نظر گرفته شـود؛ مـثلاًبه منظور از بين بردن مـشكل خوشـه بنـدي اشـتباه داده هـايريزآرايه از روش خوشهبندي فازي استفاده شد (5). متدولوژي اسـتفاده از ايـن روش نيـز ارايـه گرديـد (6). در مـواردي كـه ساختار داده ها پيچيده است و خوشه بنـديهـاي رايـج جـوابنمي دهند، روش خوشه بندي فـازيFuzzy C-Means) FCM ) مي تواند گره گشا باشد (7). همچنين با مقايـسه اعتمادپـذيريتحليل هـاي ريزآرايـه بـا توجـه بـه دو روشFCM و مـدلهايآميختــه نرمــال (Normal Mixture Modeling) در حالــت مدلهاي آميخته، با توجه بـه سـرعت بيـشترFCM در چنـينتحليل هايي اين روش برتر از NMM مي باشد (8).
خوشه بندي فازي را مي توان به عنوان حالت تعميم يافته افراز قطعي (Hard Partitioning) در نظر گرفت. در يك افراز قطعي (خوشه بندي سلسله مراتبي متعلق به اين رده ميباشد) هر عنصر فقط به يك خوشه تعلق دارد.
در روش خوشه بندي فازي براي هر عنصر ميزان قرار گرفتن در خوشه هاي مختلف بوسيله ضرايب عضويت (Membership Coefficients) كه اعدادي در بازه 0 تا 1 است سنجيده مي شود. ضريب عضويت عنصر در هر خوشه اي كه بيشتر بود عنصر متعلق به آن خوشه است.
اصولاً پايهريزي الگوريتم خوشه بندي فازي براي فائق آمدن بر وضعيت بروز مشكل همپوشي خوشه ها كه از طريق وجود عنصرهايي كه در تعلق آنها به خوشه هاي مختلف ابهام وجود دارد ابداع شد. اساس آن مبتني بر تقسيم n آزمودني به c خوشه از طريق محاسبه و تعيين ضريب عضويت هر آزمودني به هر خوشه مي باشد.
امتياز اصلي خوشه بندي فازي نسبت به خوشهبندي قطعي ارايه اطلاعات دقيقتري درباره ساختار داده ها ميباشد. از طرف ديگر اين ممكن است به عنوان يك اشكال در نظر گرفته شود، زيرا مقدار خروجي با افزايش تعداد عناصر و تعداد خوشهها به سرعت زياد مي شود كه در نتيجه زمان زيادي براي تحليل صرف مي شود. براي بررسي داده هاي ريزآرايه DNA ميتوان از نرم افزارهاي آماري نظير STATA ،S-plus ،SAS و R استفاده كرد. R به علت توانايي بالا در كار كردن با دادههاي حجيم رواج بيشتري دارد (9).
هدف اين مقاله بررسي نحوه به كارگيري روش خوشه بندي فازي در دادههاي ريزآرايه DNA است.

مواد و روش ها
اين مطالعه از نوع مشاهدهاي- مقطعي مي باشد.
فناوري ريزآرايه DNA و روشهاي تحليل دادههاي آن جديـدمــي باشــند، بنــابراين درايــران و خيلــي از كــشورهاي ديگــرتحقيقاتي در زمينه توليد اين گونه دادهها صورت نگرفته است،لذا اغلب محققان ناچارند كه از داده هاي بانـكهـاي اطلاعـاتياينترنتي نظير GenBank استفاده كنند (10).
در اين تحقيق از دادههاي سرطان خـون كـه توسـط گلـوب وهمكاران(Golub) در سال 1999 انتـشار يافتـه اسـتفاده شـد (11). نمونه هاي سرطان خون شامل 24 نمونه مغز استخوان و
10 نمونه خون ميباشد كه همگي در زمان تشخيص سـرطانخون گرفته شدهاند. 20 نمونه از بيماران با سرطان خون حـادلنفوييدي(ALL) و 14 نمونه از بيماران با سرطان خون حـاد ميلوييدي(AML) مي باشند، كه به صورت نمونه گيري مبتنـيبر هدف و غيرتصادفي انتخاب شدهاند و بر اسـاس روش آرايـهاليگونوكلئوتيد بيان ژنها به دست آمـده اسـت. ايـن دادههـا از طريق اينترنت در اختيار عموم قرار دارد (12).
در اين دادهها هم نظير بيشتر دادههـاي مطالعـات بيـان ژنـي،داده ها چوله و داراي نقاط پرت بودند، لذا لازم بـود ابتـدا يـكپيش پردازش بر روي دادهها صورت بگيرد.
با توجه به توصيههاي گلوب و همكـاران (1999) مـوارد ذيـلبراي پيش پردازش دادهها در نظر گرفته شد:
انتخاب حد آستانه براي دادهها: حداقل مقدار هر داده 100 و حداكثر مقدار 16000 باشد، يعني دادههايي كه مقدار بيـانژني آنها كمتر از 100 بود را 100 منظـور گرديـد و دادههـاييكه بيشتر از 16000 بودند را 16000 گرفته شد.
فيلتر كردن : خارج كردن دادههايي كهmax/min ≤ 5 و
500≤( −max min) بودند. منظور ازmax وmin بهترتيب حداكثر و حداقل سطوح بيان يـك ژن خـاص در طـول
34 نمونه مي باشد.
انجام تبديل لگاريتمي بر روي دادهها
استاندارد كردن : تبديل نرمال استاندارد بر روي دادههـا زدهشد در نتيجه براي هر نمونه سطوح بيان ژنـي داراي ميـانگينصفر و واريانس يك شد.
با انجام اين پيشپردازش تنهـا 2917 ژن در مـاتريس دادههـاباقي ماندند و ماتريس بيان ژني 2917×34 براي تحليل آماريمورد استفاده قرار گرفت.
تكنيك خوشه بندي فازي را با مينيمم كردن تابع هدف زير به دست آوردهايم:
k

i jn, =1 u ud i j( , )
C =∑

n2 #
v=12∑j=1 u jv
( , )d i j نشان دهنده تفاوت يا فاصله بـين دو عنـصرi و j است،uiv ض ريب عضويت نامعلوم عنصرi به خوشهv است .
توابع عضويت به صورت زير مقيد شدهاند:
u

fori =1,K,n v;=1,K,k
∑uiv =1fori =1,K,n
v
كه نشان دهنده اين نكته است كه عضويتها نميتوانـد منفـيباشد و مجموع ضرايب عضويت يك عنصر روي خوشهها برابـربا يك است. از تابع لاگرانژ كه براي بهينه كـردن (#) اسـتفادهكرديم.
به خاطر محدوديتهايي كـه بـراي موردهـاي فـازي اسـت راهحل هاي خوشه بندي قطعي مورد نظـر قـرار مـي گيـرد . ميـزانتفاوت يك راه حل فازي از خوشهبنـدي قطعـي را مـيتـوان از
ضـريب افـراز دان (Dunn’s Partition Coefficient) ارزيـابي كرد كه به صورت مجموع مربعات همه ضرايب عضويت تقسيمبر تعداد عناصر به دست ميآيد.

nk u

n
1i= =1 v كه U ماتريس ضرايب عضويت است.
⎡u11 u12K u1k ⎤
⎢u21 u22K u2k ⎥
U = ⎢⎥
⎢ MMOM ⎥
⎢⎥
⎣un1 un2 K unk ⎦
70119256424

2051319488833

براي يك افـراز(uiv محـدود شـده بـه صـفر ويـك) ()F Uk ماكزيمم مقدار يك را ميگيرد در حالي كه مينيمم مقدارk 1 را وقتي همهuiv =1k است به خود اختصاص ميدهد. اين ضريب مي تواند به صورتي كه از 1 (خوشـه هـاي قطعـي) تـا0 (تماماً فازي ) تغيير كند، نرمال شود. اين كار مـستقل از تعـدادخوشه ها به وسيله تبديل انجام شود:
539511-18730

F Uk′( )= F Uk ( )− (1 k) = kF Uk ( )−1
1− (1 k)k −1
اين ضريب نرمـال شـده اغلـب بـه عنـوان شـاخص غيرفـازي(Nonfuzziness Index) ناميده مي شود (13). اگر بخواهيم يك خوشهبندي فازي را به خوشـهبنـدي قطعـيتبديل كنـيم بايـد 1=wiq بـراي خوشـهq كـه بزرگتـرينمقدارهايuiv را دارد تعريف كنيم. در مواردي كه گره وجـوددارد به صورت انتخابي عمل ميكنيم. اين تبديل براي مقايسهفازي با يك راه حل قطعي مورد استفاده قرار ميگيرد.
براي مقايس ه نتايج دو روش فـازي و غيرفـازي و بررسـي ايـنموضوع كه نتايج آنها تا چه حد با هم تطابق دارند، لازم اسـتنتايج حاصل از روش غيرفـازي بـا مقـادير و ضـرايب عـضويتعناصر به خوشههاي متناظر حاصل از روش فازي مقايسه شودكه بالا بودن مقدار ضريب عضويت براي يك عنصر مثلi بـهخوشه اي كه مثلv كه همين عنصر بر طبـق روش غيرفـازيدر آن قرار گرفته است بيانگر مطابقت نتايج دو روش است.
جدول1- انجام خوشهبندي فازي به دو خوشه و مقادير سايه نما
اجراي روش خوشهبندي فازي با استفاده از نرم افـزارR دارايعبارات و مفاهيمي است. يكي از اين مفاهيم نمـودار سـايه نمـا (Silhouette) است. نمودار سايهنمـا اولـين بـار توسـط رسـيومعرفي گرديد (14). در اين نمودار هر خوشه بـه صـورت يـكسايه نما مطرح ميشود كه در آن وضعيت هر آزمـودني كـه درآن خوشه قرار گرفته است، به لحاظ شدت تعلق به آن خوشـهمشخص مي باشد. كل خوشه بندي با قرار گرفتن چند سايه نمـا(به تعداد خوشههاي تعيين شده) در كنار هم معين ميگردد وبه كاربر اين اجازه را ميدهد كه به مقايسه كيفيت خوشههـايتشكيل شده بپردازد. چنين نمودار سايهنمايي در هنگامي كـهمقياس داده ها نسبي است، بسيار مفيد است، با اسـتفاده از آنبه راحتي فشرده بودن داخلي هر خوشه و تفكيك خوشههـايمختلف مي تواند مورد بررسي قرار گيرد.
براي هر خوشه ميانگين مقادير سايهنما را به دست مـي آوريـم .
بزرگترين مقدار ميانگين در بين خوشههاي مختلف به عنـوانضريب سايهنما ناميده ميشودكه به صورت جدول زيـر تفـسيرمي شود (13).
تفسير مربوطه مقدار عددي
ضريب سايه نما
ساختار خوشه اي بسيار مناسبي تشكيل شده است 0/71-1
ساختار خوشه اي معقولي تشكيل شده است. 0/51-0/70
ساختار خوشهاي ضعيف اسـت و توصـيه مـيشـود از الگـوريتمديگري استفاده شود. 0/26-0/50
اصولاً يافتن ساختار مناسب براي اين داده ها مشكل ميباشد. 0-0/25
در اين تحقيق دادههاي بيان ژني پس از پيشپردازش اوليه بـاروش خوشه بندي فازي، خوشهبنـدي گرديـد و بـراي ارزيـابيخوشه بندي از مقادير و نمودار سايه نما استفاده شد.

يافته ها
روش خوشه بندي فازي در مورد وضعيتهـاي مبهمـي كـه درداده ها رخ مي دهد يعني حالتي كه خوشـه هـا از طريـق وجـودعنصرهايي كه از لحاظ تعلق به خوشـه هـاي مختلـف در يـكوضعيت بينابيني قرار ميگيرند و حالت همپوشي در آنها ايجادمي شود، كاربرد دارد. خوشه بنـدي فـازي را ابتـدا بـا 2 خوشـهشروع كرديم، سپس ضريب عضويت هر يك از نمونه ها بـه هـرخوشه محاسبه گرديد. بر اساس اين كـه ضـرايب عـضويت دركدام خوشـه بيـشتر باشـد مـي تـوان نمونـه را بـه آن خوشـهاختصاص داد، نتايج اين اختصاص در جدول 1 آمده است.
براي بيان ميزان تفاوت يك راه حل فازي از خوشه بندي قطعياز ضـريب افـراز دان اسـتفاده كـرديم كـه مقـدار آن 874 و/0 شاخص غيرفازي 748/0 به دست آمد.

-67055-115979

سايه مقادير نما خوشهنزديكترين ضرايب عضويت نوع لوسمي نموخوشه 2 خوشه 1نه460/0 1 273/0 727/0ALL B-cell 1
ALL B-cell 0/4510/54920/041
ALL B-cell 0/7880/21210/458
ALL B-cell 0/7820/21810/432
ALL B-cell 0/9010/09910/414
6ALL B-cell 0/5090/49110/395 7ALL B-cell 0/8820/11810/384 9ALL B-cell 0/8990/10110/339 10ALL B-cell 0/8750/12510/324
8ALL B-cell 0/7850/21510/345
ALL B-cell 0/9190/08110/310
ALL B-cell 0/8160/18410/309
ALL B-cell 0/7380/26210/291
ALL B-cell 0/808 0/192 1 0/271 15 ALL B-cell 0/825 0/175 1 0/267
16ALL B-cell 0/8970/10310/253 17ALL T-cell 0/4350/56520/021
ALL B-cell 0/5280/47210/220
ALL B-cell 0/6180/38210/128
ALL B-cell 0/731 0/269 1 0/108 21 AML 0/178 0/822 2 0/358 22 AML 0/165 0/835 2 0/331
AML 0/1340/86620/329
AML 0/1210/87920/314
AML 0/2580/74220/286
26AML 0/1380/86220/286 27AML 0/1360/86420/265
-76199862711108
0
/
نمودار
1
نمونه

خوشه
در

بـا

108

0

/

نمودار

1

نمونه

خوشه

در

بـا



قیمت: تومان

دسته بندی : پزشکی

دیدگاهتان را بنویسید