التجميع في التعلم الآلي: ما هو وكيف يعمل
نشرت: 2025-02-03Clustering هي أداة قوية في تحليل البيانات والتعلم الآلي (ML) ، مما يوفر وسيلة للكشف عن الأنماط والرؤى في البيانات الأولية. يستكشف هذا الدليل كيفية عمل التجميع ، والخوارزميات التي تدفعها ، وتطبيقاتها المتنوعة في العالم الحقيقي ، ومزاياه وتحدياتها الرئيسية.
جدول المحتويات
- ما هو التجميع في التعلم الآلي؟
- كيف تعمل التجميع؟
- خوارزميات التجميع
- تطبيقات العالم الحقيقي للتجميع
- مزايا التجميع
- التحديات في التجميع
ما هو التجميع في التعلم الآلي؟
التجميع هي تقنية تعليمية غير خاضعة للرقابة تستخدم في ML لتجميع نقاط البيانات في مجموعات بناءً على أوجه التشابه. تحتوي كل مجموعة على نقاط بيانات تشبه بعضها البعض أكثر من النقاط في مجموعات أخرى. تساعد هذه العملية في اكتشاف المجموعات أو الأنماط الطبيعية في البيانات دون الحاجة إلى أي معرفة أو ملصقات مسبقة.
التجميع في التعلم الآلي
على سبيل المثال ، تخيل أن لديك مجموعة من صور الحيوانات ، وبعض القطط وغيرها من الكلاب. من شأن خوارزمية التجميع تحليل ميزات كل صورة - مثل الأشكال أو الألوان أو القوام - وتجميع صور القطط معًا في مجموعة واحدة وصور الكلاب في أخرى. الأهم من ذلك ، أن التجميع لا يعين ملصقات صريحة مثل "القط" أو "الكلب" (لأن أساليب التجميع لا تفهم فعليًا ما هو الكلب أو القطة). إنه يحدد ببساطة المجموعات ، ويتركها لك لتفسير هذه المجموعات وتسمية تلك المجموعات.
التجميع مقابل التصنيف: ما الفرق؟
غالبًا ما تتم مقارنة التجميع والتصنيف ولكن يخدم أغراض مختلفة. تعمل التجميع ، وهي طريقة تعليمية غير خاضعة للإشراف ، مع بيانات غير مخصصة لتحديد المجموعات الطبيعية بناءً على أوجه التشابه. في المقابل ، فإن التصنيف هو طريقة تعليمية خاضعة للإشراف تتطلب البيانات المسمى للتنبؤ فئات محددة.
تكشف المجموعات عن أنماط ومجموعات بدون ملصقات محددة مسبقًا ، مما يجعلها مثالية للاستكشاف. التصنيف ، من ناحية أخرى ، يعين ملصقات صريحة ، مثل "Cat" أو "Dog" ، إلى نقاط بيانات جديدة بناءً على التدريب المسبق. تم ذكر التصنيف هنا لتسليط الضوء على تمييزه عن التجميع والمساعدة في توضيح وقت استخدام كل نهج.
كيف تعمل التجميع؟
تحدد المجموعات مجموعات (أو مجموعات) من نقاط بيانات مماثلة داخل مجموعة البيانات ، مما يساعد على اكتشاف الأنماط أو العلاقات. في حين أن الخوارزميات المحددة قد تقترب من التجميع بشكل مختلف ، فإن العملية تتبع بشكل عام هذه الخطوات الرئيسية:
الخطوة 1: فهم تشابه البيانات
في قلب التجميع توجد خوارزمية تشابه تقيس مدى نقاط البيانات المماثلة. تختلف خوارزميات التشابه بناءً على مقاييس المسافة التي يستخدمونها لقياس تشابه نقطة البيانات. فيما يلي بعض الأمثلة:
- البيانات الجغرافية:قد يعتمد التشابه على المسافة المادية ، مثل قرب المدن أو المواقع.
- بيانات العميل:يمكن أن يتضمن التشابه تفضيلات مشتركة ، مثل عادات الإنفاق أو تاريخ الشراء.
تشمل مقاييس المسافة الشائعة المسافة الإقليدية (المسافة المستقيمة بين النقاط) ومسافة مانهاتن (طول المسار القائم على الشبكة). تساعد هذه التدابير في تحديد النقاط التي يجب تجميعها.
الخطوة 2: تجميع نقاط البيانات
بمجرد قياس أوجه التشابه ، تنظم الخوارزمية البيانات في مجموعات. هذا ينطوي على مهمتين رئيسيتين:
- تحديد المجموعات:تجد الخوارزمية مجموعات من خلال تجميع نقاط البيانات القريبة أو ذات الصلة. من المحتمل أن تنتمي النقاط التي تقترب معًا في مساحة الميزة إلى نفس المجموعة.
- تكرير المجموعات:تقوم الخوارزمية بضبط المجموعات بشكل تكراري لتحسين دقتها ، مما يضمن أن نقاط البيانات في المجموعة متشابهة قدر الإمكان مع زيادة الفصل بين المجموعات.
على سبيل المثال ، في مهمة تجزئة العملاء ، قد تقسم المجموعات الأولية العملاء بناءً على مستويات الإنفاق ، ولكن قد تكشف تحسينات مزيد من التحسينات عن المزيد من الأجزاء الدقيقة ، مثل "المتسوقين المتكررين" أو "المشترين الفاخرين".
الخطوة 3: اختيار عدد المجموعات
يعد تحديد عدد المجموعات التي يجب إنشاؤها جزءًا مهمًا من العملية:
- مجموعات محددة مسبقًا:تتطلب بعض الخوارزميات ، مثل K-Means ، تحديد عدد المجموعات في المقدمة. غالبًا ما يتضمن اختيار الرقم الصحيح التقنيات التجريبية والخطأ أو البصرية مثل "طريقة الكوع" ، والتي تحدد العدد الأمثل للمجموعات القائمة على تناقص العائدات في فصل الكتلة.
- التجميع التلقائي:تحدد الخوارزميات الأخرى ، مثل DBSCAN (التجميع المكاني القائم على الكثافة للتطبيقات مع الضوضاء) عدد المجموعات تلقائيًا بناءً على بنية البيانات ، مما يجعلها أكثر مرونة للمهام الاستكشافية.
غالبًا ما يعتمد اختيار طريقة التجميع على مجموعة البيانات والمشكلة التي تحاول حلها.
الخطوة 4: التجميع الصلب مقابل التجميع الناعم
تختلف أساليب التجميع في كيفية تعيين نقاط البيانات للمجموعات:
- التجميع الصلب:كل نقطة بيانات تنتمي حصريًا إلى مجموعة واحدة. على سبيل المثال ، قد يتم تقسيم بيانات العميل إلى قطاعات مميزة مثل "المنفقات المنخفضة" و "المنفقون العاليون" ، مع عدم التداخل بين المجموعات.
- التجميع الناعم:يمكن أن تنتمي نقاط البيانات إلى مجموعات متعددة ، مع احتمالات مخصصة لكل منها. على سبيل المثال ، قد ينتمي العميل الذي يتسوق عبر الإنترنت والمتجر بشكل جزئي إلى كلا المجموعتين ، مما يعكس نمط سلوك مختلط.
تقوم خوارزميات التجميع بتحويل البيانات الأولية إلى مجموعات ذات معنى ، مما يساعد على اكتشاف الهياكل المخفية وتمكين رؤى في مجموعات البيانات المعقدة. في حين أن التفاصيل الدقيقة تختلف باختلاف الخوارزمية ، فإن هذه العملية الشاملة هي مفتاح فهم كيفية عمل التجميع.
خوارزميات التجميع
نقاط بيانات مجموعة خوارزميات التجميع بناءً على أوجه تشابهها ، مما يساعد على الكشف عن الأنماط في البيانات. الأنواع الأكثر شيوعًا من خوارزميات التجميع هي التجميع القائم على النقطات المركزية ، والتسلسل الهرمي ، والقائمة على الكثافة ، والقائمة على التوزيع. كل طريقة لها نقاط قوتها وهي مناسبة لأنواع محددة من البيانات والأهداف. فيما يلي نظرة عامة على كل نهج:

التجميع القائم على النقطه الوسطى
تعتمد التجميع المستندة إلى النقطه الوسطى على مركز تمثيلي ، يسمى Centroid ، لكل مجموعة. الهدف من ذلك هو تجميع نقاط البيانات القريبة من النقط الوسطى الخاصة بهم مع ضمان أن تكون النطاقات النطبية متباعدة قدر الإمكان. مثال معروف هو تجميع K-means ، والذي يبدأ بوضع النقطات النقطية بشكل عشوائي في البيانات. يتم تعيين نقاط البيانات إلى أقرب Centroid ، ويتم تعديل النقط الوسطى على متوسط موضع النقاط المخصصة لها. تتكرر هذه العملية حتى لا تتحرك النطاقات الوسطى كثيرًا. K-Means فعالة وتعمل بشكل جيد عندما تعرف عدد المجموعات التي يمكن توقعها ، ولكن يمكن أن تكافح مع بيانات معقدة أو صاخبة.
التجميع الهرمي
التجميع الهرمي يبني بنية ثلاثية من المجموعات. في الطريقة الأكثر شيوعًا ، التجميع التكتل ، تبدأ كل نقطة بيانات بمجموعة نقطة واحدة. يتم دمج مجموعات الأقرب إلى بعضها البعض بشكل متكرر حتى تبقى مجموعة كبيرة واحدة فقط. يتم تصور هذه العملية باستخدام dendrogram ، وهو مخطط شجرة يوضح خطوات الدمج. من خلال اختيار مستوى معين من dendrogram ، يمكنك تحديد عدد المجموعات التي يجب إنشاؤها. التجميع الهرمي بديهي ولا يتطلب تحديد عدد المجموعات في المقدمة ، ولكن يمكن أن يكون بطيئًا لمجموعات البيانات الكبيرة.
التجميع القائم على الكثافة
تركز التجميع القائم على الكثافة على إيجاد مناطق كثيفة من نقاط البيانات مع التعامل مع المناطق المتفرقة كضوضاء. DBSCAN هي طريقة تستخدم على نطاق واسع تحدد المجموعات بناءً على معلمتين: Epsilon (أقصى مسافة للنقاط التي تعتبر جيرانًا) و Min_points (الحد الأدنى لعدد النقاط اللازمة لتشكيل منطقة كثيفة). لا تتطلب DBSCAN تحديد عدد المجموعات مقدمًا ، مما يجعلها مرنة. إنه يؤدي بشكل جيد مع البيانات الصاخبة. ومع ذلك ، إذا لم يتم اختيار قيمتي المعلمة بعناية ، فقد تكون المجموعات الناتجة بلا معنى.
التجميع القائم على التوزيع
يفترض التجميع القائم على التوزيع أن البيانات يتم إنشاؤها من الأنماط المتداخلة الموصوفة بتوزيعات الاحتمالات. تعد نماذج الخليط الغوسي (GMM) ، حيث يتم تمثيل كل مجموعة بتوزيع غاوسي (على شكل جرس) ، نهجًا شائعًا. تحسب الخوارزمية احتمال حدوث كل نقطة تنتمي إلى كل توزيع وضبط المجموعات لتناسب البيانات بشكل أفضل. على عكس طرق التجميع الصلبة ، يسمح GMM بالتجميع الناعم ، مما يعني أن النقطة يمكن أن تنتمي إلى مجموعات متعددة ذات احتمالات مختلفة. هذا يجعلها مثالية للبيانات المتداخلة ولكنها تتطلب ضبطًا دقيقًا.
تطبيقات العالم الحقيقي للتجميع
التجميع هي أداة متعددة الاستخدامات تستخدم عبر العديد من المجالات للكشف عن الأنماط والرؤى في البيانات. فيما يلي بعض الأمثلة:
توصيات الموسيقى
يمكن أن تجمع المجموعات مستخدمين بناءً على تفضيلات الموسيقى الخاصة بهم. من خلال تحويل الفنانين المفضلين للمستخدم إلى بيانات عددية ومستخدمي التجميع بأذواق مماثلة ، يمكن أن تحدد منصات الموسيقى مجموعات مثل "عشاق البوب" أو "عشاق الجاز". يمكن تصميم التوصيات داخل هذه المجموعات ، مثل اقتراح أغاني من قائمة تشغيل User A إلى المستخدم B إذا كانت تنتمي إلى نفس المجموعة. يمتد هذا النهج إلى الصناعات الأخرى ، مثل الموضة أو الأفلام أو السيارات ، حيث يمكن لتفضيلات المستهلك أن تقود توصيات.
اكتشاف الشذوذ
التجميع فعال للغاية لتحديد نقاط البيانات غير العادية. من خلال تحليل مجموعات البيانات ، يمكن لخوارزميات مثل DBSCAN عزل النقاط البعيدة عن غيرها أو تصنيفها بشكل صريح على أنها ضوضاء. غالبًا ما تشير هذه الحالات الشاذة إلى قضايا مثل البريد العشوائي أو معاملات بطاقة الائتمان الاحتيالية أو تهديدات الأمن السيبراني. توفر التجميع طريقة سريعة لتحديد هذه القيم المتطرفة والتصرف فيها ، مما يضمن الكفاءة في الحقول التي يمكن أن يكون لها حالات شاذة آثار خطيرة.
تجزئة العملاء
تستخدم الشركات التجميع لتحليل بيانات العميل وتقسيم جمهورها إلى مجموعات مميزة. على سبيل المثال ، قد تكشف المجموعات عن "المشترين الشباب الذين يقومون بشراء متكررة ومتكررة القيمة" مقابل "المشترين الأكبر سناً الذين يقومون بمشتريات أقل من القيمة العالية". تمكن هذه الأفكار الشركات من صياغة استراتيجيات التسويق المستهدفة وتخصيص عروض المنتجات وتحسين تخصيص الموارد لتحسين المشاركة والربحية.
تجزئة الصور
في تحليل الصور ، مجموعات التجميع مناطق Pixel مماثلة ، تجزئة صورة إلى كائنات متميزة. في الرعاية الصحية ، يتم استخدام هذه التقنية لتحديد الأورام في عمليات المسح الطبية مثل التصوير بالرنين المغناطيسي. في المركبات المستقلة ، يساعد التجميع في التمييز بين المشاة والمركبات والمباني في الصور المدخلات ، وتحسين التنقل والسلامة.
مزايا التجميع
التجميع هو أداة أساسية ومتعددة الاستخدامات في تحليل البيانات. إنها ذات قيمة خاصة لأنها لا تتطلب بيانات مسمولة ويمكنها اكتشاف الأنماط بسرعة داخل مجموعات البيانات.
قابلة للتطوير للغاية وفعالة
واحدة من الفوائد الأساسية للتجميع هي قوتها كأسلوب تعليمي غير خاضع للإشراف. على عكس الأساليب الخاضعة للإشراف ، لا يتطلب التجميع بيانات مسمولة ، والتي غالبًا ما تكون الجانب الأكثر استهلاكًا للوقت ومكلفة لـ ML. تتيح التجميع للمحللين العمل مباشرة مع البيانات الأولية وتجاوز الحاجة إلى الملصقات.
بالإضافة إلى ذلك ، تكون طرق التجميع فعالة من الناحية الحسابية وقابلة للتطوير. الخوارزميات مثل K-Means فعالة بشكل خاص ويمكنها التعامل مع مجموعات البيانات الكبيرة. ومع ذلك ، فإن K-Means محدودة: فهي أحيانًا غير مرنة وحساسة للضوضاء. تعد الخوارزميات مثل DBSCAN أكثر قوة للضوضاء وقادرة على تحديد مجموعات من الأشكال التعسفية ، على الرغم من أنها قد تكون أقل كفاءة من الناحية الحسابية.
المساعدات في استكشاف البيانات
غالبًا ما تكون التجميع هي الخطوة الأولى في تحليل البيانات ، حيث إنها تساعد في اكتشاف الهياكل والأنماط المخفية. من خلال تجميع نقاط بيانات مماثلة ، فإنه يكشف عن العلاقات ويسلط الضوء على القيم المتطرفة. يمكن لهذه الأفكار توجيه الفرق في تشكيل الفرضيات واتخاذ قرارات تعتمد على البيانات.
علاوة على ذلك ، فإن التجميع يبسط مجموعات البيانات المعقدة. يمكن استخدامه لتقليل أبعادها ، والتي تساعد في التصور ومزيد من التحليل. هذا يجعل من السهل استكشاف البيانات وتحديد رؤى قابلة للتنفيذ.
التحديات في التجميع
في حين أن التجميع هو أداة قوية ، نادراً ما يتم استخدامه في عزلة. غالبًا ما يجب استخدامه جنبًا إلى جنب مع خوارزميات أخرى لإجراء تنبؤات ذات مغزى أو استخلاص رؤى.
عدم قابلية التفسير
لا يمكن تفسير المجموعات التي تنتجها الخوارزميات بطبيعتها. يتطلب فهم سبب وجود نقاط بيانات محددة إلى مجموعة الفحص اليدوي. لا توفر خوارزميات التجميع الملصقات أو التفسيرات ، مما يترك المستخدمين لاستنتاج معنى وأهمية المجموعات. يمكن أن يكون هذا أمرًا صعبًا بشكل خاص عند العمل مع مجموعات بيانات كبيرة أو معقدة.
حساسية المعلمات
تعتمد نتائج التجميع بشكل كبير على اختيار معلمات الخوارزمية. على سبيل المثال ، فإن عدد المجموعات في K-Means أو Epsilon و Min_points في DBSCAN يؤثر بشكل كبير على الإخراج. غالبًا ما يتضمن تحديد قيم المعلمات المثلى تجربة مكثفة وقد تتطلب خبرة في المجال ، والتي يمكن أن تستغرق وقتًا طويلاً.
لعنة الأبعاد
تمثل البيانات عالية الأبعاد تحديات كبيرة لخوارزميات التجميع. في المساحات عالية الأبعاد ، تصبح مقاييس المسافة أقل فعالية ، حيث تميل نقاط البيانات إلى أن تظهر متساوية ، حتى عندما تكون متميزة. هذه الظاهرة ، المعروفة باسم "لعنة الأبعاد" ، تعقد مهمة تحديد أوجه التشابه ذات المغزى.
يمكن تقنيات تقليل الأبعاد ، مثل تحليل المكون الرئيسي (PCA) أو T-SNE (تضمين الجوار العشوائي الموزعة T) ، تخفيف هذه المشكلة عن طريق إسقاط البيانات في مساحات منخفضة الأبعاد. تتيح هذه التمثيلات المخفضة خوارزميات التجميع بأداء أكثر فعالية.