أقرب جيران K (KNN): ما هو وكيف يتم استخدامه في التعلم الآلي

نشرت: 2024-12-18

يعد أقرب جيران K (KNN) تقنية أساسية في التعلم الآلي (ML). سيساعدك هذا الدليل على فهم KNN وكيفية عملها وتطبيقاتها وفوائدها وتحدياتها.

جدول المحتويات

ما هي خوارزمية الجيران الأقرب إلى k؟

كيف تعمل كي إن إن؟

الفرق بين أقرب جيران k والخوارزميات الأخرى

كيف يتم استخدام KNN في التعلم الآلي؟

تطبيقات KNN

مميزات شركة كي إن إن

عيوب KNN

ما هي خوارزمية الجيران الأقرب إلى k؟

خوارزمية الجيران الأقرب (KNN) هي تقنية تعلم خاضعة للإشراف تستخدم لكل من التصنيف والانحدار. تحدد KNN التسمية (التصنيف) أو القيمة المتوقعة (الانحدار) لنقطة بيانات معينة عن طريق تقييم نقاط البيانات القريبة في مجموعة البيانات.

اعمل بشكل أكثر ذكاءً مع Grammarly
شريك الكتابة بالذكاء الاصطناعي لأي شخص لديه عمل للقيام به

كيف تعمل كي إن إن؟

تعتمد KNN على فرضية مفادها أن نقاط البيانات القريبة مكانيًا من بعضها البعض في مجموعة البيانات تميل إلى أن تكون لها قيم مماثلة أو تنتمي إلى فئات مماثلة. تستخدم KNN هذه الفكرة البسيطة والقوية لتصنيف نقطة بيانات جديدة من خلال العثور على رقم محدد مسبقًا (المعلمة الفائقة k) لنقاط البيانات المجاورة ضمن مجموعة بيانات التدريب المسماة. هذه القيمة، k، هي إحدى معلمات KNN الفائقة، وهي متغيرات تكوين محددة مسبقًا يستخدمها ممارسو تعلم الآلة للتحكم في كيفية تعلم الخوارزمية.

بعد ذلك، تحدد الخوارزمية أي من القيم المجاورة هي الأقرب إلى نقطة البيانات الجديدة، وتعين لها نفس التسمية أو الفئة مثل جيرانها. تؤثر القيمة المختارة لـ k على أداء النموذج. تزيد القيم الأصغر من حساسية الضوضاء، بينما تزيد القيم الأكبر من المتانة ولكنها قد تتسبب في فقدان KNN للأنماط المحلية.

يتم حساب التقارب أو المسافة بين نقاط البيانات باستخدام المقاييس التي تم تطويرها في الأصل لقياس تشابه النقاط في الفضاء الرياضي. تشمل المقاييس الشائعة المسافة الإقليدية ومسافة مانهاتن ومسافة مينكوفسكي. يتأثر أداء KNN بالمقياس المختار، وتعمل المقاييس المختلفة بشكل أفضل مع أنواع وأحجام مختلفة من البيانات.

على سبيل المثال، يمكن أن يؤثر عدد الأبعاد في البيانات، وهي سمات فردية تصف كل نقطة بيانات، على أداء المقياس. بغض النظر عن مقياس المسافة المختار، فإن الهدف هو تصنيف نقطة بيانات جديدة أو التنبؤ بها بناءً على المسافة التي تفصلها عن نقاط البيانات الأخرى.

  • المسافة الإقليديةهي المسافة على طول خط مستقيم بين نقطتين في الفضاء وهي المقياس الأكثر استخدامًا. من الأفضل استخدامه للبيانات التي تحتوي على عدد أقل من الأبعاد ولا تحتوي على قيم متطرفة مهمة.
  • مسافة مانهاتنهي مجموع الاختلافات المطلقة بين إحداثيات نقاط البيانات التي يتم قياسها. يكون هذا المقياس مفيدًا عندما تكون البيانات عالية الأبعاد أو عندما تشكل نقاط البيانات بنية تشبه الشبكة.
  • مسافة مينكوفسكيهي مقياس قابل للضبط يمكن أن يعمل مثل المسافة الإقليدية أو مسافة مانهاتن اعتمادًا على قيمة المعلمة القابلة للتعديل. يتحكم ضبط هذه المعلمة في كيفية حساب المسافة، وهو أمر مفيد لتكييف KNN مع أنواع مختلفة من البيانات.

تشمل المقاييس الأخرى الأقل شيوعًا مسافات تشيبيشيف وهامينج وماهالانوبي. تعتبر هذه المقاييس أكثر تخصصًا، وهي مناسبة لأنواع وتوزيعات معينة من البيانات. على سبيل المثال، تقيس مسافة المهالانوبيس مسافة النقطة من توزيع النقاط، مع مراعاة العلاقات بين المتغيرات. على هذا النحو، تعد مسافة Mahalanobis مناسبة تمامًا للعمل مع البيانات حيث تستخدم الميزات مقاييس مختلفة.

غالبًا ما يطلق على KNN اسم خوارزمية التعلم "الكسولة" لأنها لا تحتاج إلى تدريب، على عكس العديد من الخوارزميات الأخرى. بدلاً من ذلك، تقوم KNN بتخزين البيانات واستخدامها لاتخاذ القرارات فقط عندما تحتاج نقاط البيانات الجديدة إلى الانحدار أو التصنيف. ومع ذلك، هذا يعني أن التنبؤات غالبًا ما تتطلب متطلبات حسابية عالية حيث يتم تقييم مجموعة البيانات بأكملها لكل توقع. ∫

الفرق بين أقرب جيران k والخوارزميات الأخرى

تعد KNN جزءًا من عائلة أكبر من تقنيات تعلم الآلة الخاضعة للإشراف والموجهة نحو التصنيف والانحدار، والتي تتضمن أشجار القرار / الغابات العشوائية، والانحدار اللوجستي، وأجهزة ناقل الدعم (SVMs). ومع ذلك، تختلف KNN عن هذه التقنيات بسبب بساطتها ونهجها المباشر في التعامل مع البيانات، من بين عوامل أخرى.

أشجار القرار والغابات العشوائية

مثل KNN، يتم استخدام أشجار القرار والغابات العشوائية للتصنيف والانحدار. ومع ذلك، تستخدم هذه الخوارزميات قواعد واضحة تم تعلمها من البيانات أثناء التدريب، على عكس نهج KNN القائم على المسافة. تميل أشجار القرار والغابات العشوائية إلى الحصول على سرعات تنبؤ أسرع لأنها تحتوي على قواعد مدربة مسبقًا. وهذا يعني أنها أكثر ملاءمة من KNN لمهام التنبؤ في الوقت الفعلي والتعامل مع مجموعات البيانات الكبيرة.

الانحدار اللوجستي

يفترض الانحدار اللوجستي أن البيانات يتم توزيعها خطيًا ويصنف البيانات باستخدام خط مستقيم أو مستوى فائق (حدود تفصل بين نقاط البيانات في مسافات ذات أبعاد أعلى) لفصل البيانات إلى فئات. من ناحية أخرى، لا تفترض KNN توزيعًا معينًا للبيانات. على هذا النحو، يمكن لـ KNN التكيف بسهولة أكبر مع البيانات المعقدة أو غير الخطية، في حين من الأفضل استخدام الانحدار اللوجستي مع البيانات الخطية.

دعم آلات المتجهات

بدلاً من النظر إلى المسافات بين نقاط مثل KNN، تركز أجهزة ناقل الدعم (SVM) على إنشاء خط فاصل واضح بين مجموعات نقاط البيانات، غالبًا بهدف جعل الفجوة بينها واسعة قدر الإمكان. يعد SVM رائعًا في التعامل مع مجموعات البيانات المعقدة ذات الميزات العديدة أو عندما يكون الفصل الواضح بين مجموعات نقاط البيانات ضروريًا. بالمقارنة، فإن KNN أسهل في الاستخدام والفهم ولكنها لا تعمل بشكل جيد على مجموعات البيانات الكبيرة.

كيف يتم استخدام KNN في التعلم الآلي؟

يمكن للعديد من خوارزميات ML التعامل مع نوع واحد فقط من المهام. تتميز KNN بقدرتها على التعامل مع حالتين من حالات الاستخدام الشائعة: التصنيف والانحدار.

تصنيف

تقوم KNN بتصنيف نقاط البيانات باستخدام مقياس المسافة لتحديد أقرب جيران k وتعيين تسمية لنقطة البيانات الجديدة بناءً على تسميات الجيران. تتضمن حالات استخدام تصنيف KNN الشائعة تصنيف البريد الإلكتروني العشوائي، وتجميع العملاء في فئات بناءً على سجل الشراء، والتعرف على الأرقام المكتوبة بخط اليد.

الانحدار

تقوم KNN بإجراء الانحدار من خلال تقدير قيمة نقطة البيانات بناءً على المتوسط ​​(أو المتوسط ​​المرجح) لأقرب جيرانها. على سبيل المثال، يمكن لـ KNN التنبؤ بأسعار المنازل بناءً على خصائص مماثلة في الحي، أو أسعار الأسهم بناءً على البيانات التاريخية للأسهم المماثلة، أو درجة الحرارة بناءً على بيانات الطقس التاريخية في مواقع مماثلة.

تطبيقات خوارزمية KNN في ML

نظرًا لبساطتها النسبية وقدرتها على أداء كل من التصنيف والانحدار، فإن KNN لديها مجموعة واسعة من التطبيقات. وتشمل هذه التعرف على الصور، وأنظمة التوصية، وتصنيف النص.

التعرف على الصور

يعد التعرف على الصور أحد أكثر تطبيقات KNN شيوعًا نظرًا لقدراته التصنيفية. تقوم KNN بالتعرف على الصور من خلال مقارنة الميزات الموجودة في الصورة غير المعروفة، مثل الألوان والأشكال، بالميزات الموجودة في مجموعة بيانات الصور ذات العلامات. وهذا يجعل KNN مفيدًا في مجالات مثل رؤية الكمبيوتر.

أنظمة التوصية

يمكن لـ KNN التوصية بمنتجات أو محتوى للمستخدمين من خلال مقارنة بيانات تفضيلاتهم ببيانات المستخدمين المماثلين. على سبيل المثال، إذا استمع المستخدم إلى العديد من أغاني الجاز الكلاسيكية، فيمكن لـ KNN العثور على مستخدمين لديهم تفضيلات مماثلة والتوصية بالأغاني التي استمتع بها هؤلاء المستخدمون. وعلى هذا النحو، يمكن لـ KNN المساعدة في تخصيص تجربة المستخدم من خلال التوصية بالمنتجات أو المحتوى بناءً على بيانات مماثلة.

تصنيف النص

يسعى تصنيف النص إلى تصنيف النص غير المصنف بناءً على تشابهه مع النص المصنف مسبقًا. إن قدرة KNN على تقييم مدى تقارب أنماط الكلمات تجعلها أداة فعالة لحالة الاستخدام هذه. يعد تصنيف النص مفيدًا بشكل خاص لمهام مثل تحليل المشاعر، حيث يتم تصنيف النصوص على أنها إيجابية أو سلبية أو محايدة، أو تحديد فئة مقال إخباري.

مزايا خوارزمية KNN في ML

تتمتع KNN بالعديد من المزايا الملحوظة، بما في ذلك بساطتها وتعدد استخداماتها وعدم وجود مرحلة تدريب.

بساطة

بالمقارنة مع العديد من خوارزميات ML الأخرى، فإن KNN سهلة الفهم والاستخدام. المنطق وراء KNN بديهي - فهو يصنف أو يتنبأ (الانحدار) بنقاط بيانات جديدة بناءً على قيم نقاط البيانات القريبة - مما يجعله خيارًا شائعًا لممارسي تعلم الآلة، وخاصة المبتدئين. بالإضافة إلى ذلك، بخلاف اختيار قيمة k، يلزم ضبط الحد الأدنى من المعلمة الفائقة لاستخدام KNN.

براعة

يمكن استخدام KNN لكل من مهام التصنيف والانحدار، مما يعني أنه يمكن تطبيقه على مجموعة كبيرة من المشكلات وأنواع البيانات، بدءًا من التعرف على الصور وحتى التنبؤ بالقيمة العددية. على عكس الخوارزميات المتخصصة التي تقتصر على نوع واحد من المهام، يمكن تطبيق KNN على أي مجموعة بيانات مصنفة منظمة بشكل مناسب.

مرحلة التدريب الصريحة

تتطلب العديد من نماذج تعلم الآلة مرحلة تدريب مكثفة الوقت والموارد قبل أن تصبح مفيدة. من ناحية أخرى، تقوم KNN ببساطة بتخزين بيانات التدريب واستخدامها مباشرة في وقت التنبؤ. على هذا النحو، يمكن تحديث KNN ببيانات جديدة، والتي تكون متاحة على الفور للاستخدام في التنبؤ. وهذا يجعل KNN جذابًا بشكل خاص لمجموعات البيانات الصغيرة.

عيوب خوارزمية KNN في ML

على الرغم من نقاط قوتها، تواجه KNN أيضًا العديد من التحديات. وتشمل هذه التكاليف المرتفعة للحسابات والذاكرة، والحساسية للضوضاء والميزات غير ذات الصلة، و"لعنة الأبعاد".

التكلفة الحسابية للتنبؤ

نظرًا لأن KNN تحسب المسافة بين نقطة بيانات جديدة وكل نقطة بيانات في مجموعة بيانات التدريب الشاملة الخاصة بها في كل مرة تقوم فيها بالتنبؤ، فإن التكلفة الحسابية للتنبؤ تزداد بسرعة مع نمو مجموعة البيانات. يمكن أن يؤدي ذلك إلى تنبؤات بطيئة عندما تكون مجموعة البيانات كبيرة، أو يتم تشغيل KNN على أجهزة غير كافية.

لعنة الأبعاد

تعاني KNN مما يسمى بـ "لعنة الأبعاد"، والتي تحد من قدرتها على التعامل مع البيانات عالية الأبعاد. مع زيادة عدد المعالم في مجموعة البيانات، تصبح معظم نقاط البيانات متفرقة وعلى مسافة متساوية تقريبًا من بعضها البعض. على هذا النحو، تصبح مقاييس المسافة أقل فائدة، مما يجعل من الصعب على KNN العثور على الجيران في مجموعات البيانات عالية الأبعاد القريبة حقًا.

الذاكرة مكثفة

الميزة الفريدة لـ KNN هي أنها تقوم بتخزين مجموعة بيانات التدريب بأكملها في الذاكرة لاستخدامها في وقت التنبؤ. عند التعامل مع ذاكرة محدودة أو مجموعات بيانات كبيرة، قد يكون ذلك مشكلة وغير عملي. تتجنب خوارزميات تعلم الآلة الأخرى هذا التحدي من خلال تكثيف وتقطير بيانات التدريب إلى ميزات تم تعلمها من خلال التدريب النموذجي وتحسين المعلمات. من ناحية أخرى، يجب أن تحتفظ KNN بكل نقطة بيانات، مما يعني أن الذاكرة تنمو بشكل خطي مع حجم مجموعة بيانات التدريب.

الحساسية للضوضاء والميزات غير ذات الصلة

تكمن قوة KNN في حساب المسافة البسيط والبديهي. ومع ذلك، فهذا يعني أيضًا أن الميزات غير المهمة أو الضوضاء يمكن أن تسبب حسابات مسافة مضللة، مما يؤثر سلبًا على دقة التنبؤ. على هذا النحو، غالبًا ما يتم استخدام تقنيات اختيار الميزات أو تقليل الأبعاد، مثل تحليل المكونات الرئيسية (PCA)، مع KNN للتأكد من أن الميزات المهمة لها التأثير الأكبر على التنبؤ.