عندما ينظر الإنسان إلى صورةٍ ما، لا يتعامل دماغه معها على هيئة بكسلات منفصلة أو نقاط لونية متجاورة، بل يقوم فورًا بتفكيكها إلى أشكال وحواف ووجوه، ثم يربط ما يراه بالذاكرة والمعنى والعاطفة في لحظة شبه فورية. 

الرؤية البشرية عملية غنية بالسياق؛ صورة واحدة قد تثير ذكرى، أو شعورًا، أو قصة كاملة دون أي جهد واعٍ.

على النقيض من ذلك، لا “يرى” الذكاء الاصطناعي الصورة كما نراها نحن. 

أول ما يفعله هو تحويلها إلى شبكة ضخمة من الأرقام. 

ومع نماذج الرؤية الحديثة المعروفة باسم Vision Transformers، تُقسَّم الصورة إلى مربعات صغيرة جدًا تُسمّى patches، ويُحوَّل كل مربع منها إلى متجه رياضي يمثل خصائصه الرقمية.

بعد ذلك تبدأ مرحلة التحليل الحقيقي: تستخدم الشبكة آلية تُعرف بـ«الانتباه الذاتي»، حيث تُقارن كل جزء من الصورة بجميع الأجزاء الأخرى في الوقت نفسه. 

رياضيًا، تسأل الخوارزمية: أي الأجزاء أكثر أهمية؟ ما العلاقة بين السماء والطريق؟ بين الوجه والخلفية؟ بين الضوء والظل؟ الفهم هنا لا ينبع من المعنى، بل من العلاقات العددية والأنماط الإحصائية.

وعلى عكس الإنسان، لا يعرف الذكاء الاصطناعي أن هذه الصورة لقطة لأنه يحب القطط أو يعرف شكلها بالفطرة، بل لأنه تعلّم عبر ملايين الصور السابقة أن نمطًا معينًا من الأرقام غالبًا ما يُصنَّف على أنه «قطة».

 المعرفة هنا مكتسبة بالتكرار والاحتمال، لا بالتجربة الحسية أو الوعي.

الإنسان يرى الصورة كوحدة متكاملة منذ النظرة الأولى، بينما يبني الذكاء الاصطناعي فهمه خطوةً خطوة عبر علاقات رياضية معقدة.

 ولهذا قد يخطئ أحيانًا في أشياء بسيطة يميزها طفل بسهولة، لكنه في المقابل قادر على اكتشاف تفاصيل وأنماط دقيقة قد تعجز عنها العين البشرية.

وهنا يكمن الفرق الجوهري بين الرؤيتين:

الإنسان يرى الصورة بالمعنى والسياق،

أما الذكاء الاصطناعي فيراها بالبنية والاحتمال.