میں ایک مؤکل کے لئے ایک ویب سائٹ چلاتا ہوں جہاں وہ معلومات کا ایک بہت بڑا ڈیٹا بیس ڈسپلے کرتے ہیں جو وہ سالوں کے دوران درست اور آہستہ سے جمع ہوئے ہیں۔ وہ مختلف مقامات پر ویب میں اپنا ڈیٹا ڈھونڈ رہے ہیں۔ امکان سے کہیں زیادہ اس کی وجہ یہ ہے کہ کسی کھرچنے کا انکشاف صفحہ کے ذریعہ سائٹ کے صفحے پر جاتا ہے اور وہ معلومات اپنے اپنے ڈیٹا بیس میں حاصل کرتے ہیں۔ اور اگر آپ حیران ہیں تو ، وہ جانتے ہیں کہ ان کا ڈیٹا ان کی سائٹ پر ہر قسم کے اعداد و شمار کے ایک ہی ٹکڑے کی وجہ سے ہے۔
میں نے پچھلے کچھ دنوں میں اس پر بہت ساری تحقیق کی ہے ، اور میں آپ کو بتا سکتا ہوں کہ کامل پکڑنے والا کوئی حل نہیں ہے۔ تاہم ، اس کے حصول کے ل I میں نے بہت ساری چیزیں حاصل کیں ہیں۔ یہ میں نے مؤکل کے لئے نافذ کیا۔
ایجیکس شدہ صفحہ بندی شدہ ڈیٹا
اگر آپ کے پاس بہت سارے صفحات پر مشتمل ڈیٹا ہے ، اور آپ اپنے یو آر ایل کے اختتام پر محض ایک مختلف نمبر لگا کر اپنا ڈیٹا صفحہ بندی کررہے ہیں ، یعنی http://www.domain.com/category/programming/2 - تو آپ بنارہے ہیں کرالر کا کام اتنا آسان ہے۔ پہلا مسئلہ یہ ہے کہ ، یہ آسانی سے پہچانے جانے والے انداز میں ہے ، لہذا ان صفحات پر کھرچنی ڈھیلا لگانا پائی کی طرح آسان ہے۔ دوسرا مسئلہ ، قطع نظر اس کے بعد والے صفحات کے یو آر ایل سے قطع نظر ، اس سے کہیں زیادہ ممکن ہے کہ ان کے لئے اگلے اور پچھلے ربط ہوں۔
صفحہ کو دوبارہ لوڈ کے بغیر جاوا اسکرپٹ کے ذریعے صفحہ بند اعداد و شمار کو لوڈ کرنے سے ، یہ کام کو کافی حد تک کھرچنے والے کے ل significantly کام کو خاصی پیچیدہ بنا دیتا ہے۔ گوگل نے حال ہی میں صفحہ پر جاوا اسکرپٹ کو پارس کرنا شروع کیا ہے۔ اس طرح کے ڈیٹا کو دوبارہ لوڈ کرنے میں تھوڑا سا نقصان ہوتا ہے۔ آپ گوگل کو انڈیکس کے لئے کچھ کم صفحات مہیا کرتے ہیں ، لیکن ، تکنیکی طور پر ، صفحہ بندی شدہ اعداد و شمار کو ویسے بھی شبیہ سازی کے ذریعہ روٹ زمرے کے صفحے کی طرف اشارہ کرنا چاہئے۔ اپنے صفحے والے ڈیٹا کے صفحات کو اجاگر کریں۔
ٹیمپلیٹ آؤٹ پٹ کو بے ترتیب بنائیں
خاص طور پر آپ کے اعداد و شمار کے لئے کھرچنے والوں کو اکثر قدرے تخصیص کیا جائے گا۔ وہ عنوان کے ل a کسی مخصوص ID id یا کلاس ، آپ کی تفصیل کے لئے ہر صف میں تیسرا سیل وغیرہ باندھ لیں گے۔ زیادہ تر کھرچنے والوں کے لئے کام کرنے کے لئے ایک آسانی سے شناخت کرنے والا نمونہ ہے جس میں ایک ہی ٹیبل سے آنے والے زیادہ تر اعداد و شمار کے مطابق ، اسی ٹیمپلیٹ کے ذریعہ ظاہر ہوتا ہے۔ اپنے Div IDs اور کلاس کے ناموں کو بے ترتیب بنائیں ، 0 چوڑائی کے ساتھ بے ترتیب میں خالی ٹیبل کالم داخل کریں۔ اپنے ڈیٹا کو ایک صفحے پر ٹیبل میں ، اسٹائلڈ ڈیوز اور دوسرے ٹیمپلیٹ پر مرکب دکھائیں۔ پیش گوئی کے ساتھ اپنے اعداد و شمار کو پیش کرتے ہوئے ، اس کو پیش گوئی اور درست طریقے سے ختم کیا جاسکتا ہے۔
شہد کا برتن
یہ اس کی سادگی میں بہت صاف ہے. میں سائٹ سکریپنگ کو روکنے کے بارے میں متعدد صفحات پر اس طریقہ کار کو دیکھ چکا ہوں۔
- اپنے سرور پر ایک نئی فائل بنائیں جسے گیٹچا ایچ ٹی ایم ایل کہتے ہیں۔
- اپنی روبوٹ ڈاٹ ٹی ایس ٹی فائل میں ، درج ذیل کو شامل کریں:
صارف ایجنٹ: *
انکار کریں: /gotcha.html
یہ آپ کے روبوٹ اور مکڑیوں کو بتاتا ہے کہ آپ کی سائٹ کو انڈسٹری میں فائل گیٹچا ایچ ٹی ایم ایل کی فہرست نہیں بنائی جاسکتی ہے۔ کوئی بھی عام ویب کرالر آپ کی روبوٹ ڈاٹ ٹی ٹیکس فائل کی خواہشات کا احترام کرے گا اور اس فائل تک نہیں پہنچے گا۔ یعنی ، گوگل اور بنگ۔ آپ واقعی اس اقدام کو نافذ کرنا چاہتے ہیں ، اور اگلے مرحلے پر جانے سے پہلے 24 گھنٹے انتظار کریں۔ اس بات کو یقینی بنائے گا کہ جب آپ نے اپنی روبوٹ ڈاٹ ٹی ایس ٹی فائل کو اپ ڈیٹ کیا تھا تو اس وجہ سے کہ کرالر آپ کو غلطی سے بلاک نہیں کرپائے گا۔ - اپنی ویب سائٹ پر کہیں کہیں getcha.html کا لنک رکھیں۔ اس سے کوئی فرق نہیں پڑتا ہے کہاں۔ میں فوٹر میں سفارش کروں گا ، تاہم ، اس بات کو یقینی بنائے کہ یہ لنک دکھائی نہیں دے رہا ہے ، سی ایس ایس میں ، ڈسپلے: کوئی بھی نہیں۔
- اب ، اس پیریپ کی آئی پی / عمومی معلومات کو لاگ ان کریں جو اس صفحے کو ملاحظہ کریں اور انھیں مسدود کردیں۔ متبادل کے طور پر ، آپ ان کو غلط اور کوڑے دان کا ڈیٹا مہیا کرنے کے لئے اسکرپٹ لے کر آسکتے ہیں۔ یا ہوسکتا ہے کہ آپ کی طرف سے ان کا کوئی اچھا ذاتی پیغام۔
باقاعدہ ویب ناظرین لنک کو نہیں دیکھ پائیں گے ، لہذا یہ اتفاقی طور پر کلیک نہیں ہوگا۔ معروف کرالر (مثال کے طور پر گوگل) ، آپ کے روبوٹ ڈاٹ ٹی ٹی ایس کی خواہشات کا احترام کریں گے اور فائل کا دورہ نہیں کریں گے۔ لہذا ، صرف وہی کمپیوٹر جنہیں اس صفحے پر ٹھوکر لگانی چاہئے وہی ہیں جو بدنیتی پر مبنی ارادے رکھتے ہیں ، یا کوئی آپ کا ماخذ کوڈ دیکھ رہا ہے اور تصادفی طور پر ارد گرد کلک کر رہا ہے (اور اوہ ٹھیک ہے کہ ایسا ہوتا ہے)۔
اس کی متعدد وجوہات ہیں جو یہ ہمیشہ کام نہیں کرتی ہیں۔ پہلے ، بہت سارے کھرچنے والے عام ویب کرالرز کی طرح کام نہیں کرتے ہیں ، اور اپنی سائٹ کے ہر صفحے سے ہر لنک پر عمل کرکے اعداد و شمار کو دریافت نہیں کرتے ہیں۔ سکریپر اکثر مخصوص صفحات کو درست کرنے اور صرف کچھ خاص ڈھانچے کی پیروی کرنے کے لئے بنائے جاتے ہیں۔ مثال کے طور پر ، کسی کھرچنے والے کو زمرے کے صفحے پر شروع کیا جاسکتا ہے ، اور پھر صرف اس بات کو بتایا گیا ہے کہ سلاگ میں لفظ / ڈیٹا والے یو آر ایل دیکھیں۔ دوسرا ، اگر کوئی اپنا نیٹ ورک دوسروں کی طرح اسی نیٹ ورک پر چلا رہا ہے ، اور وہاں مشترکہ IP استعمال ہورہا ہے تو ، آپ کو پورے نیٹ ورک پر پابندی ہوگی۔ واقعی یہ مسئلہ بننے کے ل You آپ کے پاس واقعی ایک بہت ہی مقبول ویب سائٹ ہوگی۔
مکھی پر تصاویر پر ڈیٹا لکھیں
ضروری نہیں ہے کہ اعداد و شمار کا ایک چھوٹا سا فیلڈ تلاش کریں ، ضروری نہیں کہ لمبا لمبے لمبے تار اس کی وجہ سے صفحے کو اسٹائل کرنے میں قدرے مشکل ہوجائے۔ اس اعداد و شمار کو کسی شبیہہ کے اندر آؤٹ پٹ کریں ، میں کافی حد تک اعتماد محسوس کرتا ہوں کہ صرف ہر پروگرامنگ زبان میں ایسے طریقے موجود ہیں جو کسی شبیہہ کو تحریری طور پر تحریری طور پر لکھ سکتے ہیں (پی ایچ پی ، امیجٹ ٹیکٹ میں)۔ عددی اقدار کے ساتھ یہ غالبا. موثر ہے کیوں کہ اعدادوشمار بہت زیادہ اہم SEO فائدہ مہیا کرتے ہیں۔
متبادل
اس منصوبے کے لئے یہ آپشن نہیں تھا۔ صفحہ ویوز کی ایک مقررہ رقم کے بعد لاگ ان کی ضرورت ہے ، یا بغیر لاگ ان ہوئے اعداد و شمار کی ایک محدود مقدار کی نمائش کرنا۔ یعنی ، اگر آپ کے 10 کالم ہیں تو ، غیر لاگ ان صارفین کو صرف 5 ڈسپلے کریں۔
یہ غلطی نہ کریں
بوٹ کے صارف ایجنٹ کی بنیاد پر کسی قسم کے حل کے ساتھ آنے کی کوشش کرنے کی زحمت نہ کریں۔ یہ معلومات آسانی سے کسی کھردری کے ذریعہ دھوکہ دہی میں پڑسکتی ہے جو جانتا ہے کہ وہ کیا کررہے ہیں۔ مثال کے طور پر گوگل بوٹ آسانی سے نقالی ہوسکتا ہے۔ امکان ہے کہ آپ گوگل پر پابندی لگانا نہیں چاہتے ہیں۔
