Robot Txt File Generate in Hindi

Robot txt File Generate In Hindi

Robot Txt File एक Small Text File होती है जो की Website या Blog के Server की Root Directory में Saved रहती है। इस File में Simple Syntax के रूप में Text की कुछ Lines होती हैं। Simple Syntax इस फ़ाइल को बनाने वाले के लिए भी आसान होता है और Web Crawler को भी आसानी से समझ आ जाता है। Robot Txt File सभी Search Engine के Spider/ Bot or Software को निर्देशित करती है कि किसी Particular Blog या Website के किस हिस्से को Crawl करना है, और किस हिस्से को Crawl नहीं करना है। यह File Live होती है जैसे आपका Domain doinhindi.com है तो आप अपनी File को www.doinhindi.com/Robots.txt URL के द्वारा Access कर सकते हैं।

Robot Txt File कैसे कार्य करती है/How Robot Txt File Work?

Search Engin से आप और हम सभी लोग भली-भाँति परिचित हैं। सभी Search Engines अपने Search Result show करने के लिए Web Bots /Spiders /Crawler का प्रयोग करती हैं। जो कि एक प्रकार के वेब Software हैं। ये Crawler सभी Websites/Blogs को Crawl करके Search Engine में Index कर लेते हैं। और जब कोई User सर्च करता है तो Indexed data में से Search Result Display कर देते हैं।

जब कोई सर्च Engine किसी Website को Index करता है तो सबसे पहले उसके Spider उस website कि Robot Txt File को visit करते हैं इस File से Direction प्राप्त करने के बाद उस Website को Access करते हैं और निर्देशानुसार allowed Content को Crawl करके Index कर लेते हैं। इस प्रकार Robot Txt File अपनी Text Command के According Web Spiders को website Content Crawl करने में मदद करती है, और Disallowed Command के द्वारा Unwanted Content को Crawl होने से बचाती है।

Robot Txt File नहीं हो तो क्या होगा?

यदि किसी Website या Blog की Root Directory में Robot Txt File नहीं है तो By Default Search Engine उस Website या Blog के सारे Content को Indexing के लिए Crawl करेगा। इससे संभावना रहती है कि हमारा Content Duplicate Content की श्रेणी में आ सकता है। जैसे Archived Content, Archive Content में Duplicate Content होता है जैसे की Weekly Archive और Monthly Archive में Same Content होता है । Robot Txt File नहीं होगी तो सारा Archive Content Crawl हो जायेगा जिससे आपको Duplicate Content की Penalty लग सकती है। इसके अलावा आपकी Site में Documents जैसे की Pdf  Files भी Crawl हो जायेंगे। इन सब से बचने के लिए आपकी Website में Robot Txt File का होना जरूरी है।

Robot Txt File के Derivatives (अवयव) या कमाण्ड

Simple Robot Txt File में मुख्यतया 2 Key Word होते हैं-

  1. User-agent : User Agent Search Engine Robots या Web Crawler को प्रदर्शित करता है। यह अकेले Google Bots को ही नहीं अपितू Globally सभी Search Engine Bots का प्रतिनिधित्व करता है। जैसे की Bing Bot etc.
  2. Disallow : यह सभी Search Engine के लिए Command है जो की किसी Particular Website या Blog के किसी हिस्से को Crawl नहीं करने का निर्देश देती है। और किसी Particular Search Engine Bot को भी Crawl नहीं करने का निर्देश देती है।

इसके अलावा मुख्यतया निम्न चीजें होती हैं-

  1. “*”  इसे User agent के साथ काम में लिया जाता है जिसका मतलब है सभी Web Spiders के लिए लागू। इसे Robot Txt wildcard भी कहते हैं।
  2. /” इसे Disallow Command के साथ काम में लिया जाता है जिसका मतलब है “All (सभी)”. और अच्छी तरह से नीचे Example में समझाया गया है।
  3. Allow”  यह Command किसी Particular Url or Directory को Crawl करने का निर्देश देती है जो की किसी Disallowed Directory के अन्दर है। यानि किसी Parent Directory जो की Crawl के लिए Disallow है की Child Directory को Crawling के लिए Allow करने के काम आती है।
  4. Robots.txt crawl-delay : इस Command का प्रयोग बड़ी Size की Websites द्वारा किया जाता है। जब भी New Content Available होता है तो सभी Search Bots एक साथ उस Site Content को Crawl करती हैं। तो एक साथ अधिक Request होने से Site का Server Overload हो जाता है। इससे बचने के लिए robots.txt crawl-delay command को काम में लिया जाता है। जिससे सभी bots एक साथ Crawl न करके निश्चित समय अंतराल से बारी-बारी site को Crawl करती हैं।

User-agent: *
Crawl-Delay: 30

उपर दी गई Command सभी Bots को निर्देश देती है की हर एक Crawl Request के बीच कम से कम 30 Second का अन्तर होना चाहिये।

Robot Txt File कैसे बनायें?

इस फ़ाइल को बनाना बहुत ही आसान है। इसके लिए आपको किसी एक Text Editor की आवश्यकता होती है। Universal रूप से सभी लोग Note Pad को Use करते हैं। तो अपना Note Pad Open करें और नीचे बताए अनुसार आपको जिस प्रकार की फ़ाइल चाहिये वैसी रोबोट टेक्स्ट फ़ाइल Generate करें-

Allow All Content for All Bots

यदि Website या Blog का All Content All Search Engine Bots के लिए Allow करना चाहते है तो

 

User-agent: *
Disallow:

Disallow All Content for All Bots

यदि Website या Blog का All Content All Search Engine Bots के लिए Disallow करना चाहते है तो-

User-agent: *
Disallow: /

Disallow All Content for a Particular Bot

User-agent: google bot
Disallow: /

Disallow Page for All Bots

User-agent: *
Disallow: /my-first-post.html

Disallow Page for Google Bot

User-agent: google bot
Disallow: /my-first-post.html

Disallow a Directory for All Bots

User-agent: *
Disallow: /search Disallow: /p

यहाँ पर “search” directory और Sub-Directory के अंदर जो भी Content है वह सभी Web Crawlers के लिए ब्लॉक हो जाएगा और search engine में index नहीं होगा। यदि Blogger पर आपका ब्लॉग है तो इस Rule से आपके Label Page भी Crawl नहीं हो पायेंगे क्योंकि Label Page Search Directory के अन्दर आते हैं।

Third Line के Rule के अनुसार “p” Directory और इसकी सभी Sub Directory भी Crawl नहीं हो पायेंगी। यानि आपके ब्लॉग के Static Page किसी भी बोट द्वारा Crawl नहीं किया जायेगा।

Leave a Reply

Your email address will not be published. Required fields are marked *