როგორ დავაყენოთ Robots.txt სწორად?

Სარჩევი:

როგორ დავაყენოთ Robots.txt სწორად?
როგორ დავაყენოთ Robots.txt სწორად?
Anonim

სწორი Robots txt html საიტისთვის ქმნის მოქმედების მაკეტებს საძიებო სისტემის ბოტებისთვის და ეუბნება მათ, რისი შემოწმება შეუძლიათ. ამ ფაილს ხშირად მოიხსენიებენ, როგორც Robot Exclusion Protocol-ს. პირველი, რასაც ბოტები ეძებენ ვებსაიტის დათვალიერებამდე, არის robots.txt. მას შეუძლია მიუთითოს ან უთხრას საიტის რუკას, არ შეამოწმოს გარკვეული ქვედომენები. როდესაც გსურთ საძიებო სისტემებმა მოძებნონ ის, რაც ყველაზე ხშირად გვხვდება, მაშინ robots.txt არ არის საჭირო. ამ პროცესში ძალიან მნიშვნელოვანია, რომ ფაილი იყოს სწორად დაფორმატებული და არ მოხდეს მომხმარებლის გვერდის ინდექსირება მომხმარებლის პირადი მონაცემებით.

რობოტის სკანირების პრინციპი

რობოტის სკანირების პრინციპი
რობოტის სკანირების პრინციპი

როდესაც საძიებო სისტემა ხვდება ფაილს და ხედავს აკრძალულ URL-ს, ის არ იკვლევს მას, მაგრამ შეუძლია მისი ინდექსირება. ეს იმიტომ ხდება, რომ მაშინაც კი, თუ რობოტებს არ აქვთ უფლება ნახონ შინაარსი, მათ შეუძლიათ დაიმახსოვრონ აკრძალულ URL-ზე მითითებულ ბმულებს. ბმულზე დაბლოკილი წვდომის გამო, URL გამოჩნდება საძიებო სისტემებში, მაგრამ ფრაგმენტების გარეშე. Თუშემომავალი მარკეტინგული სტრატეგიისთვის საჭიროა სწორი Robots txt bitrix-ისთვის (Bitrix), ისინი უზრუნველყოფენ საიტის შემოწმებას მომხმარებლის მოთხოვნით სკანერებით.

მეორეს მხრივ, თუ ფაილი არასწორად არის ფორმატირებული, ამან შეიძლება გამოიწვიოს საიტი არ გამოჩნდეს ძიების შედეგებში და ვერ მოიძებნოს. საძიებო სისტემებს არ შეუძლიათ ამ ფაილის გვერდის ავლით. პროგრამისტს შეუძლია ნახოს ნებისმიერი საიტის robots.txt მის დომენზე გადასვლით და მის შემდეგ robots.txt-ით, მაგალითად, www.domain.com/robots.txt. ისეთი ხელსაწყოს გამოყენებით, როგორიცაა Unamo-ს SEO ოპტიმიზაციის განყოფილება, სადაც შეგიძლიათ შეიყვანოთ ნებისმიერი დომენი და სერვისი აჩვენებს ინფორმაციას ფაილის არსებობის შესახებ.

შეზღუდვები სკანირებისთვის:

  1. მომხმარებელს აქვს მოძველებული ან მგრძნობიარე კონტენტი.
  2. საიტზე არსებული სურათები არ შედის სურათების ძიების შედეგებში.
  3. საიტი ჯერ არ არის მზად რობოტის მიერ დემო ინდექსირებისთვის.

გაითვალისწინეთ, რომ ინფორმაცია, რომელსაც მომხმარებელს სურს მიიღოს საძიებო სისტემიდან, ხელმისაწვდომია ყველასთვის, ვინც შეიყვანს URL-ს. არ გამოიყენოთ ეს ტექსტური ფაილი მგრძნობიარე მონაცემების დასამალად. თუ დომენს აქვს 404 (არ მოიძებნა) ან 410 (გადავლილი) შეცდომა, საძიებო სისტემა ამოწმებს საიტს robots.txt-ის არსებობის მიუხედავად, ამ შემთხვევაში მიიჩნევს, რომ ფაილი აკლია. სხვა შეცდომები, როგორიცაა 500 (შიდა სერვერის შეცდომა), 403 (აკრძალულია), დრო ამოიწურა ან „არ მიუწვდომელია“ეხება robots.txt ინსტრუქციებს, თუმცა გვერდის ავლით შეიძლება გადაიდოს ფაილის ხელმისაწვდომობამდე.

საძიებო ფაილის შექმნა

საძიებო ფაილის შექმნა
საძიებო ფაილის შექმნა

ბევრიCMS პროგრამებს, როგორიცაა WordPress, უკვე აქვთ robots.txt ფაილი. Robots txt WordPress-ის სწორად კონფიგურაციამდე, მომხმარებელმა უნდა გაეცნოს მის შესაძლებლობებს, რათა გაარკვიოს, როგორ მიუწვდეს მას. თუ პროგრამისტი თავად ქმნის ფაილს, ის უნდა აკმაყოფილებდეს შემდეგ პირობებს:

  1. უნდა იყოს მცირე ასოებით.
  2. გამოიყენეთ UTF-8 კოდირება.
  3. შენახვა ტექსტის რედაქტორში ფაილის სახით (.txt).

როდესაც მომხმარებელმა არ იცის სად განათავსოს იგი, ისინი დაუკავშირდებიან ვებ სერვერის პროგრამული უზრუნველყოფის გამყიდველს, რათა გაარკვიონ, როგორ შევიდნენ დომენის ძირში ან გადავიდნენ Google-ის კონსოლში და ჩამოტვირთონ იგი. ამ ფუნქციით Google-ს ასევე შეუძლია შეამოწმოს, მუშაობს თუ არა ბოტი სწორად და იმ საიტების სია, რომლებიც დაბლოკილია ფაილის გამოყენებით.

სწორი Robots txt-ის ძირითადი ფორმატი ბიტრიქსისთვის (Bitrix):

  1. Legend robots.txt.
  2. , ამატებს კომენტარებს, რომლებიც გამოიყენება მხოლოდ შენიშვნების სახით.
  3. ამ კომენტარების იგნორირება მოხდება სკანერების მიერ, მომხმარებლის ნებისმიერი შეცდომასთან ერთად.
  4. მომხმარებლის აგენტი - მიუთითებს რომელ საძიებო სისტემაზეა ჩამოთვლილი ფაილის ინსტრუქციები.
  5. ვარსკვლავის () დამატება სკანერებს ეუბნება, რომ ინსტრუქციები ყველასთვისაა.

კონკრეტული ბოტის მითითება, მაგალითად, Googlebot, Baiduspider, Applebot. Disallow ეუბნება მცოცავებს, ვებსაიტის რომელი ნაწილები არ უნდა იძიოს. ეს ასე გამოიყურება: მომხმარებლის აგენტი:. ვარსკვლავი ნიშნავს "ყველა ბოტს". თუმცა, შეგიძლიათ კონკრეტული გვერდების მითითებაბოტები. ამისათვის თქვენ უნდა იცოდეთ ბოტის სახელი, რომლისთვისაც დაყენებულია რეკომენდაციები.

სწორი რობოტების txt Yandex-ისთვის შეიძლება ასე გამოიყურებოდეს:

სწორი რობოტების txt Yandex-ისთვის
სწორი რობოტების txt Yandex-ისთვის

თუ ბოტმა არ უნდა დაათვალიეროს საიტი, შეგიძლიათ მიუთითოთ იგი და მომხმარებლის აგენტების სახელების მოსაძებნად, რეკომენდებულია გაეცნოთ useragentstring.com-ის ონლაინ შესაძლებლობებს.

გვერდის ოპტიმიზაცია

გვერდის ოპტიმიზაცია
გვერდის ოპტიმიზაცია

შემდეგი ორი სტრიქონი ითვლება სრულ robots.txt ფაილად და ერთი robots ფაილი შეიძლება შეიცავდეს მომხმარებლის აგენტებისა და დირექტივების მრავალ ხაზს, რომლებიც გამორთავს ან ჩართავს სეირნობას. სწორი რობოტების ძირითადი ფორმატი txt:

  1. მომხმარებლის აგენტი: [აგენტის მომხმარებლის სახელი].
  2. აკრძალვა: .

ფაილში დირექტივების თითოეული ბლოკი ნაჩვენებია როგორც დისკრეტული, გამოყოფილი ხაზით. აგენტის მომხმარებლის დირექტორიას გვერდით მდებარე ფაილში, თითოეული წესი გამოიყენება სექციებით გამოყოფილი ხაზების კონკრეტულ კომპლექტზე. თუ ფაილს აქვს მრავალი აგენტის წესი, რობოტი განიხილავს მხოლოდ ინსტრუქციების ყველაზე კონკრეტულ ჯგუფს.

ტექნიკური სინტაქსი

ტექნიკური სინტაქსი
ტექნიკური სინტაქსი

ის შეიძლება მივიჩნიოთ, როგორც robots.txt ფაილების "ენა". არსებობს ხუთი ტერმინი, რომელიც შეიძლება არსებობდეს ამ ფორმატში, მათ შორის მთავარია:

  1. მომხმარებლის აგენტი - ვებ მცოცავი ინსტრუქციებით, როგორც წესი, საძიებო სისტემა.
  2. Disallow არის ბრძანება, რომელიც გამოიყენება მომხმარებლის აგენტს გვერდის ავლითკონკრეტული URL-ის (გამოტოვება). თითოეულისთვის მხოლოდ ერთი აკრძალული პირობაა.
  3. დაშვება. Googlebot-ისთვის, რომელსაც აქვს წვდომა, მომხმარებლის გვერდიც კი უარყოფილია.
  4. Crawl-delay - განსაზღვრავს, რამდენი წამი დასჭირდება მცოცავს სეირნობამდე. როდესაც ბოტი ამას არ ადასტურებს, სიჩქარე დაყენებულია Google-ის კონსოლში.
  5. საიტის რუქა - გამოიყენება URL-თან დაკავშირებული ნებისმიერი XML რუკის მოსაძებნად.

ნიმუშების შესატყვისები

როდესაც საქმე ეხება URL-ების რეალურად დაბლოკვას ან მოქმედი Robots txt-ის დაშვებას, ოპერაციები შეიძლება საკმაოდ რთული იყოს, რადგან ისინი საშუალებას გაძლევთ გამოიყენოთ შაბლონის შესატყვისი URL-ის რამდენიმე შესაძლო პარამეტრის დასაფარად. Google და Bing ორივე იყენებს ორ სიმბოლოს, რომლებიც იდენტიფიცირებენ გვერდებს ან ქვესაქაღალდეებს, რომლებიც SEO-ს სურს გამორიცხოს. ორი სიმბოლოა ვარსკვლავი () და დოლარის ნიშანი ($), სადაც:არის სიმბოლო, რომელიც წარმოადგენს სიმბოლოების ნებისმიერ თანმიმდევრობას. $ - შეესაბამება URL-ის ბოლოს.

Google გთავაზობთ შაბლონის შესაძლო სინტაქსების დიდ ჩამონათვალს, რომელიც აუხსნის მომხმარებელს, როგორ სწორად დააყენოს Robots txt ფაილი. გავრცელებული გამოყენების შემთხვევები მოიცავს:

  1. აკრძალეთ დუბლიკატი კონტენტის გამოჩენა ძიების შედეგებში.
  2. შეინარჩუნეთ ვებსაიტის ყველა სექცია პირადი.
  3. შეინახეთ ძიების შედეგების შიდა გვერდები ღია განცხადების საფუძველზე.
  4. მიუთითეთ მდებარეობა.
  5. აკრძალეთ საძიებო სისტემებში გარკვეული ინდექსირებაფაილები.
  6. დაყენების დაყოვნების მითითება ხელახლა ჩატვირთვის შესაჩერებლად, როდესაც სკანირებთ რამდენიმე კონტენტის ზონას ერთდროულად.

რობოტის ფაილის არსებობის შემოწმება

თუ საიტზე არ არის ზონები, რომლებზეც უნდა იძიოთ, მაშინ robots.txt საერთოდ არ არის საჭირო. თუ მომხმარებელი არ არის დარწმუნებული, რომ ეს ფაილი არსებობს, მან უნდა შეიყვანოს root დომენი და აკრიფოს ის URL-ის ბოლოს, დაახლოებით ასეთი: moz.com/robots.txt. მრავალი საძიებო ბოტი უგულებელყოფს ამ ფაილებს. თუმცა, როგორც წესი, ეს მცოცავი არ ეკუთვნის სანდო საძიებო სისტემებს. ისინი არიან სპამერების, ფოსტის აგრეგატორების და სხვა ტიპის ავტომატური ბოტების ტიპი, რომლებიც უხვად გვხვდება ინტერნეტში.

ძალიან მნიშვნელოვანია გვახსოვდეს, რომ რობოტის გამორიცხვის სტანდარტის გამოყენება არ არის უსაფრთხოების ეფექტური ღონისძიება. სინამდვილეში, ზოგიერთი ბოტი შეიძლება დაიწყოს გვერდებით, სადაც მომხმარებელი აყენებს მათ სკანირების რეჟიმში. არსებობს რამდენიმე ნაწილი, რომელიც შედის სტანდარტული გამონაკლისის ფაილში. სანამ რობოტს უთხარით რომელ გვერდებზე არ უნდა იმუშაოს, უნდა მიუთითოთ რომელ რობოტს ესაუბროთ. უმეტეს შემთხვევაში, მომხმარებელი გამოიყენებს მარტივ დეკლარაციას, რაც ნიშნავს "ყველა ბოტს".

SEO ოპტიმიზაცია

SEO ოპტიმიზაცია
SEO ოპტიმიზაცია

ოპტიმიზაციამდე მომხმარებელი უნდა დარწმუნდეს, რომ არ დაბლოკავს საიტის არც ერთ კონტენტს ან მონაკვეთს, რომელიც საჭიროებს გვერდის ავლას. სწორი Robots txt-ით დაბლოკილი გვერდების ბმულები არ იქნება დაცული. ეს ნიშნავს:

  1. თუ ისინი არ არის დაკავშირებული სხვა გვერდებთან, რომლებიც ხელმისაწვდომია საძიებო სისტემებისთვის, ე.ი. გვერდები,არ არის დაბლოკილი robots.txt-ის ან მეტა რობოტის მიერ და მასთან დაკავშირებული რესურსები არ შეიცვლება და, შესაბამისად, ვერ იქნება ინდექსირებული.
  2. დაბლოკილი გვერდიდან ბმულის დანიშნულებამდე ბმული არ შეიძლება გადავიდეს. თუ არის ასეთი გვერდი, უმჯობესია გამოიყენოთ სხვა დაბლოკვის მექანიზმი, ვიდრე robots.txt.

რადგან სხვა გვერდებმა შეიძლება პირდაპირ მიბმული იყოს პერსონალური ინფორმაციის შემცველ გვერდზე და გსურთ დაბლოკოთ ეს გვერდი ძიების შედეგებიდან, გამოიყენეთ სხვა მეთოდი, როგორიცაა პაროლით დაცვა ან noindex მეტა მონაცემები. ზოგიერთ საძიებო სისტემას აქვს მრავალი მომხმარებლის აგენტი. მაგალითად, Google იყენებს Googlebot-ს ორგანული ძიებისთვის და Googlebot-Image-ს სურათების საძიებლად.

სამომხმარებლო აგენტების უმეტესობა ერთი და იგივე საძიებო სისტემიდან მიჰყვება ერთსა და იმავე წესებს, ამიტომ არ არის საჭირო დირექტივების დაზუსტება რამდენიმე მცოცავისთვის, მაგრამ ამის გაკეთების შემთხვევაში შესაძლებელია საიტის შიგთავსის მცოცავი სრულყოფილად მორგება. საძიებო სისტემა ინახავს ფაილის შიგთავსს და ჩვეულებრივ აახლებს ქეშირებულ შინაარსს დღეში ერთხელ მაინც. თუ მომხმარებელი ცვლის ფაილს და სურს მისი განახლება ჩვეულებრივზე სწრაფად, მას შეუძლია robots.txt URL-ის გაგზავნა Google-ში.

საძიებო სისტემები

რობოტის ფაილის არსებობის შემოწმება
რობოტის ფაილის არსებობის შემოწმება

იმისათვის, რომ გაიგოთ როგორ მუშაობს Robots txt სწორად, თქვენ უნდა იცოდეთ საძიებო სისტემების შესაძლებლობების შესახებ. მოკლედ, მათი უნარი მდგომარეობს იმაში, რომ ისინი აგზავნიან "სკანერებს", ეს არის პროგრამები, რომლებიცინტერნეტის დათვალიერება ინფორმაციისთვის. შემდეგ ისინი ინახავენ ამ ინფორმაციის გარკვეულ ნაწილს, რათა მოგვიანებით გადასცენ მომხმარებელს.

ბევრი ადამიანისთვის Google უკვე ინტერნეტია. სინამდვილეში, ისინი მართლები არიან, რადგან ეს არის ალბათ მისი ყველაზე მნიშვნელოვანი გამოგონება. და მიუხედავად იმისა, რომ საძიებო სისტემები ძალიან შეიცვალა მათი დაარსების დღიდან, ძირითადი პრინციპები მაინც იგივეა. მცოცავი, ასევე ცნობილი როგორც "ბოტები" ან "ობობები", პოულობენ გვერდებს მილიარდობით ვებსაიტიდან. საძიებო სისტემები აძლევენ მათ მითითებებს, თუ სად წავიდნენ, ხოლო ცალკეულ საიტებს ასევე შეუძლიათ ბოტებთან კომუნიკაცია და უთხრეს, რომელ კონკრეტულ გვერდებზე უნდა დაათვალიერონ.

ზოგადად, საიტების მფლობელებს არ სურთ გამოჩნდნენ საძიებო სისტემებში: ადმინისტრაციული გვერდები, პორტალები, კატეგორიები და ტეგები და სხვა საინფორმაციო გვერდები. robots.txt ფაილი ასევე შეიძლება გამოყენებულ იქნას საძიებო სისტემებში გვერდების გადამოწმების თავიდან ასაცილებლად. მოკლედ, robots.txt ეუბნება ვებ მცოცავებს, რა უნდა გააკეთონ.

გვერდების აკრძალვა

ეს არის რობოტის გამორიცხვის ფაილის ძირითადი ნაწილი. მარტივი დეკლარაციის საშუალებით, მომხმარებელი ეუბნება ბოტს ან ბოტების ჯგუფს, არ დაათვალიერონ გარკვეული გვერდები. სინტაქსი მარტივია, მაგალითად, საიტის "admin" დირექტორიაში ყველაფერზე წვდომის უარსაყოფად, ჩაწერეთ: Disallow: /admin. ეს ხაზი ხელს შეუშლის ბოტებს დაცოცონ yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html და ნებისმიერი სხვა ადმინისტრატორის დირექტორიაში.

ერთი გვერდის გასაუქმებლად, უბრალოდ მიუთითეთ ის აკრძალვის ხაზში: Disallow: /public/exception.html. ახლა "გამონაკლისის" გვერდიარ გადაინაცვლებს, მაგრამ ყველაფერი დანარჩენი "საჯარო" საქაღალდეში მოხდება.

ბევრი გვერდის ჩასართავად, უბრალოდ ჩამოთვალეთ ისინი:

დირექტორიები და გვერდები
დირექტორიები და გვერდები

სწორი Robots txt-ის ეს ოთხი სტრიქონი სიმფონიისთვის გამოიყენება ნებისმიერ მომხმარებლის აგენტზე, რომელიც ჩამოთვლილიაrobots.txt განყოფილების ზედა ნაწილში

აკრძალეთ გვერდები
აკრძალეთ გვერდები

საიტის რუკა:

სხვა ბრძანებები:live - არ დაუშვან ვებ მცოცავებმა cpresources/ ან პროვაიდერის/ ინდექსირება.

მომხმარებლის აგენტი:აკრძალვა: /cpresources/.

უარი: / გამყიდველი / აკრძალვა: /.env.

სტანდარტების დაყენება

მომხმარებელს შეუძლია განსაზღვროს კონკრეტული გვერდები სხვადასხვა ბოტებისთვის წინა ორი ელემენტის კომბინაციით, ასე გამოიყურება. ყველა საძიებო სისტემისთვის სწორი Robots txt-ის მაგალითი წარმოდგენილია ქვემოთ.

სტანდარტების დაყენება
სტანდარტების დაყენება

სექციები "ადმინისტრატორი" და "პირადი" უხილავი იქნება Google-ისა და Bing-ისთვის, მაგრამ Google მაინც დაინახავს "საიდუმლო" დირექტორიას, ხოლო Bing ვერ დაინახავს. თქვენ შეგიძლიათ მიუთითოთ ზოგადი წესები ყველა ბოტისთვის ვარსკვლავური მომხმარებლის აგენტის გამოყენებით და შემდეგ მისცეს ბოტებს კონკრეტული ინსტრუქციები შემდეგ განყოფილებებში. ზემოთ მოყვანილი ცოდნით, მომხმარებელს შეუძლია დაწეროს სწორი Robots txt მაგალითი ყველა საძიებო სისტემისთვის. უბრალოდ გააქტიურეთ თქვენი საყვარელი ტექსტური რედაქტორი და უთხარით ბოტებს, რომ ისინი არ არიან მისასალმებელი საიტის გარკვეულ ნაწილში.

რჩევები სერვერის მუშაობის გასაუმჯობესებლად

SublimeText არისმრავალმხრივი ტექსტური რედაქტორი და ოქროს სტანდარტი მრავალი პროგრამისტისთვის. უფრო მეტიც, მისი პროგრამირების რჩევები ეფუძნება ეფექტურ კოდირებას. მომხმარებლები აფასებენ პროგრამაში მალსახმობების არსებობას. თუ მომხმარებელს სურს ნახოს robots.txt ფაილის მაგალითი, უნდა გადავიდეს ნებისმიერ საიტზე და ბოლოს დაამატოს "/robots.txt". აქ არის robots.txt ფაილის GiantBicycles ნაწილი.

პროგრამა უზრუნველყოფს გვერდების შექმნას, რომლებიც მომხმარებლებს არ სურთ საძიებო სისტემებში ჩვენება. და ასევე აქვს რამდენიმე ექსკლუზიური რამ, რომლის შესახებაც ცოტამ თუ იცის. მაგალითად, მაშინ, როცა robots.txt ფაილი ეუბნება ბოტებს, სად არ წავიდნენ, საიტის რუქის ფაილი პირიქით აკეთებს და ეხმარება მათ იპოვონ ის, რასაც ეძებენ, და სანამ საძიებო სისტემებმა ალბათ უკვე იციან სად მდებარეობს საიტის რუკა, ის არ იღებს სხვათა შორის.

არსებობს ორი ტიპის ფაილი: HTML გვერდი ან XML ფაილი. HTML გვერდი არის ის, რომელიც აჩვენებს ვიზიტორებს ვებსაიტის ყველა ხელმისაწვდომ გვერდს. საკუთარ robots.txt-ში ის ასე გამოიყურება: Sitemap://www.makeuseof.com/sitemap_index.xml. თუ საიტი არ არის ინდექსირებული საძიებო სისტემებში, თუმცა ის რამდენჯერმე იქნა შენახული ვებ რობოტების მიერ, თქვენ უნდა დარწმუნდეთ, რომ ფაილი არსებობს და მისი ნებართვები სწორად არის დაყენებული.

ნაგულისხმევად, ეს მოხდება SeoToaster-ის ყველა ინსტალაციაზე, მაგრამ საჭიროების შემთხვევაში, შეგიძლიათ მისი გადატვირთვა შემდეგნაირად: File robots.txt - 644. PHP სერვერზე დამოკიდებულია, თუ ეს არ მუშაობს მომხმარებლისთვის, რეკომენდირებულია სცადოთ შემდეგი: ფაილი robots.txt - 666.

სკანირების დაყოვნების დაყენება

შემოვლითი დაგვიანების დირექტივა გარკვეულ ინფორმაციას გვაწვდისსაძიებო სისტემებში რამდენად ხშირად შეუძლიათ გვერდის ინდექსირება საიტზე. ის იზომება წამებში, თუმცა ზოგიერთი საძიებო სისტემა მას ოდნავ განსხვავებულად განმარტავს. ზოგიერთი ადამიანი ხედავს სეირნობის დაყოვნებას 5, როდესაც მათ ეუბნებიან, რომ დაიცადონ ხუთი წამი ყოველი სკანირების შემდეგ შემდეგი სკანირების დასაწყებად.

სხვები ამას განმარტავენ, როგორც ინსტრუქციას მხოლოდ ერთი გვერდის სკანირებისთვის ყოველ ხუთ წამში. რობოტს არ შეუძლია უფრო სწრაფად სკანირება სერვერის გამტარუნარიანობის შესანარჩუნებლად. თუ სერვერს სჭირდება ტრაფიკის თანხვედრა, მას შეუძლია დააწესოს შემოვლითი დაგვიანება. ზოგადად, უმეტეს შემთხვევაში, მომხმარებლებს არ სჭირდებათ ამაზე ფიქრი. ასე დგინდება რვა წამის კრალის დაყოვნება - Crawl-dalay: 8.

მაგრამ ყველა საძიებო სისტემა არ დაემორჩილება ამ დირექტივას, ამიტომ გვერდების აკრძალვისას, შეგიძლიათ დააყენოთ სხვადასხვა საძიებო სისტემის დაყოვნება გარკვეული საძიებო სისტემებისთვის. ფაილის ყველა ინსტრუქციის დაყენების შემდეგ, შეგიძლიათ ატვირთოთ იგი საიტზე, ჯერ დარწმუნდით, რომ ეს არის მარტივი ტექსტური ფაილი და აქვს სახელწოდება robots.txt და შეგიძლიათ იხილოთ თქვენს საიტზე.com/robots.txt.

საუკეთესო WordPress ბოტი

საუკეთესო WordPress ბოტი
საუკეთესო WordPress ბოტი

WordPress საიტზე არის რამდენიმე ფაილი და დირექტორია, რომლებიც ყოველ ჯერზე უნდა დაიბლოკოს. დირექტორიები, რომლებიც მომხმარებლებმა არ უნდა დაუშვან, არის cgi-bin დირექტორია და სტანდარტული WP დირექტორიები. ზოგიერთი სერვერი არ იძლევა cgi-bin დირექტორიაში წვდომას, მაგრამ მომხმარებლებმა უნდა შეიტანონ ის აკრძალვის დირექტივაში Robots txt WordPress სწორად კონფიგურაციამდე.

სტანდარტული WordPress დირექტორიები,რომელიც უნდა დაბლოკოს არის wp-admin, wp-content, wp-includes. ეს დირექტორიები არ შეიცავს მონაცემებს, რომლებიც თავდაპირველად სასარგებლოა საძიებო სისტემებისთვის, მაგრამ არის გამონაკლისი, ანუ wp-content დირექტორიაში არის ქვეცნობარი სახელად ატვირთვები. ეს ქვედირექტორია უნდა იყოს დაშვებული robot.txt ფაილში, რადგან ის მოიცავს ყველაფერს, რაც ჩატვირთულია WP მედია ატვირთვის ფუნქციის გამოყენებით. WordPress იყენებს ტეგებს ან კატეგორიებს შინაარსის სტრუქტურირებისთვის.

თუ გამოიყენება კატეგორიები, მაშინ იმისათვის, რომ სწორი Robots txt შევქმნათ Wordpress-ისთვის, როგორც მითითებულია პროგრამის მწარმოებლის მიერ, აუცილებელია თეგების არქივების დაბლოკვა ძიებიდან. პირველ რიგში, ისინი ამოწმებენ მონაცემთა ბაზას "ადმინისტრაციის" პანელზე> "პარამეტრები"> "პერმალინკი".

ნაგულისხმევად, ბაზა არის ტეგი, თუ ველი ცარიელია: აკრძალვა: / tag /. თუ კატეგორია გამოიყენება, მაშინ უნდა გამორთოთ კატეგორია robot.txt ფაილში: Disallow: /category/. ნაგულისხმევად, ბაზა არის ტეგი, თუ ველი ცარიელია: Disallow: / tag /. თუ კატეგორია გამოიყენება, მაშინ უნდა გამორთოთ კატეგორია robot.txt ფაილში: აკრძალვა: / კატეგორია /.

ფაილები, რომლებიც ძირითადად გამოიყენება შინაარსის საჩვენებლად, ისინი დაიბლოკება სწორი Robots txt ფაილით Wordpress-ისთვის:

რობოტები txt wordpress-ისთვის
რობოტები txt wordpress-ისთვის

ჯომლას ძირითადი დაყენება

როდესაც მომხმარებელი დააინსტალირებს Joomla-ს, თქვენ უნდა ნახოთ Joomla Robots txt სწორი პარამეტრი გლობალურ კონფიგურაციაში, რომელიც მდებარეობს მართვის პანელში. ზოგიერთი პარამეტრი აქ ძალიან მნიშვნელოვანია SEO-სთვის. ჯერ იპოვნეთ საიტის სახელი და დარწმუნდით, რომგამოიყენება საიტის მოკლე სახელი. შემდეგ ისინი პოულობენ პარამეტრების ჯგუფს იმავე ეკრანის მარჯვნივ, რომელსაც SEO პარამეტრები ეწოდება. ის, რომელიც აუცილებლად უნდა შეიცვალოს, არის მეორე: გამოიყენეთ გადაწერის URL.

ეს რთულად ჟღერს, მაგრამ ძირითადად ეხმარება Joomla-ს უფრო სუფთა URL-ების შექმნაში. ყველაზე შესამჩნევი, თუ თქვენ ამოიღებთ index.php ხაზს URL-ებიდან. თუ მოგვიანებით შეცვლით, URL-ები შეიცვლება და Google-ს არ მოეწონება. თუმცა, ამ პარამეტრის შეცვლისას, ერთდროულად რამდენიმე ნაბიჯის გადადგმა უნდა მოხდეს Joomla-სთვის სწორი რობოტების txt-ის შესაქმნელად:

  1. იპოვეთ htaccess.txt ფაილი Joomla root საქაღალდეში.
  2. მონიშნეთ როგორც.htaccess (გაფართოების გარეშე).
  3. შეიტანეთ საიტის სახელი გვერდების სათაურებში.
  4. იპოვეთ მეტამონაცემების პარამეტრები გლობალური კონფიგურაციის ეკრანის ბოლოში.

რობოტი ღრუბელში MODX

რობოტი MODX Cloud-ში
რობოტი MODX Cloud-ში

ადრე, MODX Cloud მომხმარებლებს აძლევდა შესაძლებლობას აკონტროლონ ქცევა და დაუშვან robots.txt ფაილის სერვისი დაფაზე გადართვის საშუალებით. მიუხედავად იმისა, რომ ეს სასარგებლო იყო, შესაძლებელი იყო შემთხვევითი ინდექსირების დაშვება ინსცენირების/დეველოპერების საიტებზე ოფციის გადართვით Dashboard-ზე. ანალოგიურად, ადვილი იყო ინდექსირების გამორთვა საწარმოო საიტზე.

დღეს სერვისი ითვალისწინებს robots.txt ფაილების არსებობას ფაილურ სისტემაში, შემდეგი გამონაკლისით: ნებისმიერი დომენი, რომელიც მთავრდება modxcloud.com-ით, ემსახურება როგორც Disallow: /directive ყველა მომხმარებლის აგენტისთვის, მიუხედავად არსებობისა. ან ფაილის არარსებობა.საწარმოო საიტებს, რომლებიც იღებენ რეალურ ვიზიტორთა ტრაფიკს, უნდა გამოიყენონ საკუთარი დომენი, თუ მომხმარებელს სურს თავისი საიტის ინდექსირება.

ზოგიერთი ორგანიზაცია იყენებს სწორ Robots txt-ს modx-ისთვის, რათა აწარმოოს მრავალი ვებსაიტი ერთი ინსტალაციისგან Contexts-ის გამოყენებით. შემთხვევა, როდესაც ეს შეიძლება იყოს გამოყენებული, იქნება საჯარო მარკეტინგის საიტი, კომბინირებული სადესანტო გვერდის მიკრო საიტებთან და შესაძლოა არასაჯარო ინტრანეტთან.

ტრადიციულად ეს რთული იყო მრავალ მომხმარებლის ინსტალაციისთვის, რადგან ისინი იზიარებენ იმავე ქსელის ფესვს. MODX Cloud-ით ეს მარტივია. უბრალოდ ატვირთეთ დამატებითი ფაილი ვებსაიტზე სახელად robots-intranet.example.com.txt შემდეგი შინაარსით და ის დაბლოკავს ინდექსირებას კარგად მომუშავე რობოტებთან და ყველა სხვა ჰოსტის სახელები დაუბრუნდება სტანდარტულ ფაილებს, თუ არ არის სხვა კონკრეტული სახელების კვანძები.

Robots.txt არის მნიშვნელოვანი ფაილი, რომელიც ეხმარება მომხმარებელს დაუკავშირდეს საიტს Google-ში, ძირითად საძიებო სისტემებსა და სხვა ვებსაიტებზე. ვებ სერვერის ძირში მდებარე ფაილი ავალებს ვებ რობოტებს დაათვალიერონ საიტი, დაადგინონ რომელი საქაღალდეები უნდა იყოს ან არა ინდექსირებული, ინსტრუქციების ნაკრების გამოყენებით, რომელსაც ეწოდება Bot Exclusion Protocol. სწორი Robots txt-ის მაგალითი ყველა საძიებო სისტემისთვის obots.txt განსაკუთრებით მარტივია SeoToaster-ით. ამისათვის შეიქმნა სპეციალური მენიუ სამართავ პანელში, ამიტომ ბოტს არასოდეს მოუწევს ზედმეტი მუშაობა წვდომის მისაღებად.

გირჩევთ: