Co To Jest robots.txt i Dlaczego Ma Znaczenie dla Twojej Firmy? - GhostSite

Q: Co to jest robots.txt?

robots.txt to zwykły plik tekstowy umieszczony w głównym katalogu strony — zazwyczaj pod adresem twojastrona.pl/robots.txt. Zawiera instrukcje dla robotów wyszukiwarek, mówiące im które strony lub sekcje witryny mogą odwiedzać. Wygląda mniej więcej tak: User-agent: * Disallow: /wp-admin/ Allow: / To mówi wszystkim robotom: nie odwiedzaj panelu administracyjnego, wszystko inne jest dostępne.

Q: Jak sprawdzić swój robots.txt?

Wejdź na twojastrona.pl/robots.txt w przeglądarce. Jeśli widzisz stronę z tekstem — plik robots.txt istnieje. Jeśli dostajesz błąd 404 — nie ma pliku robots.txt (co jest w porządku — Google domyślnie crawluje wszystko). Szukaj linii Disallow: /. Jeśli jest bez innych ograniczeń — blokuje Google przed całą stroną.

Q: Czy robots.txt może blokować pojedyncze strony?

Tak. Możesz blokować konkretne katalogi lub strony: Disallow: /prywatne/ Disallow: /koszyk/ To przydatne dla stron których nie chcesz żeby Google indeksował. Problem pojawia się gdy strony które chcesz mieć zaindeksowane są przypadkowo objęte regułą Disallow.

robots.txt brzmi technicznie, ale idea jest prosta — a źle skonfigurowany plik to jedna z najczęstszych przyczyn całkowitego znikania strony z Google.

Co to jest robots.txt?

robots.txt to zwykły plik tekstowy umieszczony w głównym katalogu strony — zazwyczaj pod adresem twojastrona.pl/robots.txt. Zawiera instrukcje dla robotów wyszukiwarek, mówiące im które strony lub sekcje witryny mogą odwiedzać.

Wygląda mniej więcej tak:

User-agent: *
Disallow: /wp-admin/
Allow: /

To mówi wszystkim robotom: nie odwiedzaj panelu administracyjnego, wszystko inne jest dostępne.

Dlaczego robots.txt ma znaczenie dla Twojej firmy?

Jeśli robots.txt zawiera instrukcję która przypadkowo blokuje Google przed Twoją stroną, Google przestanie odwiedzać Twoje podstrony. Zablokowane strony nie mogą być zaindeksowane. Strony których nie ma w indeksie nie pojawiają się w wynikach wyszukiwania.

Najniebezpieczniejsza linia to:

Disallow: /

Ta jedna instrukcja mówi Google żeby trzymał się z dala od całej witryny. Często dodawana przez deweloperów podczas budowania strony — żeby niedokończona witryna nie pojawiała się w Google — i zapomniana gdy strona trafia na produkcję.

Jak sprawdzić swój robots.txt?

Wejdź na twojastrona.pl/robots.txt w przeglądarce. Jeśli widzisz stronę z tekstem — plik robots.txt istnieje. Jeśli dostajesz błąd 404 — nie ma pliku robots.txt (co jest w porządku — Google domyślnie crawluje wszystko).

Szukaj linii Disallow: /. Jeśli jest bez innych ograniczeń — blokuje Google przed całą stroną.

Czy robots.txt może blokować pojedyncze strony?

Tak. Możesz blokować konkretne katalogi lub strony:

Disallow: /prywatne/
Disallow: /koszyk/

To przydatne dla stron których nie chcesz żeby Google indeksował. Problem pojawia się gdy strony które chcesz mieć zaindeksowane są przypadkowo objęte regułą Disallow.

Czy Google zawsze respektuje robots.txt?

Google mówi że respektuje robots.txt, ale z jednym zastrzeżeniem: jeśli strona ma linki prowadzące do niej z innych miejsc w internecie, Google może ją nadal pokazywać w wynikach (jako URL bez opisu) nawet jeśli robots.txt blokuje crawlowanie. Żeby całkowicie zapobiec pojawianiu się strony — potrzebny jest tag noindex, nie tylko reguła w robots.txt.

→ Pełny obraz: Dlaczego Twoja strona nie pojawia się w Google
→ Powiązane: Jak sprawdzić czy Google widzi Twoją stronę

Nie wiesz czy robots.txt blokuje Google? GhostSite sprawdza to jako część pełnego audytu widoczności.

Sprawdź swoją stronę →