File robots.txt là gì? 3 Cách tạo robots.txt WordPress 2022

Làm thế nào để chặn hàng loạt những Web Crawler?

Làm cách nào để tôi trọn vẹn trọn vẹn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn hoàn toàn có thể tạm ngừng hàng loạt hoạt động giải trí giải trí giải trí giải trí tích lũy tài liệu website của mình?

Tôi dùng cùng một tệp robots.txt cho nhiều trang web. Tôi có thể dùng một URL không thiếu thay cho một đường dẫn tương đối được không?

Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?

Làm thế nào để kiểm tra website có file robots.txt không?

1. Một số trình duyệt tìm kiếm không tương hỗ những lệnh trong tệp robots.txt

5/5 – (1 bình chọn)

Đã bao giờ bạn hình dung làm thế nào một robot của công cụ tìm kiếm có thể nghiên cứu và nghiên cứu và nghiên cứu và phân tích tài liệu của một website để index (lập chỉ mục) không?

Bạn đang sở hữu một website WordPress? Đôi lúc bạn muốn Googlebot nhanh index website của bạn hoặc không index một trang đơn cử nào đó? Vậy làm cách nào bây giờ?

Tôi có thể lập tức vấn đáp cho bạn: Tạo file robots.txt cho WordPress ngay và luôn! Để hiểu về file robots.txt và phương pháp tạo, tôi sẽ mang lại cho bạn bài viết cực ích sau đây.

Bài viết này sẽ hướng dẫn cho bạn:

  • Hiểu rõ khái niệm file robots.txt là gì?
  • Cấu trúc cơ bản của một file robots.txt
  • Có những quan tâm nào khi tạo lập robots.txt WordPress
  • Tại sao phải cần robots.txt cho website của bạn
  • Cách tạo lập 1 file hoàn hảo cho web của bạn

Bắt đầu tìm hiểu nhé!

File robots.txt là gì?

File robots.txt là một tập tin văn bản đơn thuần có dạng .txt. Tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm những tiêu chuẩn Web lao lý cách Robot Web (hoặc Robot của những công cụ tìm kiếm) tích lũy tài liệu trên web, truy cập, index nội dung và cung ứng nội dung đó cho người dùng.

robot.txt là gìTìm hiểu về robots.txt lập chỉ mục cho website của bạn

REP cũng gồm có những lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions. Nó hướng dẫn những công cụ của Google xử lí những liên kết. (ví dụ: Follow hay Nofollow link).

Trên thực tế, tạo robots.txt WordPress giúp những nhà quản trị web linh hoạt, dữ thế chủ động hơn trong việc được được được được cho phép hay không cho những con bot của công cụ Google Index 1 số ít ít ít phần nào đó trong trang của mình.

Cú pháp của file robots.txt

Các cú pháp được xem là ngôn từ riêng của những tập tin robots.txt. Có 5 thuật ngữ phổ cập mà bạn sẽ phát hiện trong một file robots.txt. Chúng bao gồm:

  • User-agent: Phần này là tên của những trình thu thập, truy vấn tài liệu web. (ví dụ: Googlebot, Bingbot,…)
  • Disallow: Được sử dụng để thông tin cho những User-agent không tích lũy bất kể tài liệu URL đơn cử nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
  • Allow (chỉ vận dụng cho bọ tìm kiếm Googlebot): Lệnh thực thi thông tin cho Googlebot rằng nó sẽ truy vấn một trang hoặc thư mục con. Mặc dù những trang hoặc những thư mục con của nó có thể không được phép.
  • Crawl-delay: Thông báo cho những Web Crawler biết rằng nó phải đợi bao nhiêu giây trước khi tải và tích lũy nội dung của trang. Tuy nhiên, chú ý quan tâm rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Bạn setup vận tốc tích lũy tài liệu trong Google Search Console.
  • Sitemap: Được sử dụng để phân phối những vị trí của bất kể Sitemap XML nào được link với URL này. Lưu ý lệnh này chỉ được tương hỗ bởi công cụ Google, Ask, Bing và Yahoo.

Pattern – Matching

Trên thực tiễn những file robots.txt WordPress khá phức tạp để có thể chặn hoặc cho phép những con bot vì chúng cho phép sử dụng tính năng Pattern-Matching để bao quát một loạt những tùy chọn của URL.

Tất cả những công cụ của Google và Bing cho phép sử dụng 2 biểu thức chính để xác định những trang hoặc thư mục con mà SEO muốn loại trừ. Hai kí tự này là dấu hoa thị (*) và ký hiệu đô la ($).

  • * là kí tự đại diện thay mặt cho bất kể chuỗi kí tự nào – Có nghĩa là nó được vận dụng cho mọi loại Bots của những công cụ Google.
  • $ là kí tự khớp với phần cuối của URL.

Định dạng cơ bản của file robots.txt

Tệp robots.txt có định dạng cơ bản sau:

User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:

Tuy nhiên, bạn vẫn có thể lược bỏ những phần Crawl-delaySitemap. Đây là định dạng cơ bản của robots.txt WordPress hoàn chỉnh. Tuy nhiên trên thực tế thì file robots.txt chứa nhiều dòng User-agent và nhiều thông tư của người dùng hơn.

Chẳng hạn như những dòng lệnh: Disallow, Allow, Crawl-delay, … Trong file robots.txt, bạn chỉ định cho nhiều con bot khác nhau. Mỗi lệnh thường được viết riêng không liên quan gì đến nhau cách nhau bởi 1 dòng.

Trong một file robots.txt WordPress bạn có thể chỉ định nhiều lệnh cho những con bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file robots.txt có nhiều lệnh so với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và vừa đủ nhất.

File robots.txt chuẩn

Để chặn tổng thể những Web Crawler không được tích lũy bất kỳ tài liệu nào trên website gồm có cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *
Disallow: /

Để cho phép tổng thể những trình tích lũy thông tin truy vấn vào tổng thể những nội dung trên website gồm có cả trang chủ. Chúng ta hãy sử dụng cú pháp sau:

User-agent: *
Disallow: 

Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không tích lũy bất kể trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Chúng ta hãy sử dụng cú pháp sau:

User-agent: Googlebot
Disallow: /example-subfolder/

Để chặn trình tích lũy thông tin của Bing (User-agent: Bing) tránh tích lũy thông tin trên trang đơn cử tại www.example.com/example-subfolder/blocked-page. Chúng ta hãy sử dụng cú pháp sau:

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

Ví dụ cho file robots.txt chuẩn

Dưới đây là ví dụ về tệp robots.txt hoạt động cho website www.example.com:

User-agent: *
Disallow: /wp-admin/
Allow: /
Sitemap: https://www.example.com/sitemap_index.xml

Theo bạn, cấu trúc file robots.txt có ý nghĩa như thế nào? Để tôi giải thích. Điều này chứng tỏ bạn cho phép hàng loạt những công cụ của Google theo link www.example.com/sitemap_index.xml để tìm đến file robots.txt và phân tích. Cùng index hàng loạt những tài liệu trong những trang trên website của bạn ngoại trừ trang www.example.com/wp-admin/.

Đừng quên đăng ký học thử ngay 3 ngày miễn phí khóa Entity Mastermind – Năng cấp kỹ năng SEO giúp bạn X10 Organic Traffic sau 6 tháng.

Tại sao bạn cần tạo file robots.txt?

Việc tạo robots.txt cho website giúp bạn trấn áp việc truy vấn của những con Bots đến những khu vực nhất định trên trang web. Và điều này có thể vô cùng nguy khốn nếu bạn vô tình sai một vài thao tác khiến Googlebot không hề index website của bạn. Tuy nhiên, việc tạo file robots.txt vẫn thật sự có ích bởi nhiều lí do:

  • Ngăn chặn nội dung trùng lặp (Duplicate Content) Open trong website (lưu ý rằng những Robot Meta thường là lựa chọn tốt hơn cho việc này)
  • Giữ một số ít phần của trang ở chính sách riêng tư
  • Giữ những trang tác dụng tìm kiếm nội bộ không hiển thị trên SERP
  • Chỉ định vị trí của Sitemap
  • Ngăn những công cụ của Google Index một số tệp nhất định trên website của bạn (hình ảnh, PDF, …)
  • Dùng lệnh Crawl-delay để cài đặt thời gian. Điều này sẽ ngăn việc sever của bạn bị quá tải khi những trình tích lũy tài liệu tải nhiều nội dung cùng một lúc.

Nếu bạn không muốn ngăn những Web Crawler thực thi tích lũy dữ liệu từ website thì bạn hoàn toàn không cần tạo robots.txt.

Những hạn chế của file robots.txt

1. Một số trình duyệt tìm kiếm không tương hỗ những lệnh trong tệp robots.txt

Không phải công cụ tìm kiếm nào cũng sẽ hỗ trợ những lệnh trong tệp robots.txt, vậy nên để bảo mật thông tin thông tin thông tin dữ liệu, cách tốt nhất bạn nên làm là đặt mật khẩu cho những tệp riêng tư trên máy chủ.

2. Mỗi trình dữ liệu có cú pháp phân tích dữ liệu riêng

Thông thường so với những trình dữ liệu uy tín sẽ tuân theo quy chuẩn của những lệnh trong tệp robots.txt. Nhưng mỗi trình tìm kiếm sẽ có cách báo cáo giải trình dữ liệu khác nhau, một số trình sẽ không hề hiểu được câu lệnh cài trong tệp robots.txt. Vậy nên, những web developers phải nắm rõ cú pháp của từng công cụ thu thập dữ liệu trên website.

3. Bị tệp robots.txt chặn nhưng Google vẫn có thể index

Cho dù trước đó bạn đã chặn một URL trên website của mình nhưng URL đó vẫn còn Open thì lúc này Google vẫn có thể Crawl và index cho URL đó của bạn.

Bạn nên xóa URL đó trên website nếu nội dung bên trong không quá quan trọng để bảo mật cao nhất. Bởi vì nội dung trong URL này vẫn có thể Open khi ai đó tìm kiếm chúng trên Google.

Một số quan tâm khi sử dụng tệp robots.txt

  • Việc chỉ định những lệnh cho từng User-agent là không cần thiết, bởi vì hầu hết những User-agent đều từ một công cụ tìm kiếm và đều tuân theo một quy tắc chung.
  • Tuyệt đối không được dùng file robots.txt để chặn những dữ liệu riêng tư như thông tin người dùng vì Googlebot sẽ bỏ lỡ những lệnh trong tệp robots.txt nên năng lực bảo mật không cao.
  • Để bảo mật dữ liệu cho website cách tốt nhất là dùng mật khẩu riêng cho những tệp hoặc URL không muốn truy vấn trên website. Tuy nhiên, bạn không nên lạm dụng những lệnh robots.txt vì nhiều lúc hiệu suất cao sẽ không cao như mong muốn.

File robots.txt hoạt động như thế nào?

Các công cụ tìm kiếm có 2 trách nhiệm chính:

  1. Crawl (cào/ phân tích) dữ liệu trên website để mày mò nội dung
  2. Index nội dung đó để phân phối nhu yếu cho những tìm kiếm của người dùng

file robots.txt, file robots.txt chuẩn cho wordpressCông cụ tìm kiếm có 2 nhiệm vụ chính: Crawl & Index

Để crawl được dữ liệu của website thì những công cụ sẽ đi theo những link từ trang này đến trang khác. Cuối cùng, nó thu thập được dữ liệu trải qua hàng tỷ website khác nhau. Quá trình crawl dữ liệu này còn được biết đến với tên khác là “Spidering”.

Sau khi đến một trang web, trước khi spidering thì những con bot của công cụ Google sẽ tìm những file robots.txt WordPress. Nếu nó tìm thấy được 1 tệp robots.txt thì nó sẽ đọc tệp đó tiên phong trước khi tiến hành những bước tiếp theo.

File robots.txt sẽ chứa những thông tin về cách những công cụ của Google nên thu thập dữ liệu của website. Tại đây những con bot này sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quy trình này.

Nếu tệp robots.txt không chứa bất kể thông tư nào cho những User-agent hoặc nếu bạn không tạo file robots.txt cho website thì những con bots sẽ tiến hành thu thập những thông tin khác trên web.

File robots.txt nằm ở đâu trên một website?

Khi bạn tạo website WordPress, nó sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server.

Ví dụ, nếu site của bạn đặt trong thư mục gốc của địa chỉ https://cuagachcamau.com, bạn sẽ có thể truy vấn file robots.txt ở đường dẫn https://cuagachcamau.com/robots.txt, tác dụng ban đầu sẽ tương tự như như sau:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Như tôi đã nói ở trên, phần sau User-agent: dấu * có nghĩa là quy tắc được áp dụng cho mọi loại bots trên khắp nơi trên website. Trong trường hợp này, file này sẽ nói cho bots biết là chúng không được phép vào trong file thư mục wp-admin và wp-includes. Rất hài hòa và hợp lý phải không, vì 2 thư mục này chứa rất nhiều file thông tin nhạy cảm.

Hãy nhớ đây là một file ảo, do WordPress tự thiết lập mặc định khi cài đặt và không chỉnh sửa được (mặc dù nó vẫn hoạt động). Thường thì, vị trí file robots.txt WordPress chuẩn được đặt trong thư mục gốc, thường được gọi là public_html và www (hoặc tên website). Và để tạo file robots.txt cho riêng bạn thì bạn cần tạo một file mới để thay thế file cũ đặt trong thư mục gốc đó.

robots.txt wordpress

Ở phần bên dưới, tôi sẽ hướng dẫn bạn nhiều cách để tạo mới file robots.txt cho WordPress rất dễ dàng. Nhưng trước tiên, hãy nghiên cứu về những quy tắc bạn nên sử dụng trong file này.

Làm thế nào để kiểm tra website có file robots.txt không?

Nếu bạn đang do dự không biết website của mình có tệp robots.txt không. Hãy nhập Root Domain của bạn, sau đó thêm /robots.txt vào cuối URL. Nếu bạn không có trang .txt xuất hiện, thì chắc chắn website bạn hiện không tạo robots.txt cho WordPress rồi. Rất đơn giản! Tương tự, bạn có thể kiểm tra website của tôi https://cuagachcamau.com có tạo file robots.txt hay không bằng cách như trên:

Nhập Root Domain (https://cuagachcamau.com) > chèn /robots.txt vào cuối (kết quả là https://cuagachcamau.com/robots.txt) > Nhấn Enter. Và đợi tác dụng là biết ngay thôi!

robot txt, file robots.txt chuẩn seoCách kiểm tra File robots.txt

Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?

Cho đến nay, tổng thể đều xử lý một quy tắc tại một thời điểm. Nhưng nếu bạn muốn áp dụng những quy tắc khác nhau cho những bot khác nhau thì sao? 

Bạn chỉ cần thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot. 

Ví dụ: Nếu bạn muốn tạo một quy tắc áp dụng cho hàng loạt những bot và một quy tắc khác chỉ áp dụng cho Bingbot, bạn có thể triển khai như sau:

User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

Ở đây, tất cả những bot sẽ bị chặn truy vấn / wp-admin / nhưng Bingbot sẽ bị chặn truy vấn toàn bộ website của bạn.

3 Cách tạo file robots.txt WordPress đơn giản

Nếu sau khi kiểm tra, bạn nhận thấy website của mình không có tệp robots.txt hay đơn thuần là bạn đang muốn biến hóa tệp robots.txt của mình. Hãy tìm hiểu thêm 3 cách tạo robots.txt cho WordPress dưới đây:

1. Sử dụng Yoast SEO

Bạn có thể chỉnh sửa hoặc tạo file robots.txt cho WordPress trên chính WordPress Dashboard với vài bước đơn giản. Đăng nhập vào website của bạn, khi đăng nhập vào bạn sẽ thấy giao diện của trang Dashboard.

Nhìn phía bên trái màn hình, click vào SEO > Tools > File editor.

robot.txt wordpress, file robot.txt có tác dụng gìVào phần Tools của SEOtạo robots.txt cho wordpressBấm vào File Editor để bắt đầu tạo Robots.txt

Tính năng file editor sẽ không Open nếu WordPress của bạn vẫn chưa được kích hoạt trình quản lý chỉnh sửa file. Do vậy hãy kích hoạt chúng thông qua FTP (File Transfer Protocol – Giao thức truyền tập tin).

Lúc này bạn sẽ thấy mục robots.txt và .htaccess file – đây là nơi giúp bạn tạo file robots.txt đấy.

file robots.txt là gì, robots.txt tùy chỉnhĐiều chỉnh và tạo file robots.txt trực tiếp trên Yoast SEO

2. Qua bộ Plugin All in One SEO

Hoặc bạn có thể sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress – Đơn giản, dễ sử dụng.

Để tạo file robots.txt WordPress, bạn phải đến giao diện chính của Plugin All in One SEO Pack. Chọn All in One SEO > Features Manager > Nhấp Active cho mục robots.txt

Lúc này, trên giao diện sẽ xuất hiện nhiều tính năng thú vị:

robot.txt, tạo file robot.txt cho websiteNhấn Activate để kích hoạt Robots.txt

Và khi đó, mục robots.txt sẽ xuất hiện như một tab mới trong thư mục lớn All in One SEO. Bạn có thể tạo lập cũng như điều chỉnh file robots.txt WordPress tại đây.

tạo file robots txt cho websiteTạo lập và điều chỉnh file robots.txt WordPress tại đây.

Tuy nhiên, bộ plugin này có một chút ít khác biệt so với Yoast SEO tôi vừa đề cập ở trên.

All in One SEO làm mờ đi thông tin của file robots.txt thay vì bạn được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến bạn hơi bị động một chút khi chỉnh sửa file robots.txt WordPress. Tuy nhiên, tích cực mà nói, yếu tố này sẽ giúp bạn hạn chế thiệt hại cho website của mình. Đặc biệt một số Malware bots sẽ gây hại cho website mà bạn không ngờ tới.

3. Tạo rồi upload file robots.txt qua FTP

Nếu bạn không muốn sử dụng plugin để tạo file robots.txt WordPress thì tôi có 1 cách này cho bạn – Tự tạo file robots.txt bằng tay thủ công cho WordPress của mình.

wordpress robots.txt, disallow robots.txtUpload file robots.txt qua FTP

Bạn chỉ mất vài phút để tạo file robots.txt WordPress này bằng tay. Sử dụng Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress theo Rule tôi đã trình làng ở đầu viết. Sau đó upload file này qua FTP không cần sử dụng plugin, quá trình này rất đơn giản không tốn bạn quá nhiều thời hạn đâu.

Một số quy tắc khi tạo file robots.txt

  • Để được những con bot tìm thấy thì những file robots.txt WordPress phải được đặt trong những thư mục cấp cao nhất của trang web.
  • Txt phân biệt chữ hoa và chữ thường. Vì thế tệp phải được đặt tên là robots.txt. (không phải Robots.txt hay robots.TXT, …)
  • Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công cụ nhìn nhận chính xác về giao diện blog hay website của bạn.
  • Một số User-agent chọn cách bỏ lỡ các file robots.txt chuẩn của bạn. Điều này khá phổ biến với các User-agent bất chính như:
    • Malware robots (bot của các đoạn mã độc hại)
    • Các trình Scraping (quá trình tự thu thập thông tin) địa chỉ E-Mail
  • Các tệp robots.txt thường có sẵn và được công khai trên web. Bạn chỉ cần thêm /robots.txt vào cuối bất kỳ Root Domain để xem các thông tư của website đó. Điều này có nghĩa là bất kì ai cũng thấy các trang bạn muốn hoặc không muốn crawl. Vì vậy đừng sử dụng các tệp này để ẩn thông tin cá thể của người dùng.
  • Mỗi Subdomain trên một một Root Domain sẽ sử dụng các file robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com nên có các tệp robots.txt riêng (blog.example.com/robots.txt và example.com/robots.txt). Tóm lại, đây được xem là cách tốt nhất để chỉ ra vị trí của bất kì sitemaps nào được link với domain ở cuối tệp robots.txt.

Đọc thêm: 13 Lỗi gây “SEO mãi không lên TOP”

Một số chú ý quan tâm khi sử dụng file robots.txt

Hãy bảo vệ rằng bạn không chặn bất kì nội dung hoặc phần nào trên website mà bạn muốn Google index.

Các liên kết trên trang bị chặn bởi việc robots.txt sẽ không được các bot theo dõi. Trừ khi các link này có liên kết với các trang khác (các trang không bị chặn bởi robots.txt, Meta Robots,…). Nếu không, các tài nguyên được liên kết có thể sẽ không được thu thập và lập chỉ mục.

Link juice sẽ không được truyền từ các trang bị chặn đến các trang đích. Vì thế nếu muốn dòng sức mạnh Link juice truyền qua các trang này thì bạn hãy sử dụng một phương pháp khác thay vì tạo robots.txt WordPress.

Không nên sử dụng file robots.txt để ngăn dữ liệu nhạy cảm (như thông tin người dùng riêng tư) xuất hiện trong tác dụng SERP. Bởi vì website chứa thông tin cá thể này có thể liên kết với nhiều website khác. Do đó các con bot sẽ bỏ quá các chỉ thị của tệp robots.txt trên Root Domain hay trang chủ của bạn, nên website này vẫn có thể được lập chỉ mục.

Nếu bạn muốn chặn website này khỏi các tác dụng tìm kiếm, hãy sử dụng một phương pháp khác thay vì tạo file robots.txt cho WordPress như dùng mật khẩu bảo vệ hay Noindex Meta Directive. Một số công cụ tìm kiếm có rất nhiều User-agent. Chẳng hạn, Google sử dụng Googlebot cho các tìm kiếm miễn phí và Googlebot-Image cho các tìm kiếm hình ảnh.

Hầu hết các User-agent từ cùng một công cụ đều tuân theo một quy tắc. Do đó bạn không cần chỉ định các lệnh cho từng User-agent. Tuy nhiên việc làm này vẫn có thể giúp bạn điều chỉnh được cách Index nội dung trang web.

Các công cụ tìm kiếm sẽ tàng trữ nội dung file robots.txt WordPress. Tuy nhiên nó vẫn thường update nội dung trong bộ nhớ cache ít nhất một lần một ngày. Nếu bạn đổi khác tệp và muốn cập nhật tệp của mình nhanh hơn thì hãy sử dụng ngay công dụng Gửi của Trình kiểm tra tệp robots.txt.

Câu hỏi thường gặp về robots.txt

Dưới đây là một số câu hỏi thường gặp, có thể là những vướng mắc của bạn về robots.txt bây giờ:

Kích thước tối đa của file robots.txt là bao nhiêu?

500 kilobyte (khoảng).

File robots.txt WordPress nằm ở đâu trên website?

Tại vị trí: domain.com/robots.txt.

Làm cách nào để chỉnh sửa robots.txt WordPress?

Bạn có thể thực thi theo cách thủ công hoặc sử dụng một trong nhiều plugin WordPress SEO như Yoast cho phép bạn chỉnh sửa robots.txt từ WordPress backend.

Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?

Google sẽ không bao giờ thấy lệnh Noindex vì nó không thể Crawl dữ liệu trang.

Tôi dùng cùng một tệp robots.txt cho nhiều trang web. Tôi có thể dùng một URL đầy đủ thay cho một đường dẫn tương đối được không?

Không, các lệnh trong tệp robots.txt (ngoại trừ mã Sitemap:) chỉ áp dụng cho các đường dẫn tương đối.

Làm cách nào để tôi có thể tạm ngừng toàn bộ hoạt động thu thập dữ liệu website của mình?

Bạn có thể tạm ngừng toàn bộ hoạt động thu thập dữ liệu bằng cách trả về một mã tác dụng HTTP 503 cho mọi URL, bao gồm cả tệp robots.txt. Bạn không nên đổi khác tệp robots.txt để chặn hoạt động thu thập dữ liệu.

Làm thế nào để chặn tất cả các Web Crawler?

Tất cả bạn cần làm là truy vấn Settings  > Reading và chọn ô bên cạnh tùy chọn Search Engine Visibility.

tạo robots.txtTick chọn “Discourage search engines from indexing this site” để chặn tất cả các web crawler index site của bạn

Khi đã được chọn, WordPress thêm dòng này vào tiêu đề của website của bạn:

meta name='robots' content='noindex,follow'

WordPress cũng thay đổi file robots.txt của website của bạn và thêm những dòng này:

User-agent: *
Disallow: /

Những dòng yêu cầu các robot (các web crawler) không index các trang của bạn. Tuy nhiên, nó hoàn toàn phụ thuộc vào việc các công cụ tìm kiếm chấp nhận yêu cầu này hay bỏ qua nó.

Chặn trình thu thập, tìm kiếm thông tin của Google:

Để chặn trình thu thập, tìm kiếm thông tin của Google (User-agent: Googlebot) không thu thập bất kỳ trang nào có chứa chuỗi URL www.example.com/example-subfolder/. Bạn hãy sử dụng cú pháp sau:

User-agent: Googlebot
Disallow: /example-subfolder

Chặn trình thu thập thông tin của Bing:

Bạn hãy sử dụng cú pháp sau:

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

Robots.txt, Meta robot và X-robot khác nhau như thế nào?

Đầu tiên, robots.txt là một tệp văn bản trong khi Meta robot và X-robot là các Meta Directives. Ngoài ra, chức năng của 3 loại Robot này cũng hoàn toàn khác nhau.

Meta Robot là các đoạn mã cung cấp hướng dẫn cho trình thu thập thông tin về cách thu thập dữ liệu hoặc lập chỉ mục nội dung trang web.

không có mô tả cho kết quả này do robots.txt của website nàyThẻ Meta robot

Nó được đặt vào phần của website và trông giống như:

X-robot là một phần của tiêu đề HTTP được gửi từ sever web. Không giống như thẻ meta robots, thẻ này không được đặt trong HTML của một trang (tức phần của trang web).

file robots.txt wordpressX-robots

X-Robots được sử dụng để ngăn các công cụ tìm kiếm lập chỉ mục các loại tệp cụ thể như hình ảnh hoặc PDF, ngay cả đối với các tệp không phải HTML.

Bất kỳ lệnh nào dùng được trong thẻ meta robots cũng có thể được chỉ định là một X-Robots.

Bằng cách cho phép bạn trấn áp cách các loại tệp cụ thể được lập chỉ mục, X-Robots cung cấp sự linh động hơn thẻ Meta robots và tệp robots.txt.

Việc tạo file robots.txt ra lệnh cho việc Index toàn bộ website hoặc thư mục. Trong khi đó thì Meta robot và X-robot có thể ra lệnh cho việc Index ở cấp độ trang riêng lẻ.

Kết luận

Bây giờ đến lượt bạn rồi đấy! Bạn đã biết file robots.txt là gì chưa? Đã kiểm tra xem website của mình đã có file robots.txt hay chưa. Tạo lập và chỉnh sửa file robots.txt WordPress theo ý của bạn nhằm hỗ trợ các con bot của công cụ tìm kiếm thu thập dữ liệu và index trang web của bạn nhanh chóng.

Nếu sau khi đọc xong bài viết cụ thể này mà bạn vẫn cảm thấy khó hiểu, bạn hoàn toàn có thể xem xét đăng ký khóa học hay chương trình đào tạo SEO tại GTV nhé!

Chúc bạn thành công!

Đọc tiếp:

Bạn cảm thấy sợ hãi với lượng kỹ năng và kiến thức SEO dồn dập trên mạng như hiện nay? Một khoá học SEO chuyên nghiệp có lộ trình rõ ràng, bài bản sẽ cùng bạn vượt qua cơn nhức đầu này!

Xem ngay:

  1. Khoá học SEO Fundamental – Thành thục SEO trong 29 ngày!
  2. 3 Ngày học thử khoá học SEO Online miễn phí Entity Mastermind!