Thứ Tư, 9 tháng 9, 2015

Khái niệm về Robots.txt?

Robots Exclusion Protocol (REP) hay còn gọi là Robots.txt là một file text được người quản trị web tạo ra để hướng dẫn cho con bọ của công cụ tìm kiếm thu thập dữ liệu và index các pages trên trang web của họ.

Robots.txt là gì?

Robots Exclusion Protocol (REP) là tập hợp các tiêu chuẩn web để điều chỉnh hành vi của robot web và lập chỉ mục cho công cụ tìm kiếm.
Robots.txt
Mẫu code Robots.txt
- Chặn tất cả robot với tất cả các nội dung:
User-agent: *
Disallow: /
- Chặn 1 robot với 1 folder
User-agent: Googlebot
Disallow: /no-google/
- Chặn 1 robot với 1 trang
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
- Cho phép 1 robot vào 1 trang
User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: rogerbot
Allow: /no-bots/block-all-bots-except-rogerbot-page.html
- Thông số sitemap
User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml
Robots Exclusion Protocol Tags
Áp dụng cho thẻ URI, REP (noindex, nofollow, unavailable_after) điều chỉnh việc robot index, và trong một số trường hợp (nosnippet, noarchive, noodp) thậm chí là có thể dùng để truy vấn bộ máy tìm kiếm trong thời gian chạy một truy vấn tìm kiếm. Khác với chỉ thị cho Google Spider, mỗi công cụ tìm kiếm có thể hiểu thẻ REP theo một cách khác nhau. Khi thẻ REP có thể được sử dụng trong các yếu tố META của nội dung X / HTML cũng như trong các HTTP Header của bất kỳ đối tượng web nào, cần tránh các chỉ thị xung đột trong các yếu tố META.
Microformats
Cách hiển thị Index theo hình thức trang đặc biệt Microformats sẽ bỏ qua các cài đặt cho các phần tử của HTML ở trên trang. Phương pháp này cần đòi hỏi phải có kỹ năng lập trình và hiểu biết tốt về các máy chủ web và hiểu về giao thức HTTP.
Mô hình kết hợp
Google và Bing đều sử dụng hai biểu thức thông thường mà có thể được sử dụng để xác định các trang hoặc các thư mục con muốn loại trừ. Hai ký tự là dấu hoa thị sao (*) và kí hiệu đồng đô la ($).
(*): Là một ký tự đại diện cho chuỗi ký tự bất kỳ
($): Phù hợp với kết thúc của URL
Công khai thông tin
Bạn cần biết rằng file robots.txt là một tập tin công bố công khai. Người quản trị web có thể công khai cho tất cả mọi người đều có thể nhìn thấy những thư mục mà họ không muốn bị công cụ tìm kiếm thu thập dữ liệu.

Điều này có nghĩa là nếu bạn có thông tin người dùng nhưng bạn không muốn cho công khai tìm kiếm, bạn nên sử dụng phương pháp an toàn hơn để giữ khách truy cập xem bất kỳ trang nào bí mật mà không muốn lập chỉ mục.

Không có nhận xét nào:

Đăng nhận xét