Robots
Exclusion Protocol (REP) hay còn gọi là Robots.txt là một file text được người
quản trị web tạo ra để hướng dẫn cho con bọ của công cụ tìm kiếm thu thập dữ liệu
và index các pages trên trang web của họ.
Robots.txt là gì?
Robots Exclusion Protocol (REP) là tập hợp các tiêu chuẩn web để điều
chỉnh hành vi của robot
web và lập chỉ mục cho công cụ
tìm kiếm.
Robots.txt |
Mẫu code Robots.txt
- Chặn tất cả robot với tất cả
các nội dung:
User-agent: *
Disallow: /
- Chặn 1 robot với 1 folder
User-agent: Googlebot
Disallow: /no-google/
- Chặn 1 robot với 1 trang
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
- Cho phép 1 robot vào 1 trang
User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: rogerbot
Allow: /no-bots/block-all-bots-except-rogerbot-page.html
- Thông số sitemap
User-agent: *
Disallow:
Sitemap:
http://www.example.com/none-standard-location/sitemap.xml
Robots Exclusion Protocol Tags
Áp dụng cho thẻ URI, REP (noindex,
nofollow, unavailable_after) điều chỉnh việc robot index, và trong một số trường
hợp (nosnippet, noarchive, noodp) thậm chí là có thể dùng để truy vấn bộ máy tìm kiếm
trong thời gian chạy một truy vấn tìm kiếm. Khác với chỉ thị cho Google Spider,
mỗi công cụ tìm kiếm có thể hiểu thẻ REP theo một cách khác nhau. Khi thẻ REP có thể được sử
dụng trong các yếu tố META của nội dung X / HTML cũng như trong các HTTP Header của bất kỳ đối tượng
web nào, cần tránh các chỉ thị xung đột trong các yếu tố META.
Microformats
Cách hiển thị Index theo hình thức
trang đặc biệt Microformats sẽ bỏ qua các cài đặt cho các phần tử của HTML ở trên trang. Phương
pháp này cần đòi hỏi
phải có kỹ năng lập trình và hiểu biết tốt về các máy chủ web và hiểu về giao thức HTTP.
Mô hình kết hợp
Google và Bing đều sử dụng hai biểu
thức thông thường mà có thể được sử dụng để xác định các trang hoặc các thư mục con muốn loại trừ.
Hai ký tự là dấu hoa thị sao (*) và kí hiệu đồng đô la ($).
(*): Là một ký tự đại diện cho chuỗi
ký tự bất kỳ
($): Phù hợp với kết thúc của URL
Công khai thông tin
Bạn cần biết rằng file robots.txt là
một tập tin công bố công khai. Người quản trị web có thể công khai nó cho tất cả mọi người đều có
thể nhìn thấy những thư mục mà họ không muốn bị công cụ tìm kiếm thu thập dữ liệu.
Điều này có nghĩa là nếu bạn có thông
tin người dùng nhưng bạn không muốn cho công khai tìm kiếm, bạn nên sử dụng phương pháp an toàn hơn
để giữ khách truy cập xem bất kỳ trang nào bí mật mà không muốn lập chỉ mục.
Không có nhận xét nào:
Đăng nhận xét