Hướng dẫn nhanh cách viết tệp Robots.txt

Làm thế nào để bạn tham khảo một cuốn sách giáo khoa khổng lồ? Lọc qua chỉ mục. Chà: có một yếu tố là bản tóm tắt thực sự về trang web của bạn…

Robots.txt: Mã lập trình ngày càng tinh vi hơn
Mã lập trình được thiết lập để trở nên tinh vi hơn bao giờ hết

Cách duy nhất để liên lạc với trình thu thập dữ liệu của công cụ tìm kiếm hoặc thu thập thông tin, thông qua một tệp có tên robots.txt. Hoặc tốt hơn. Khi bạn gửi đề xuất trang web của mình tới Google, bạn sẽ phải đối mặt với một lượng thông tin khổng lồ.

Làm thế nào để bạn tham khảo một cuốn sách giáo khoa quá lớn đến nỗi bạn cảm thấy như mình sẽ không bao giờ tìm thấy mọi thứ mình cần? bạn tham khảo chỉ số. Chà: tệp robots.txt là chỉ mục của trang web của bạn.

Đây là một tài liệu dễ điền thông báo cho trình thu thập thông tin của công cụ tìm kiếm những gì cần tìm. Tóm lại: bạn sẽ giúp anh ấy hiểu trang web của bạn được làm từ gì, để thuật toán có thể cung cấp cho bạn thứ hạng phù hợp với công việc bạn đã thực hiện.

Có ai có thể viết tệp robots.txt không?

Câu trả lời ngắn gọn là có. Câu trả lời trung thực là không. Mặc dù ngữ pháp của tệp robots.txt cực kỳ đơn giản và thành phần của nó bao gồm một vài dòng, nhưng tốt hơn hết bạn nên nhờ đến sự chăm sóc của một quản trị viên web chuyên nghiệp, người biết đặt tay vào đâu. Xét cho cùng, một lỗi nhỏ cũng đủ để ảnh hưởng đến vị trí trang web của bạn và do đó khiến tất cả các hoạt động SEO bị đình trệ trước khi bắt đầu.

Trước khi bạn bắt đầu, hãy biết một điều: bất kỳ ai cũng có thể tham khảo tệp robots.txt của bất kỳ trang web nào bằng cách viết /robots.txt sau tên miền. Bạn thậm chí có thể tham khảo ý kiến ​​​​của Google!

Bạn có thể viết một tệp như vậy mà không cần tải xuống phần mềm đặc biệt. Trên thực tế, chỉ cần sử dụng notepad của bạn và lưu, đoán xem, ở định dạng .txt là đủ.

Hãy cùng nhau viết một tệp robots.txt: tiêu đề

Hãy bắt đầu lại từ đầu, vì nó luôn hợp lý để làm. Việc mở tệp, hay đúng hơn là tiêu đề, hoàn toàn dành riêng cho tên của con nhện, trước một từ ngữ nhỏ luôn giống nhau. Giả sử bạn muốn được Google chú ý. Vì vậy, dòng đầu tiên sẽ là:

Tác nhân người dùng: Googlebot

Chuỗi rất ngắn này cho Google biết rằng mọi thứ tiếp theo chắc chắn sẽ được Google quan tâm. Trong trường hợp bạn muốn tất cả các trình thu thập dữ liệu đọc loại tệp này có thể tham khảo tài liệu, hãy thay thế Googlebot bằng *, a đơn giản dấu hoa thị.

Bây giờ bạn đã chỉ ra con nhện nào, tức là AI, bạn sẽ cần chỉ ra cũng như NHỮNG GÌ anh ấy sẽ phải đọc.

Mỗi dòng mã, theo định nghĩa, tương ứng với một hành động của máy. Rõ ràng là mỗi lệnh trong tệp robots.txt tương ứng với những gì máy không nên làm. Và đây là chìa khóa cho phép bạn viết một cái thực sự hiệu quả. Chúng ta đang nói về lệnh DISALLOW.

Lệnh KHÔNG CHO PHÉP là gì?

Il lệnh không cho phép cho phép bạn suy luận bằng cách loại trừ. Nói cách khác, khi người ta nói rằng điều gì không nên làm thì trước tiên - tốt, bạn đang lập luận bằng cách loại trừ. Ngoài không cho phép, còn có cho phép, đây là ngoại lệ đối với khối.

Nếu bạn muốn viết một tệp tin rô bốt tốt, bạn sẽ phải suy nghĩ theo cách khác, vì vậy bạn sẽ phải cho Google biết những gì nó không nên đọc. Nếu bạn viết:

Không cho phép:

Con nhện sẽ đọc toàn bộ trang web của bạn mà không có bất kỳ phanh nào.

Nếu sau “Không cho phép:” bạn chèn một dấu gạch chéo (do đó Không cho phép: /), trang web sẽ không được đưa vào công cụ tìm kiếm, dừng lại hoàn toàn.

Không cho phép: /thư mục/

Thay thế thư mục từ bằng thư mục bạn muốn bị từ chối khỏi chế độ xem nhện. Bạn có thể làm tương tự với một tệp cụ thể.

Không cho phép: /myfile.html

Chú ý đến dấu câu và chữ cái, chữ hoa hoặc chữ thường. Loại tệp này coi trọng những loại "lặt vặt" này, nhưng chúng tạo ra sự khác biệt lớn.

Tại sao bạn lại ngăn Google đọc một phần lớn trang web của bạn? Khi bạn viết một tệp thuộc loại này, điều quan trọng là phải hiểu tệp nào không nên xuất hiện trên công cụ tìm kiếm, nhưng không lạm dụng chúng. Tuy nhiên, hãy biết rằng bất kỳ ai biết địa chỉ chính xác của tệp cụ thể đó đều có thể truy cập tệp đó trong bất kỳ trường hợp nào.

Lệnh CHO PHÉP là gì?

Trong tệp, bạn có thể thêm một ngoại lệ bằng lệnh Cho phép. Ngữ pháp giống hệt nhau, nhưng nó sẽ tạo ra một số ngoại lệ đối với KHÔNG CHO PHÉP, điều này sẽ cho phép mở ra những phạm vi khám phá thú vị cho con nhện.

Một tệp mẫu nhỏ:

Tác nhân người dùng: Googlebot

Không cho phép: /hình ảnh/

Cho phép: /images/holidays.jpg

Về cơ bản, chúng tôi đã yêu cầu Googlebot không xem xét thư mục hình ảnh, ngoại trừ một bức ảnh cụ thể bên trong nó, cụ thể là bức ảnh từ các ngày lễ.

Và đó, các bạn, là nó. Chúng tôi đã viết tệp robots.txt đầu tiên của mình. Chắc chắn, những gì chúng tôi sẽ làm cho trang web thực tế có thể hơi khác một chút, nhưng không nhiều. Nếu nghi ngờ, hãy luôn nhận lời khuyên từ một quản trị viên web chuyên biệt. Trước hết, chúng tôi khuyên bạn nên cố gắng tự viết nó và gửi cho anh ấy kiểm tra để nắm vững những điều cơ bản và hiểu rõ hơn về cách trang web của bạn hoạt động.

Mối tương quan giữa robots.txt và sơ đồ trang web là gì?

Sơ đồ trang web là một tệp được tạo bởi các plugin đặc biệt có chứa tất cả các liên kết trên trang web. Khi con nhện vào trang web, trước tiên nó sẽ đọc các rô-bốt, sau đó thu thập dữ liệu trang web. Nếu trong quá trình thu thập dữ liệu, rô-bốt tìm thấy địa chỉ sơ đồ trang web, toàn bộ quá trình sẽ dễ dàng hơn nhiều.

Thêm đoạn mã sau vào đoạn mã trên:

Sơ đồ trang web: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

Trong kết luận

Tất cả các tệp robot đều giống nhau. Điều này có nghĩa là tệp Robots được viết cho Google cũng sẽ hoạt động tốt cho Bing và tuân theo cùng một ngữ pháp.

Tệp robots.txt được tổ chức tốt cho phép bạn tiết kiệm thời gian thu thập thông tin. Đừng nản lòng: đây là bước đầu tiên hướng tới thành công!

Robots.txt: Google là công cụ tìm kiếm mạnh nhất trên Internet
Google là công cụ tìm kiếm mạnh nhất trên Internet