Thiết kế & phát triển website thân thiện với công cụ tìm kiếm – Xây dựng liên kết

Cấu trúc link có thể thu thập dữ liệu

Cũng giống như cần nhìn thấy nội dung để liệt kê các site vào cơ sở dữ liệu khổng lồ của chúng, chúng cũng cần xem xét link để nội dung. Link có cấu trúc có thể thu thập dữ liệu-cái mà cho phép các spider có thể duyệt qua những con đường trong website-rất quan trọng để giúp chúng tìm thấy mọi trang của một site. Hàng trăm ngàn site mắc một sai lầm nghiêm trọng trong thiết cập cấu trúc điều hướng cho link khiến công cụ tìm kiếm không thể truy cập, làm giảm khả năng tất cả các trang trong site được lưu vào bộ nhớ của công cụ tìm kiếm.

Bên dưới, chúng tôi giới thiệu các nguyên nhân khiến vấn đề này xảy ra

Thiết kế & phát triển website thân thiện với công cụ tìm kiếm - Xây dựng liên kết - xây dựng liên kết - Search Engine Marketing

Trong ví dụ trên, Google đã truy cập trang chủ A và thấy các link liên kết đến trang B và E. Tuy nhiên, mặc dù trang C và D có thể rất quan trọng trong site nhưng các spider không thể đi đến chúng (hoặc không biết là chúng tồn tại). Đó là do không có bất cứ điều hướng, link có thể thu thập dữ liệu nào tới các trang này. Đối với Google, chúng có thể không tồn tại-nội dung tuyệt vời, mục tiêu từ khóa tốt, quảng bá sẽ chẳng có ý nghĩa gì nếu như spider không tìm thấy chúng ở trang đầu tiên.

Thiết kế & phát triển website thân thiện với công cụ tìm kiếm - Xây dựng liên kết - xây dựng liên kết - Search Engine Marketing

Cấu trúc của một link

Thiết kế & phát triển website thân thiện với công cụ tìm kiếm - Xây dựng liên kết - xây dựng liên kết - Search Engine Marketing

Trong hình minh họa trên, tag “<a” cho biết sự bắt đầu của một liên kết. Link tags có thể chứa hình ảnh, văn bản, hoặc các đối tượng khác. Đây là yếu tố điều hướng ban đầu của Internet-“Hyperlinks”. Vị trí link giới thiệu cho công cụ tìm kiếm biết nơi đường link chỉ tới. Trong ví dụ, link giới thiệu là http://www.jonwye.com. Kế đến, phần hiện thị trong link cho khách ghé thăm, được gọi là “anchor text” trong thế giới SEO, miêu tả trang mà link chỉ tới. Trang được chỉ tới là về “custom belts”. tag “</a>” là phần kết thúc của link, vì vậy những yếu tố sau trong trang sẽ không có link thuộc tính áp dụng cho chúng.

Đây là dạng đơn giản của link. Và nó hoàn toàn dễ hiểu đối với công cụ tìm kiếm và các spider biết rằng nên thêm link này vào đồ thị link của site. Sử dụng nó để tính toán các biến truy vấn độc lập (như pagerank của Google) và theo đó để lập chỉ mục nội dung của trang giới thiệu.

Hãy xem qua vài nguyên nhân phổ biến khiến nhiều trang không được truy cập

Các form thông tin bắt buộc

Nếu bạn yêu cầu người dùng hoàn thành một form thông tin trước khi truy cập vào nội dung chính, có thể Google sẽ không bao giờ truy cập vào các trang đã được bảo vệ này. Form có thể là yêu cầu đăng nhập với mật khẩu hoặc một bản khảo sát toàn diện. Trong trường hợp này, các spider sẽ không cố gắng submit form và do đó bất kì nội dung chỉ được truy cập sau khi hoàn thành form sẽ vô hình với công cụ tìm kiếm.

Các robot không sử dụng khung tìm kiếm

Mặc dù điều này liên quan chặt chẽ với cảnh báo trên nhưng nhiều webmaster vẫn mắc phải lỗi này với mong muốn các robot sẽ sử dụng khung tìm kiếm như con người để tìm kiếm nội dung. Và vì thế rất nhiều trang không thể tiếp cận cho đến khi chúng được đặt liên kết trên những trang đã được thu thập.

Các link nằm trong Javascript không được phân tích

Nếu bạn sử dụng Javascript cho link, bạn sẽ thấy công cụ tìm kiếm không thu thập hoặc đánh giá nhẹ chúng. Các Link tiêu chuẩn HTML nên thay thế cho Javascript (hoặc kèm theo nó) trên bất kì trang nào bạn muốn chúng được spider quan tâm.

Những link chứa trong flash, java, và những plug-in khác

Các link nhúng trong site Panda ở ví dụ của bài trước (Thiết kế & phát triển website thân thiện với công cụ tìm kiếm – Lập chỉ mục) là ví dụ hoàn hảo cho hiện tượng này. Mặc dù rất nhiều link được đặt trong trang chủ của Panda, nhưng chẳng có spider nào có thể truy cập vào chúng thông qua cấu trúc của site này, chúng vô hình trước công cụ tìm kiếm và chưa thể phục hồi khi nguời dùng thực hiện một truy vấn.

Link chỉ tới các trang bị chặn bởi meta robot tag hoặc robots.txt

Cả meta robot tag và robots.txt đều cho phép người dùng chặn các công cụ tìm kiếm truy cập những trang cụ thể. Chúng tôi chỉ cảnh báo rằng nhiều webmaster đã vô tình sử dụng chúng để ngăn chặn những chương trình gỉả mạo và vô tình ngăn cản công cụ tìm kiếm thu thập nội dung các trang trong site.

Link trên các trang có hàng trăm hoặc hàng ngàn liên kết

Công cụ tìm kiếm chỉ thu thập được nhiều link chứ không phải là vô tận link trong một trang. Bạn nên cắt giảm những link rác và bảo tồn các link có giá trị. Nếu trang web của bạn có trên 100 link, sẽ có nguy cơ trên 100 link đó không được thu thập và lập chỉ mục hoàn toàn.

Frames hoặc I-frames

Về mặt kĩ thuật, link trong cả Frames và I-frames đều có thể thu thập dữ liệu, nhưng cả hai cấu trúc trên đều gây ra những vấn đề cho công cụ tìm kiếm trong việc tổ chức và theo dõi. Trừ khi bạn là một chuyên gia thấu hiểu cách các công cụ tìm kiếm thu thập thông tin trên những Frames hoặc I-frames, nếu không thì bạn nên tránh xa chúng.

Nếu bạn tránh xa những cạm bẫy này, bạn sẽ có được những HTML link sạch, có thể thu thập và cho phép các spider truy cập mọi trang trong site của bạn.

Source : ibbvn