Trang Chủ Ý kiến Google, sửa lỗi của bạn! | John c. nỗ lực

Google, sửa lỗi của bạn! | John c. nỗ lực

2024

Video: Nơi ở mới của cá sấu, đi câu cá và con rắn lạ (Phần 3) | Crocodile’s new home (part3) (Tháng Chín 2024)

XEM TẤT CẢ CÁC HÌNH ẢNH TRONG THƯ VIỆN

Để có được tin tức của mình, tôi thường quét Google News, nơi tổng hợp các bài viết từ khắp nơi trên thế giới dựa trên những gì "robot" đã xác định là xu hướng. Đó là tất cả về những gì đang có xu hướng. Nó thường bỏ lỡ tin nóng và hoàn toàn bỏ qua bình luận quan trọng, như cột của tôi. Thay vào đó, nó dường như thích đi đến các liên kết chết mà theo ý tôi là Wall Street Journal, đòi hỏi phải đăng ký để đọc.

Hôm nay là một trường hợp tại điểm. Có một câu chuyện mới về CES về Dish Network khi đấu thầu mua Clearwire. Nhưng thay vì liên kết với bất kỳ câu chuyện liên quan nào bằng các trang web miễn phí và dễ đọc, Google quyết định rằng câu chuyện hàng đầu nên đến từ Tạp chí Phố Wall .

Trước đây, Google có một số loại thỏa thuận cho phép người dùng ít nhất đọc đoạn dẫn, hoặc thậm chí toàn bộ bài viết, trước khi bị chặn bởi paywall. Trừ khi bạn biết một mẹo bỏ qua (được thảo luận dưới đây), điều này không còn được áp dụng. Bây giờ bạn chạy vào paywall và bạn đã hoàn thành. Tôi cho rằng những người đăng ký thực tế vượt qua điều này nhưng tôi tự hỏi làm thế nào các bot của Google có được nó để tìm câu chuyện ngay từ đầu. Google có trả tiền không? Tôi nghi ngờ điều đó. Vì vậy, phải có một số loại cửa hậu cho các bot Google, phải không?

Điều này là không có thật và làm mất lòng tin đối với người dùng Google. Google vượt qua tất cả những rắc rối này để đánh bại những người đang cố gắng chơi trò chơi trên hệ thống nhưng nó có cho phép Wall Street Journal kéo được sự đóng thế này không? Đây thực chất là một khoản thanh toán cho đăng ký của Wall Street Journal . Đó có phải là những gì Google muốn? Google có bị cắt giảm không?

Google không khó để khắc phục sự phiền toái này. Nó sẽ mất một phút mà năm ngọn. Đó có phải là quá nhiều công việc?

Nếu một công ty có một paywall được tích hợp trong dịch vụ của mình, Google hoàn toàn không nên tìm kiếm trang web. Các bot nên biết có một paywall và chỉ cần tránh tìm kiếm. Và, vâng, tôi muốn một lời giải thích về cách chính xác các bot có thể tìm kiếm một trang web bị chặn bởi một tường thành. Đó là một bí ẩn.

Một paywall phải chính xác giống như một "robot.txt" báo cho bot thu thập thông tin biến mất. Nhưng có điều gì đó không hay về mối quan hệ WSJ -Google. Cách dễ nhất để tiêu diệt tất cả các bot là thẻ meta trong tệp robot.txt, do đó: .

XEM TẤT CẢ CÁC HÌNH ẢNH TRONG THƯ VIỆN

WSJ thay vào đó đặc biệt chặn một số thư mục con nhất định, nhưng dường như không phải tất cả. Và kỳ lạ hơn nữa, nếu bạn thực hiện tìm kiếm Google News cho cùng một bài viết, thay vì chỉ cần nhấp vào liên kết trong danh sách, bạn sẽ có được bài viết thông qua một số cơ chế khác.

Tôi thách thức các độc giả kỹ thuật ngoài kia để tìm hiểu chuyện gì đang xảy ra với hai người này bằng cách kiểm tra tệp robot.txt do WSJ sử dụng. Một tài liệu công khai có sẵn ở đây.

Dù thế nào đi nữa, các trang web đều có paywalls vì lý do tài chính. Nếu họ muốn chơi trò chơi với nội dung của họ thì đó là một điều, nhưng nó nên bị cấm đối với kết quả tìm kiếm giống như cách Google cố gắng cản trở mọi người cố gắng chơi trò chơi trên hệ thống. Google sẽ cấm một blogger không may làm rơi mũ vì một số hành vi sơ sài. Làm thế nào về việc đối phó với các trang web lớn hơn theo cùng một cách?

Bạn có thể theo dõi John C. Dvorak trên Twitter @therealdvorak.

Thêm John C. Dvorak:

Đi lạc đề với John C. Dvorak.

XEM TẤT CẢ CÁC HÌNH ẢNH TRONG THƯ VIỆN