Trang Chủ Đặc trưng Những người ủng hộ này muốn đảm bảo dữ liệu của chúng tôi không biến mất

Những người ủng hộ này muốn đảm bảo dữ liệu của chúng tôi không biến mất

2024

Mục lục:

Tìm đến Thư viện
Quan hệ đối tác công tư
Dữ liệu cũ và mới
Tài nguyên:

Video: Chá»ng khÃ´ng cho ráº±ng viá»c xem phim Äen cá»§a anh lÃ sai trÃ¡i (Tháng mười một 2024)

Vào cuối tháng Năm năm nay, chính xác năm tháng kể từ ngày nhậm chức Tổng thống thứ 45 của Hoa Kỳ, một nhóm người quan tâm đến lập trường của chính quyền mới đối với khoa học và biến đổi khí hậu đã đánh dấu kỷ niệm đặc biệt của riêng mình.

Cách khuôn viên của Đại học Bắc Texas không xa, trên vùng đồng bằng phía bắc Dallas, hàng chục cá nhân đã gặp nhau tại Data Cứu Denton để xác định và tải xuống các bản sao của bộ dữ liệu khí hậu và môi trường liên bang. Những cuộc tụ họp theo phong cách hackathon này đã nhận được rất nhiều sự chú ý trong những ngày ngay trước lễ khánh thành; Denton là sự kiện thứ 50 như vậy kể từ tháng Giêng.

Ban đầu, lo ngại rằng chính quyền mới có thể xóa hoặc che khuất khí hậu và các dữ liệu môi trường khác, nỗi sợ hãi tồi tệ nhất của nhân viên cứu hộ dữ liệu dường như trở thành sự thật khi một trong những hành động đầu tiên của Nhà Trắng Trump là xóa các trang thay đổi khí hậu khỏi trang web của họ. Sau đó, Bộ Nông nghiệp Hoa Kỳ, sau khi xóa các báo cáo kiểm tra phúc lợi động vật khỏi trang web của mình, đã đáp ứng yêu cầu Đạo luật Tự do Thông tin Địa lý Quốc gia với 1.771 trang tài liệu được tái cấu trúc hoàn toàn.

Bất cứ ai cũng có thể truy cập hơn 153.000 bộ dữ liệu liên bang thông qua cổng dữ liệu mở của chính phủ trung ương tại data.gov. Nhưng đó chỉ là một phần dữ liệu tồn tại trong tinh vân của bộ máy quan liêu của chính phủ, không bao giờ bận tâm đến phần nhỏ hơn nữa trên máy chủ.

"Ở đâu đó khoảng 20 phần trăm thông tin của chính phủ có thể truy cập được trên web", Jim Jacobs, Thư viện Thông tin Chính phủ Liên bang tại Thư viện Đại học Stanford cho biết. "Đó là một khối lượng khá lớn những thứ không có sẵn. Mặc dù các cơ quan có hệ thống quản lý nội dung và wiki riêng, nhưng lần duy nhất bạn phát hiện ra một số thứ là nếu có ai đó CHIA SẺ."

Để chắc chắn, rất nhiều thông tin đã thực sự bị bắt và hiện đang nằm trên các máy chủ phi chính phủ. Giữa các sự kiện và dự án về nơi trú ẩn dữ liệu như Thu thập thông tin cuối kỳ 2016, hơn 200TB trang web và dữ liệu của chính phủ đã được lưu trữ. Nhưng các nhà tổ chức cứu hộ bắt đầu nhận ra rằng những nỗ lực từng phần để tạo ra các bản sao hoàn chỉnh của terabyte dữ liệu khoa học của cơ quan chính phủ không thể được duy trì một cách thực tế trong suốt thời gian dài, nó sẽ giống như bảo vệ Titanic bằng một cú đập mạnh.

Vì vậy, mặc dù Data Cứu Denton cuối cùng đã trở thành một trong những sự kiện được tổ chức cuối cùng, nhưng nỗ lực tập thể đã thúc đẩy một cộng đồng rộng lớn hơn để hợp tác để tạo ra nhiều dữ liệu chính phủ có thể khám phá, dễ hiểu và có thể sử dụng được, Jacobs đã viết trong một bài đăng trên blog.

Tìm đến Thư viện

Tại Đại học Pennsylvania, Bethany Wiggin là giám đốc Chương trình Penn về Nhân văn Môi trường, nơi cô là trung tâm của phong trào tị nạn dữ liệu, người khởi xướng các sự kiện Giải cứu dữ liệu. Trọng tâm bây giờ đã thay đổi, cô nói, hướng tới việc tận dụng các khuôn khổ quốc gia cho những nỗ lực dài hạn thay vì các tập phim định kỳ, dựa trên địa phương.

"Chúng tôi nhận ra các kỹ năng đang nổi lên ở nhiều nơi thực hiện các sự kiện giải cứu dữ liệu một cái gì đó có thể được thu nhỏ lại, " Wiggin nói, đặc biệt là trên các thư viện nghiên cứu. "Nhưng những nỗ lực này đều đã xảy ra trước khi chúng tôi khởi động. Sức mạnh của Data Refuge đã làm dày thêm các kết nối đó, xúc tác cho các dự án chậm, chậm, và làm sáng tỏ tầm quan trọng của chúng."

Wiggin gần đây đã giúp mũi nhọn Thư viện + Mạng, một quan hệ đối tác mới nổi của các thư viện nghiên cứu, tổ chức thư viện và các nhóm dữ liệu mở được xúc tác để mở rộng vai trò truyền thống của thư viện trong việc duy trì quyền truy cập thông tin. Những người tham gia bao gồm thư viện nghiên cứu của Đại học Stanford, Thư viện kỹ thuật số California và Quỹ Mozilla, với đầu vào và sự hợp tác từ các đơn vị rộng khắp như Lưu trữ quốc gia và các cán bộ dữ liệu của một số văn phòng liên bang.

Chẳng hạn, một dự án là LOCKSS ("rất nhiều bản sao giữ an toàn cho công cụ") mà Jacobs đã điều phối trong nhiều năm. Nó dựa trên nguyên tắc giống như một mạng lưới các thư viện 200 năm tuổi được gọi là Chương trình Thư viện Lưu ký Liên bang; những thư viện này là kho lưu trữ chính thức của các ấn phẩm của Văn phòng In ấn Chính phủ Hoa Kỳ (GPO).

Ngược lại, LOCKSS là phiên bản kỹ thuật số riêng của hệ thống này, bao gồm 36 thư viện thu hoạch các ấn phẩm từ GPO với sự hợp tác của nó. Đây là một mô hình cho cách thông tin kỹ thuật số có thể được bảo vệ khỏi việc xóa hoặc giả mạo bằng cách phân tán vật lý rộng.

"Bạn không thể đảm bảo việc bảo quản trừ khi bạn có quyền kiểm soát nội dung", Jacobs nói. "Một phần trong những điều làm cho các thư viện lưu ký trở nên quan trọng và hữu ích trong 200 năm qua là không ai trong chính phủ có thể chỉnh sửa tài liệu mà không thực sự đến 1.500 thư viện và nói" Vâng, thay đổi một trang này ở đây. ""

Phần mềm LOCKSS sử dụng kiểm tra bộ nhớ cache của nội dung ở cấp độ bit và so sánh nó với nội dung được giữ bởi các thư viện khác, mà Jacobs cho biết giúp đảm bảo bảo quản lâu dài thông qua việc sửa chữa các tệp bị xuống cấp.

John Jigacki, một cộng tác viên khác của Thư viện + Mạng, là giám đốc phụ trách Thư viện Kỹ thuật số California, một cơ sở thông tin ảo phục vụ tất cả 10 cơ sở của hệ thống Đại học California. Làm việc với nhà phát triển Code for Science and Society Max Ogden và Philip Ashlock, kiến trúc sư trưởng tại data.gov, Jigacki nói rằng trọng tâm của họ là sử dụng data.gov như một con đường hai chiều.

Trước tiên, họ đã chứng minh rằng việc giải cứu dữ liệu có thể hiệu quả hơn nhiều bằng cách lấy một bản sao của data.gov và đặt nó trên một trang web bên ngoài, datamirror.org, với các kịch bản giám sát để kiểm tra các bản cập nhật. Sau đó, Dodacki và các cộng tác viên cũng bắt đầu xem xét liệu các bộ dữ liệu và siêu dữ liệu được đóng góp cho máy nhân bản có thể cung cấp cho luồng công việc data.gov hiện có của các cơ quan thông qua các trang còn sơ khai trên gương hay không.

Theo lệnh điều hành năm 2013 của Obama bắt buộc phải xuất bản dữ liệu có thể đọc bằng máy trên data.gov, các cơ quan vẫn có trách nhiệm tạo ra các hồ sơ được liệt kê trên cổng thông tin đó; Ý tưởng của Dodacki và Ogden là việc cung cấp dữ liệu đám đông được đề xuất chỉ đơn giản là giúp phân bổ khối lượng công việc.

"Chúng tôi không cần phải nhân rộng toàn bộ hệ sinh thái", ông Gordonacki nói. "Chính phủ liên bang và các cơ quan này đã xử lý dữ liệu lâu hơn so với việc nói về dữ liệu lớn, theo cách mạnh mẽ hơn nhiều so với bất kỳ ai khác."

Quan hệ đối tác công tư

Câu hỏi về chi phí là một câu hỏi hiển nhiên khi nói đến cách các cơ quan có thể xác định bộ dữ liệu nào có giá trị nhất cho công chúng, sau đó xuất bản liên kết đến siêu dữ liệu hoặc bộ dữ liệu thực tế của họ thông qua cổng thông tin chính phủ. Một báo cáo của Văn phòng Ngân sách Quốc hội (CBO) cho dự luật Đạo luật Dữ liệu của Chính phủ OPEN hiện tại Thượng viện, điều này sẽ mã hóa lệnh điều hành của Obama thành luật pháp, ước tính việc thực hiện đầy đủ của nó sẽ tiêu tốn 2 triệu đô la trong giai đoạn 2018 đến 2021.

Về mặt tiền của chính phủ, điều đó thể hiện cơ bản không có sự gia tăng thực sự trong chi tiêu, CBO kết luận.

Tuy nhiên, tính hiệu quả là một câu hỏi khác, một câu hỏi mà Ed Kearns tại Cơ quan Khí quyển và Đại dương Quốc gia đang thử nghiệm cùng với các đối tác tư nhân bao gồm Amazon Web Services và Google. Kearns, giám đốc dữ liệu của NOAA, cho biết việc tăng tính khả dụng và sử dụng dữ liệu NOAA công khai là mục tiêu chính của Dự án Dữ liệu lớn.

Các công ty xác định bộ dữ liệu nào họ muốn và NOAA chuyển nó cùng với công chúng mà không mất thêm chi phí nào. Bất cứ điều gì NOAA có trên bàn, Kearns nói, nhưng mục tiêu của mối quan hệ đối tác năm năm không phải là lấy tất cả dữ liệu của NOAA trên đám mây chỉ là những khối chiến lược.

Lưu trữ các bộ dữ liệu như vậy trên các dịch vụ đám mây của các công ty tư nhân cung cấp một số lợi thế cho truy cập FTP kiểu thập niên 80 vẫn là tiêu chuẩn để chuyển các bộ dữ liệu lớn từ các cơ quan liên bang. Để bắt đầu, các bộ dữ liệu của NOAA có xu hướng rộng lớn, cơ quan giám sát các đại dương, khí quyển, mặt trời và thời tiết không gian của Trái đất và đôi khi cần hàng tuần hoặc hàng tháng để giao hàng công cộng.

Một ví dụ là kho lưu trữ radar Doppler cấp II độ phân giải cao của cơ quan. Theo một nghiên cứu được công bố vào tháng 5 bởi Hiệp hội Khí tượng Hoa Kỳ, việc chuyển toàn bộ kho lưu trữ NEXRAD 270 terabyte cho một khách hàng vào tháng 10 năm 2015 sẽ mất 540 ngày với chi phí 203.310 đô la. Một bản sao đầy đủ của kho lưu trữ chưa bao giờ có sẵn để phân tích bên ngoài trước khi NOAA làm việc với Amazon và Google để đưa một bản lên đám mây.

Thí nghiệm cũng đã có một số kết quả ban đầu thú vị với việc tăng mức sử dụng. Các trang web dự báo thời tiết và thời tiết của NOAA đã nhận được một số lưu lượng truy cập cao nhất trong số các trang web của chính phủ, nhưng sau khi Google tích hợp một bộ dữ liệu khí hậu và thời tiết, có kích thước khổng lồ, vào cơ sở dữ liệu BigQuery của mình, công ty đã báo cáo việc cung cấp 1, 2 petabyte của bộ dữ liệu này từ ngày 1 tháng 1 đến ngày 30 tháng 4, nhiều hơn bao giờ hết được truy cập trong một khung thời gian tương tự từ các máy chủ của NOAA.

"Google đã có thể mở nó cho một đối tượng hoàn toàn mới", Kearns nói.

Đó không chỉ là mưa và nhiệt độ theo mùa. Các bộ dữ liệu hiện có sẵn thông qua các đối tác Dữ liệu lớn bao gồm thông tin nghề cá, thời tiết biển và một danh mục được lưu trữ bởi IBM liệt kê các bộ dữ liệu hiện tại, dự báo, lịch sử và không gian địa lý từ các trung tâm NOAA. Các bộ dữ liệu trong tương lai thậm chí có thể bao gồm thông tin về hệ sinh thái và bộ gen thủy sản.

Nhưng theo thiết kế, sự hợp tác cho phép các cộng tác viên chọn những thứ họ muốn nhất, mang đến rủi ro che khuất, nhưng các bộ dữ liệu có giá trị cao, sẽ không nhìn thấy nhiều ánh sáng ban ngày. Kearns nói rằng còn quá sớm để nói những gì cuối cùng có thể được xác định là có giá trị.

"Quy mô và phạm vi của những gì có thể làm với dữ liệu này là đáng kinh ngạc đối với chúng tôi, " ông nói thêm. "Chúng tôi không thể tưởng tượng tất cả các sử dụng có thể."

Ở quy mô nhỏ hơn, Thành phố Philadelphia cũng đã làm việc với một thực thể tư nhân trong việc xuất bản các bộ dữ liệu mà công chúng cho biết sẽ thấy hữu ích nhất. Mặc dù quy mô của thành phố mang lại cho nó khả năng cơ động hoạt động hàng ngày nhiều hơn so với thực thể liên bang, mô hình của Philly đại diện cho một cách tiếp cận để chiến lược phát hành các bộ dữ liệu chưa được công bố.

Azavea, một công ty phần mềm có trụ sở tại Philly chuyên về trực quan hóa dữ liệu, đã hợp tác với giám đốc thông tin của thành phố, Tim Wisniewski, để phát triển một danh sách các bộ dữ liệu chưa được công bố mà các tổ chức phi lợi nhuận trong thành phố có thể quan tâm sử dụng. Wisniewski và Azavea đã sử dụng cả danh mục siêu dữ liệu trực tuyến của thành phố và đầu vào từ các phòng ban thành phố để phát triển danh sách. Azavea và các đối tác khác sau đó đã mua danh sách cho các tổ chức phi lợi nhuận Philadelphia và ra mắt OpenDataVote, một cuộc thi để công chúng bỏ phiếu cho các dự án được đưa ra bởi những tổ chức phi lợi nhuận này về cách họ sử dụng bộ dữ liệu ưa thích của họ.

Một người chiến thắng gần đây là một đề xuất được đưa ra bởi tổ chức giáo dục phi lợi nhuận MicroSociety để sử dụng dữ liệu thành phố về các nhà tài trợ cho Khu học chánh Philadelphia để đo lường tác động của các chương trình phi lợi nhuận trong trường học.

"Chúng tôi có thể nói rằng thành phố phi lợi nhuận này quan tâm đến một bộ dữ liệu cụ thể bởi vì họ có thể làm gì đó với nó và nhiều người đã bỏ phiếu ủng hộ họ", Wisniewski nói. "Nó cho phép chúng tôi đi đến các phòng ban với một trường hợp sử dụng chắc chắn trong tay thay vì nói, hey, phát hành dữ liệu này chỉ vì."

Dữ liệu cũ và mới

Nhưng điều gì xảy ra ngay cả khi có nhiều quyền truy cập vào dữ liệu đã có ngoài đó, khi các chính sách và chỉ thị tài trợ mới có nghĩa là chính dữ liệu đó sẽ không được tạo nữa? Đó là một mối quan tâm thực sự, Ann Dunkin, người từng là giám đốc thông tin tại Cơ quan bảo vệ môi trường dưới thời Tổng thống Obama và hiện đang đứng đầu CNTT cho Hạt Santa Clara của California.

"Mọi người lo lắng về dữ liệu cũ, nhưng điều khiến tôi lo lắng nhất là dữ liệu mới không được cung cấp ở cùng tốc độ như trước đây hoặc không được tạo ra, " Dunkin nói.

Trong một phân tích về ngân sách liên bang năm 2018 được đề xuất bởi tạp chí Science, nhiều cơ quan chính phủ sẽ nhận ra việc cắt giảm đáng kể ngân sách nghiên cứu của họ nếu ngân sách được thông qua như đề xuất. Việc cắt giảm khoảng 22% tại Viện Y tế Quốc gia sẽ chuyển sang thanh toán cho các trường đại học nghiên cứu; yêu cầu ngân sách của NASA sẽ loại bỏ các sáng kiến để giám sát khí thải nhà kính và các chương trình khoa học trái đất khác. Các chương trình khí hậu tại NOAA cũng có thể bị đóng cửa với mức cắt giảm tương tự.

Trong nhiệm kỳ của mình, EPA đã nỗ lực biến việc thu thập dữ liệu của mình thành một công cụ cho mọi người sử dụng để hiểu sức khỏe của môi trường xung quanh và cách phản ứng với nó. Ngày không khí xấu? Đừng ra ngoài. Dòng chảy xuống ô nhiễm? Giữ bọn trẻ đi.

"Kỳ vọng của tôi là điều đó sẽ di chuyển lạc hậu", Dunkin nói thêm. "Tôi có thể sai, nhưng nếu bạn nói rằng chúng tôi sẽ không cung cấp dữ liệu, kết luận hợp lý là các bộ dữ liệu có thể giúp các thành viên của công chúng cũng sẽ không có sẵn hoặc không được tạo ngay từ đầu."

Wiggin của Data Refuge đang thực hiện một dự án kể chuyện liên quan đến vấn đề này mà cô hy vọng sẽ xúc tác cho nhiều người hơn để yêu cầu phát hành dữ liệu liên tục và tạo cơ sở hỗ trợ cho việc tiếp tục các chương trình thu thập dữ liệu hiện có trong toàn chính phủ liên bang. Những câu chuyện kể về "Ba câu chuyện trong thị trấn của chúng tôi" sẽ mô tả dữ liệu liên bang có tác động ẩn giấu ở những nơi không ngờ tới, bắt đầu ở Philadelphia, sau đó ở những nơi khác trên toàn quốc.

"Một phần cốt yếu của phong trào tị nạn dữ liệu, khi chúng ta chuyển sang giai đoạn tiếp theo, là giúp mọi người hiểu được dữ liệu được sản xuất theo liên bang được sử dụng rộng rãi như thế nào trong cuộc sống của họ", Wiggin nói. "Cho dù bạn gọi đó là khí hậu hay sức khỏe hay an toàn công cộng, thì đó vẫn là dữ liệu liên bang. Đó là trong cộng đồng, trong tòa thị chính, trong các nỗ lực kiểm soát, trong quân đội. Chúng ta cần phải nhớ rằng dữ liệu đó quan trọng như thế nào."

Tài nguyên:

Cổng dữ liệu môi trường EPA: Cổng thông tin siêu dữ liệu của Cơ quan bảo vệ môi trường.
Dữ liệu mở @ DOE: Cổng dữ liệu mở của Bộ Năng lượng.
Cổng thông tin dịch vụ nghiên cứu kinh tế USDA
Tài nguyên dữ liệu lớn của NOAA: Liên kết đến các trang nền tảng của đối tác Dữ liệu lớn lưu trữ dữ liệu do NOAA tạo ra.
Đại học Bắc Texas: Nghĩa trang điện tử: Một kho lưu trữ của các trang web chính phủ không còn tồn tại, lỗi thời hoặc bị đóng cửa.
Trang Dự án Lưu trữ Sáng kiến Dữ liệu & Quản trị Môi trường: Các công cụ, mã và ứng dụng liên quan đến khám phá và lưu trữ dữ liệu của chính phủ.
Internet Lưu trữ máy Wayback
Lưu trữ Internet: Cách lưu trang trong máy Wayback: Sáu cách để chỉ định các trang để lưu trữ.
Thư viện kỹ thuật số California: Lưu trữ web cuối kỳ: Một bộ sưu tập các trang web của Chính phủ Hoa Kỳ được lưu từ Thu thập thông tin cuối kỳ, từ năm 2008 đến nay.
FreeGovInfo.info: Nội dung đa dạng với thông tin về các cổng dữ liệu ở cấp tiểu bang và liên bang và lưu trữ các câu chuyện tin tức về các vấn đề dữ liệu mở.
Climate Mirror: Một bộ sưu tập các bộ dữ liệu khí hậu do tình nguyện viên tập hợp.

Câu chuyện này lần đầu tiên xuất hiện trên Tạp chí Kỹ thuật số PC. Theo dõi ngày hôm nay để biết thêm các câu chuyện tính năng gốc, tin tức, đánh giá và cách làm!