Monday, October 6, 2008

Download - Thủ thuật hợp nhất thông tin

Internet là một kho tài nguyên vô cùng phong phú, để khai thác nguồn tài nguyên này thường người ta cần tải về (download) các tập tin (file). Trước đây việc download phần lớn do trình duyệt web đảm nhận, hiện nay còn có thêm các phần mềm hỗ trợ giúp tăng tốc độ download. Làm thế nào phần mềm có thể giúp tăng tốc độ download? Trong quá trình download, thay vì tải cả file từ đầu đến cuối trên một kết nối, phần mềm sẽ tải đồng thời những phần nhỏ của file trên nhiều kết nối, sau đó hợp nhất lại thành file hoàn chỉnh, dĩ nhiên tốc độ sẽ được cải thiện đáng kể có thể tới hàng chục lần. Phần mềm còn giúp quản lý những file cần tải và đã tải một cách hiệu quả.

File web hợp nhất


Hình 1:
Phải duyệt một “rừng” trang web, thẻ, cửa sổ khiến bạn thấy sợ.

Để download file, ta cần duyệt trang web chứa liên kết trực tiếp hoặc gián tiếp tới file. Công cụ tìm kiếm toàn cầu hay có sẵn trong website chỉ giúp bạn tìm ra những trang web đó chứ không thay bạn xử lý. Duyệt và xử lý các trang web, đó vẫn luôn là việc của bạn.

Bạn dễ nhận ra hai vấn đề:
+ Có quá nhiều trang web cần duyệt.
+ Những liên kết trùng lặp giữa các trang web chiếm tỷ lệ rất lớn! Nếu sử dụng tính năng “Download All by phầnmềmhỗtrợ” trong cửa sổ trình duyệt bạn cần chọn được liên kết tới file mình cần và loại bỏ những liên kết thừa.


Hình 2:
Liên kết trùng lặp chiếm tỷ lệ lớn

Hai vấn đề trên cùng dẫn tới một kết quả là bạn phải thao tác rất nhiều, lặp đi lặp lại một cách nhàm chán và dễ nhầm lẫn.

Bạn nghĩ sao nếu chỉ cần xử lý một trang duy nhất trong chốc lát thay vì “đánh vật” với hàng trăm trang? Trang tổng hợp này sẽ chứa tất cả các liên kết chính xác tới các file bạn cần! Điều đó thật tuyệt! Nhưng làm sao có được trang ‘lớn’ này? Bạn sẽ tạo ra nó bằng cách hợp nhất các trang web nhỏ. Khi xử lý, phần mềm hỗ trợ download sẽ tự động gộp các liên kết trùng lặp thành liên kết duy nhất cho bạn chọn, chúng sẽ thay bạn duyệt và tìm các liên kết cần thiết.

Hình 3:
Sơ đồ khái quát

Bạn không nhất thiết phải xem trực tuyến các trang web, duyệt ngoại tuyến từ trang web hợp nhất trên máy tính của bạn không chỉ nhanh mà còn an toàn hơn. Không cần kết nối mạng, tốc độ cao lại tránh được các hiểm họa, mà vẫn có thể tạo trước danh sách liên kết, cơ sở dữ liệu (CSDL) cho việc download. (Bạn có thể tham khảo chi tiết trong bài “Download - Những thủ thuật đáng giá” – ID: A0607_140).

Bạn có thể hợp nhất các trang bằng phần mềm miễn phí A.F.7 Merge your files 1.3 với ưu điểm là khả năng kéo thả file và giao diện đơn giản, dễ sử dụng. Đầu tiên cần kéo thả tất cả các trang cần hợp nhất vào cửa sổ chương trình rồi nhấn Merge, gõ tên file và phần mở rộng HTML của file sẽ tạo trong mục “File name”, trong danh sách sổ xuống của mục “Save as type” chọn “All files (*.*)”. Quá trình hợp nhất sẽ diễn ra rất nhanh.

Hình 4: Hợp nhất các trang

Sau đó bạn chỉ việc dùng trình duyệt mở file vừa tạo, khi nạp xong bạn chọn “Download All by phầnmềmhỗtrợ”, các file sẽ được liệt kê, phân loại theo các tiêu chí như: Nhan đề (Title), phần mở rộng (File Extention), địa chỉ URL... để bạn chọn.

Xử lý file web hợp nhất

Sau khi hợp nhất, bạn có thể dễ dàng mở file với dung lượng vài MB bằng trình duyệt web nhưng với dung lượng lớn gấp vài chục lần bạn sẽ gặp rất nhiều khó khăn. Trang web dài gấp hàng ngàn lần so với bình thường khiến các trình duyệt web trình bày file này một cách khó nhọc, lựa chọn “Download All by phầnmềmhỗtrợ” không còn tác dụng. Bạn nhấn tổ hợp phím Ctrl+A để chuyển sang cách kéo thả liên kết nhưng chợt nhận ra con trỏ chuột trở nên quá “nặng”, nó giần giật “lết” đi trên màn hình thậm chí biến mất hoặc “treo” luôn.

Hình 5: Tất cả các liên kết download được tìm thấy sau quá trình xử lý

Bạn có thể chia thành từng phần để xử lý nhưng đó không phải là cách duy nhất. Sử dụng phần mềm hỗ trợ download FlashGet một cách khéo léo sẽ giúp bạn khắc phục triệt để vấn đề trên. FlashGet cũng như bao phần mềm hỗ trợ tải file khác nhưng nó là một trong những chương trình có khả năng xử lý tập tin web (Process Web Page File) một cách độc lập mà không cần đến sự góp mặt của trình duyệt web, vì vậy làm giảm gánh nặng cho PC của bạn. Quá trình xử lý chỉ đơn giản là tìm liên kết có trong tập tin, các liên kết trùng lặp giống hệt nhau được tự động gộp lại thành một liên kết duy nhất, thời gian xử lý rất nhanh và ổn định.

Hình 6: Biến đường dẫn tương đối thành đường dẫn tuyệt đối

Còn vấn đề với đường dẫn tương đối? Bạn chỉ cần nhập địa chỉ website (lưu ý cần có cả giao thức và tên máy chủ ví dụ như http://www.youtube.com) vào hộp thoại Enter URL và phần mềm sẽ tự động tìm, thay thế tất cả đường dẫn tương đối thành đường dẫn tuyệt đối trên Internet.

Thật tuyệt phải không các bạn? Nhưng nếu đã tuyệt như vậy tại sao tính năng Process Web Page File của FlashGet lại bị người dùng “lạnh nhạt”? Bởi vì FlashGet chỉ xử lý mỗi lần một file web duy nhất! Mặc dù trải qua nhiều phiên bản, thậm chí tên gọi của tính năng này đã được đổi từ “Process Web Page File” sang “Import Links From Local Files” nhưng đặc điểm trên vẫn không thay đổi. Sẽ rất dễ nhầm lẫn phải chọn một trong hàng chục ngàn file và lặp lại thao tác đó trong từng ấy lần, tương tự sau mỗi lần chọn bạn phải đánh dấu rất nhiều ô... Bạn cảm thấy quen quen? Vâng những thao tác trên cũng làm bạn mệt mỏi và tốn thời gian như duyệt từng trang web một vậy. Thế nên với người dùng bình thường việc kéo thả liên kết hay sử dụng trình đơn ngữ cảnh ngay khi duyệt vẫn tạo cảm giác thuận tiện hơn. Vì vậy nếu đứng một mình thì tính năng xử lý độc lập file web của FlashGet vẫn chưa thể làm nên chuyện, ưu điểm nhẹ nhàng vốn có chỉ được phát huy nếu đi cùng việc hợp nhất các trang web. Đó là sự linh động khi bạn biết kết hợp khả năng của nhiều phần mềm khác nhau để đạt được mong muốn của mình với hiệu quả cao nhất.

Hình 7: Hợp nhất các file web theo nhóm

Tuy nhiên với những “nhà sưu tầm” thông tin trên mạng, số lượng trang web trong mỗi lần “gom” có thể lên tới hàng trăm hay hàng ngàn khiến quá trình nạp, xử lý sẽ ngốn nhiều thời gian hơn bình thường. Nguyên nhân là dựa theo địa chỉ URL được đưa vào, chương trình luôn tự động sắp xếp, so sánh với mirror (bản sao) và các file đã có trong CSDL, khi số lượng file quá lớn dĩ nhiên thời gian chờ đợi sẽ tăng lên. Hơn nữa thanh tiến trình không xuất hiện khiến bạn cảm thấy sốt ruột! Nếu không muốn phải chờ đợi bạn có thể dùng phương pháp “chia để trị”: chia tất cả các file web thành vài nhóm, hợp nhất các file web trong mỗi nhóm, rồi xử lý từng nhóm để có được CSDL của tất cả các file cần tải.

Chỉnh sửa liên kết

Để đến được liên kết tới file cần tải chúng ta thường phải qua nhiều trang trung gian. Thay vì tải, xem, xử lý những trang trung gian ấy, bạn có thể “đi đường tắt” bằng cách so sánh các liên kết để chỉnh sửa chúng (xem bài “Download - Những thủ thuật đáng giá”).

Bạn có thể chỉnh sửa liên kết trong danh sách URL của file, nhưng khi nhập lại danh sách ấy vào CSDL của phần mềm hỗ trợ download sẽ không còn phần chữ hiển thị của liên kết. Ví dụ siêu liên kết http://files.myopera.com/tiendung87/files/Remember%20me-%20Lee%20HyoRi.wma có phần chữ hiển thị là “Remember me- LeeHyoRi- NhacHan” chẳng hạn. Nếu muốn giữ lại phần chữ hiển thị của liên kết bạn phải chỉnh sửa trong file web sau hợp nhất. Chúng ta cần hiển thị tất cả các trang (trong file web hợp nhất) dưới dạng mã nguồn với sự trợ giúp của một phần mềm soạn thảo văn bản để thực hiện, chủ yếu dùng tính năng tìm và thay thế. Việc chỉnh sửa các liên kết là không bắt buộc. Bạn cần lưu ý, file danh sách có thể rất lớn, nếu NotePad không đủ khả năng, bạn cần thay bằng những phần mềm mạnh hơn, ví dụ WordPad.

Hợp nhất cơ sở dữ liệu

Không chỉ giúp tăng tốc độ tải file, các phần mềm hỗ trợ download còn kiêm nhiệm vụ quản lý những file đã, đang và sẽ được tải, thông tin về chúng đều được lưu trữ trong CSDL của phần mềm. Những thông tin đó thường là tên file, dung lượng, trạng thái (đã tải, đang tải, liên kết hỏng, tạm dừng, khả năng tiếp tục lại ...), liên kết URL tới file và trang web liên quan, nơi file ấy được lưu lại, tổng thời gian tải, tốc độ tải trung bình, thời gian tạo và hoàn thành file...

Hình 8: Thông tin chi tiết về file được download Hình 6: Biến đường dẫn tương đối thành đường dẫn tuyệt đối

Nắm được các thông tin này bạn không những dễ dàng quản lý mà còn có thể sử dụng triệt để đường truyền để đẩy tốc độ download lên nhanh nhất! Thật vậy, ngoài đường truyền, tốc độ download còn phụ thuộc rất nhiều vào máy chủ web mà bạn truy cập. Khi bạn đặt lệnh tải nhiều file thì phần mềm sẽ ưu tiên tải các file từ trên xuống dưới danh sách. Nhưng chỉ có khoảng 5 đến vài chục file được tải trong một thời điểm, các file còn lại sẽ xếp hàng đợi tới lượt. Giả sử các file đang tải đó đều đến từ một server đang quá tải’thì cho dù đường truyền của bạn có tốt đến đâu thì tốc độ vẫn ì ạch. Trong khi các file khác có thể từ những server rỗi lại phải chờ đợi những file “rùa bò” này khiến quá trình download trở nên chậm chạp, thậm chí gián đoạn. Việc bạn cần làm là tạm dừng những file chậm để tải sau và mở đường cho các file từ server khác đang sẵn sàng. Điều đó sẽ giúp các server đang quá tải được “thảnh thơi” hơn, những server đang “ngồi chơi xơi nước” có cơ hội phục vụ bạn đúng lúc chúng rảnh rỗi, đường truyền của bạn sẽ được sử dụng hết khả năng của nó.

Hình 9: Hợp nhất các cơ sở dữ liệu

Một số phần mềm có khả năng giúp bạn tìm kiếm trong CSDL của chúng thay vì tìm trên mạng hay trong các file web hợp nhất. Tùy theo mỗi phần mềm mà ta có một hoặc nhiều CSDL cùng loại nhưng có nội dung khác nhau. Việc tìm kiếm trong từng CSDL dễ khiến bạn nản lòng và để tránh tải trùng file một cách vô ích bạn cần hợp nhất CSDL. Hầu hết các phần mềm hỗ trợ download đều có khả năng nhập vào hoặc trích xuất ra một phần hoặc tất cả CSDL. Ví dụ như FlashGet có thể xuất nhập toàn bộ CSDL của nó: Trong FlashGet phiên bản 1.9.6, bạn chọn Manage \ “DownLoad DataBase...”, tiếp theo chọn “Merger Database...” để chọn một CSDL khác để hợp nhất vào CSDL đang được mở, chọn “Backup to...” để sao lưu lại CSDL dưới một tên khác... và bất kỳ lúc nào bạn cũng có thể nhấn Ctrl+S để lưu lại các thay đổi...

Với kích thước nhỏ gọn, CSDL của phần mềm hỗ trợ download có thể sử dụng một cách “năng động”.

Khi chưa đủ điều điện kết nối Internet, bạn có thể mang CSDL ở nhà tới điểm truy cập công cộng để tải xuống những file cần thiết. Không chỉ vậy chúng ta còn sử dụng kết hợp hai phần mềm download với hai loại CSDL để đạt hiệu quả cao nhất. Chính vì vậy sẽ có các CSDL khác nhau trong máy của bạn, điều này rất thuận tiện trong việc quản lý download, tránh được những nhầm lẫn đáng tiếc vì bạn có thể tạo nhiều CSDL với các tiêu chí như sau:

- Đặt tên theo ngày tháng năm, theo nội dung, theo website...

- Mỗi kiểu CSDL ứng với một phần mềm hỗ trợ download và chúng đều có những ưu nhược điểm riêng, từ đó sẽ thích hợp với các nhiệm vụ khác nhau (ví dụ tải từng file, tải hàng loạt ...).

Hình 10: Khôi phục cơ sở dữ liệu download với các bản sao lưu

Nhưng CSDL của phần mềm này không thể đọc được bằng phần mềm khác và ngược lại. Vì vậy mỗi phần mềm lại đăng ký một phần mở rộng riêng cho CSDL của mình để tránh nhầm lẫn nhưng cũng là hạn chế về mặt giao tiếp. Như FlashGet là *.jcd hoặc *.jcd.bak cho bản sao lưu tự động, Internet Download Manager là *.ef2... Nhưng có một trường hợp ngoại lệ, đó là danh sách siêu liên kết URL của các file. Có thể nói đây là CSDL đơn giản và cơ bản nhất mà bất kỳ phần mềm hỗ trợ download nào cũng có thể xuất/nhập. Bạn nên tận dụng ngoại lệ này làm phương tiện trao đổi thông tin giữa các phần mềm hỗ trợ nhằm khai thác hết các ưu điểm và bù lại những nhược điểm.

Áp dụng linh hoạt

Với những thủ thuật trên bạn hãy cùng chúng tôi áp dụng vào hai ví dụ sau:

Tải “hàng loạt” các đoạn video giới thiệu game trên nZone.com

Hình 11:
Tải hàng loạt các trang web con

Các website thường có trang chính dẫn tới nhiều trang con, nếu giữa link của trang con và của file cần tải có quy luật nhất định, bạn có thể sửa liên kết trang con thành liên kết download. Thế nhưng không phải website nào cũng được sắp xếp có quy luật như vậy, liên kết download có thể từ nhiều nguồn khác nhau hay nói cách khác là bất quy luật. Trang giới thiệu game nZone (của NVIDIA) là một trong những trường hợp đó. Trên trang video chính của nZone (http://www.nzone.com/object/nzone_downloads_videos.html) có những liên kết tới các trang con chứa liên kết dẫn tới các file video, thay vì lần lượt vào từng trang con để tải file bạn có thể làm như sau:

Bạn kéo thả liên kết tới trang con mình muốn vào chương trình hỗ trợ download. Hoặc lấy nhanh tất cả liên kết bằng cách chọn “Download All by FlashGet” trong trình đơn ngữ cảnh của trình duyệt. Trong hộp thoại “Select URL” mà chương trình đưa ra bạn xếp theo tiêu chí URL. Nhìn qua Title (phần chữ hiển thị) và URL bạn đưa ra nhận định cần chọn các liên kết bắt đầu bằng http://www.nzone.com/object/nzone_ vì đó là điểm chung của những link tới trang video con.

Hình 12: Thông báo trang web bị lỗi

Hãy bôi đen và nhấn Mark Highlight để chúng được đánh dấu rồi nhấn OK. Hộp thoại Add new download sẽ hiện lên, trong Category bạn chọn NewCategory..., gõ tên nhóm muốn tạo và nơi lưu giữ ví dụ nZone và C:\Downloads\nZone\Web1, nhấn OK hai lần và Yes hai lần để giữ thiết lập đó với những file còn lại. Bạn hãy tạo thêm nhóm Video nằm trong nhóm nZone để chứa các file video sẽ được tải. Các file web hợp nhất chứa liên kết video nằm trong thư mục Web1, những file không tải được là những trang web bị lỗi, bạn có thể kiểm tra bằng cách dán URL của chúng vào trình duyệt sau một lúc sẽ có thông báo các trang này bị lỗi do website.


Hình 13: Liên kết để download tất cả các file video

Chọn tất cả các file trong thư mục Web1 kéo thả vào cửa sổ chương trình A.F.7 Merge your files rồi nhấn nút Merge để hợp nhất thành file nZone1.html. Trong FlashGet phiên bản 1.9.6, bạn chọn File \ Import \ Import Links From Local Files (hay nhấn tổ hợp phím Ctrl+W) rồi chọn file nZone1.html để chương trình tiến hành xử lý. Trong Enter URL bạn gõ giao thức và tên máy chủ http://www.nzone.com. Sau khi xử lý FlashGet sẽ đưa ra kết quả. Nhấn Choose để chọn file theo phần mở rộng (File Extention), bạn hãy để ý tới các file có phần mở rộng avi, mov, mpg, mp4, wmv, và wmx hoặc dùng phương pháp loại trừ: bỏ chọn các phần mở rộng file ảnh và web như jpg, gif, html... Khi đã ưng ý bạn nhấn OK hai lần. Trong mục Category, chọn Video nằm trong nZone rồi nhấn OK, nhấn Yes khi thông báo xuất hiện và OK để giữ thiết lập đó với những file video còn lại. Sau đó các đoạn phim giới thiệu game sẽ được tải về thư mục C:\Downloads\nZone\Video.

Hình 14: Bản sao của trang web bị lỗi được tìm thấy

Mọi chuyện vẫn chưa dừng lại ở đây, website đã bị lỗi một vài trang như đã nói ở trên. Nếu bỏ qua, bộ sưu tập của bạn sẽ không được hoàn chỉnh. Mặc dù các trang đó đã bị lỗi nhưng có thể còn những trang tương tự hoặc bản sao trong bộ nhớ cache của các công cụ tìm kiếm toàn cầu, bạn có thể khai thác bản sao này để lấy liên kết tới tệp video bị thiếu.

Để biết thêm chi tiết, bạn đọc bài “Cẩn thận với công cụ tìm kiếm siêu tốc trên máy tính” (ID: A0604_144).

Tải ảnh “hàng loạt” trên các diễn đàn trực tuyến

Diễn đàn trực tuyến (forum) là nơi rất nhiều “cư dân mạng” thường lui tới trao đổi, thảo luận. Đây còn là nơi họ chia sẻ nhiều điều hay cái đẹp, trong đó không thể thiếu những hình ảnh đẹp đã được “số hóa”. Các thành viên thường gửi lên (post) nhiều ảnh trên mỗi chủ đề (topic) khiến việc nạp những trang này thật chậm chạp. Vậy mà người xem vẫn phải lưu từng hình một để thưởng thức off-line bằng những phần mềm duyệt ảnh chuyên nghiệp hơn. Thời gian trôi qua, một ngày bạn bắt gặp tấm ảnh rất ưng ý trong “bộ sưu tập” của mình, bạn muốn xem thêm những tấm có liên quan nhưng manh mối chỉ là cái tên file chung chung, cách lưu thông thường đã không giữ lại siêu liên kết. Thậm chí việc tìm lại tấm ảnh ấy cũng khó khăn bởi bấy lâu nay bạn vẫn thường save chung rất nhiều file vào cùng chỗ...

Áp dụng thủ thuật hợp nhất các trang web tương tự như trên, bạn để phần mềm hỗ trợ tải hàng loạt các trang chủ đề cho A.F.7 hợp nhất thành trang lớn, tiếp theo FlashGet sẽ xử lý và download tất cả các file ảnh bạn chọn, kể cả những file khác nếu muốn. Trong khi đó, bạn ung dung thưởng thức những tấm ảnh cứ như chúng sẵn có trên máy mình vậy. Với CSDL của phần mềm bạn dễ dàng phân loại, sắp xếp thật khoa học. Chỉ qua vài bước đơn giản, tài nguyên tập tin phong phú của forum đã nằm gọn trong tay bạn.

Tuy nhiên bạn cũng nên để ý tới vài điểm sau:

Hình 15: Thiết lập chế độ bắt đầu thủ công

Các file ảnh nén dung lượng đã nhỏ lại được chia luồng tăng tốc bằng phần mềm nên liên tục xuất hiện với tốc độ chóng mặt trong folder. Ngược lại chúng sẽ liên tiếp biến mất trong category Download khiến bạn khó theo dõi. Thế nên bạn cần để chế độ bắt đầu thủ công (Manual) thay cho thiết lập mặc định bắt đầu ngay lập tức (Immediately) rồi ấn Save as default.

Nếu khó quan sát cửa sổ chương trình, bạn có thể nắm được trạng thái download qua vùng thả tích hợp đồ thị và biểu tượng trên khay hệ thống.

Trên forum thường có những cơ chế bảo mật nhất định. Với một số topic, có thể bạn phải đăng nhập với tư cách thành viên mới có thể download những file đính kèm. Đa phần các file ảnh thường chỉ được dẫn liên kết vì khả năng lưu trữ của forum là có hạn (thực tế các file ảnh thường nằm trên nhiều nguồn, site lưu trữ khác nhau). Thế nên việc bạn download không làm ảnh hưởng đến tốc độ tải forum của những thành viên khác.

Hình 16: Theo dõi thông tin trên vùng thả và khay hệ thống

Nếu bạn không tải được một số topic bằng phần mềm hỗ trợ, hãy dán URL của chúng vào trình duyệt web để kiểm tra. Trang web hiện ra nghĩa là phần mềm bạn vừa dùng chưa thích hợp, hãy thử lại bằng một phần mềm khác (ví dụ FlashGet không tải được thì bạn hãy dùng Internet Download Manager), còn trang web không hiện ra trong khi mạng của bạn vẫn ổn định thì dĩ nhiên là lỗi của website.

Lời kết

Hợp nhất giải quyết ba vấn đề lớn trong việc tải file từ Internet: Tìm hàng loạt liên kết, download và quản lý một cách hệ thống. Mỗi phần mềm được dùng giống như một module trong dây chuyền sản xuất công nghiệp. Nếu nhận ra khả năng của chúng và kết hợp lại bạn sẽ có trợ thủ đắc lực để đạt được hiệu quả download cao nhất.

Các phần mềm được dùng trong bài

ref: http://www.pcworld.com.vn/pcworld/magazine_a.asp?t=mzdetail&atcl_id=5f5e5d5a5f5d5e

No comments: