Bạn hỏi tôi cào dữ liệu để làm gì à?

Posted in Dev's Life, Tips

Sau mấy bài viết về Cào dữ liệu, có bạn nào tự hỏi mấy ông này cào dữ liệu về làm cái khỉ khô gì không?
Đùa chứ tuỳ mục đích của mỗi người hay mỗi tổ chức mà có những cách xử lý dữ liệu đã cào được dùng vào mục đích gì.

Dưới đây là một số mục đích mà mình thấy được đưa ra nhiều nhất.

Continue reading

Web Crawling và Web Scraping – Sự tranh cãi giữa ăn cắp tài liệu hay là một công nghệ thu thập dữ liệu

Posted in Algorithm, Dev's Life, You don't know Dev!

Nhiều người nghĩ rằng, việc sử dụng Web Scraping để quét, đánh cắp dữ liệu là hành động xấu. Tuy nhiên, trong một số trường hợp, chủ dữ liệu muốn truyền tải dữ liệu đến càng nhiều người càng tốt, chúng lại mang tới lợi ích không ngờ. Chẳng hạn, website chính phủ cung cấp dữ liệu cho các website công cộng.
Trong thời đại kỷ nguyên số như hiện nay, ai cũng biết rằng dữ liệu internet là một nguồn data dồi dào và phong phú nhất. Mà dữ liệu thì lại chẳng khác gì vàng cả. Người ta còn đo sự giàu có của một công ty dựa trên lượng dữ liệu mà công ty đó có cơ mà. Hãy thử điểm qua các công ty công nghệ xem họ có bao nhiêu dữ liệu?

Continue reading