Bạn hỏi tôi cào dữ liệu để làm gì à?

Posted in Dev's Life, Tips

Sau mấy bài viết về Cào dữ liệu, có bạn nào tự hỏi mấy ông này cào dữ liệu về làm cái khỉ khô gì không?
Đùa chứ tuỳ mục đích của mỗi người hay mỗi tổ chức mà có những cách xử lý dữ liệu đã cào được dùng vào mục đích gì.

Dưới đây là một số mục đích mà mình thấy được đưa ra nhiều nhất.

Continue reading

Tìm kiếm google (Google search) – Liệu bạn có xài hiệu quả?

Posted in Tips
1. Cơ bản về Google:
Đơn giản nhất là gõ vào những từ bạn muốn tìm.
Gõ ít thì kết quả nhiều, và ngược lại. Hãy giới hạn phạm vi tìm kiếm bằng cách kết hợp thêm những từ ngữ khác.
Nếu bạn muốn tìm một cụm từ, hãy để nó trong cặp ngoặc kép ‘”’.
Trong quá trình tìm kiếm, các biến thể của từ (vd: diet, dietary,…) cũng được đưa vào quá trình tìm kiếm. Vì vậy bạn không cần phải lo lắng về việc này.
Lưu ý: Google không phân biệt hoa thường khi tìm kiếm.
2. Tìm kiếm nâng cao:
Dùng dấu ‘+’
Một số từ thông dụng trong tiếng Anh có thể bị bỏ qua khi tìm kiếm (vd: I, to, do, a, go, the,…). Nhưng nếu từ đó có ảnh hưởng đáng kể đến kết quả tìm kiếm của bạn, bạn có thể thêm vào dấu ‘+’ phía trước.
Code:
Star Wars Episode +I
Nhưng tốt hơn vẫn là dùng cặp ngoặc kép
Code:
“Star Wars Episode I”
 

Continue reading

Web Crawling và Web Scraping – Sự tranh cãi giữa ăn cắp tài liệu hay là một công nghệ thu thập dữ liệu

Posted in Algorithm, Dev's Life, You don't know Dev!

Nhiều người nghĩ rằng, việc sử dụng Web Scraping để quét, đánh cắp dữ liệu là hành động xấu. Tuy nhiên, trong một số trường hợp, chủ dữ liệu muốn truyền tải dữ liệu đến càng nhiều người càng tốt, chúng lại mang tới lợi ích không ngờ. Chẳng hạn, website chính phủ cung cấp dữ liệu cho các website công cộng.
Trong thời đại kỷ nguyên số như hiện nay, ai cũng biết rằng dữ liệu internet là một nguồn data dồi dào và phong phú nhất. Mà dữ liệu thì lại chẳng khác gì vàng cả. Người ta còn đo sự giàu có của một công ty dựa trên lượng dữ liệu mà công ty đó có cơ mà. Hãy thử điểm qua các công ty công nghệ xem họ có bao nhiêu dữ liệu?

Continue reading

Thuật toán Google – Đi một ngày đàng, càng đọc càng ngu!

Posted in Algorithm, Dev's Life

Bài viết trước mình có nói tổng quát về thuật toán là gì? 
Bạn đọc có thể đọc lại tại:
# http://blog.ntechdevelopers.com/thuat-toan-lieu-co-ma-thuat-phuc-tap-va-bi-an-nhu-moi-nguoi-van-nghi/

Mình cũng đã đề cập tới cách mà google thu thập thông tin như thế nào?
Bạn đọc có thể đọc lại tại:
# http://blog.ntechdevelopers.com/google-dang-thu-thap-thong-tin-website-nhu-the-nao/

Dưới đây là bài viết sâu chuỗi lại thuật toán cơ bản mà google sử dụng, mình không phải là dân SEO (search engine optimization) nên mình xin phép viết một cách tổng quan nhất để một người ngoài ngành nắm được sơ lược cách hoạt động nhé!

Continue reading

Hiệu trưởng Google “thăm nom” và “chôm chỉa” thông tin website như thế nào?

Posted in Algorithm, Dev's Life

Dữ liệu được xem là một phần không thể thiếu của mỗi trang web bất kỳ khi thiết lập. Tuy nhiên, để giải quyết vấn đề người dùng thì ít mà kho dữ liệu thì nhiều khá khó khăn.

Nếu bạn đang tự hỏi làm thế quái nào Google có thể hiểu nội dung trên website bạn? Thì đã đến lúc bạn tìm hiểu Crawl và Index là gì?

Continue reading