Google Dork là gì? Hướng dẫn chi tiết cách dùng [2021]

//

Google Dork là ứng dụng thường được dùng để tìm lỗ hỏng bảo mật trong cấu hình và mã máy tính mà các trang web đang sử dụng. Trong bài viết hôm nay, compamarketing sẽ giới thiệu cụ thể hơn về Google Dork là gì? Hướng dẫn chi tiết cách dùng [2021]. Cùng theo dõi và làm theo các bước hướng dẫn dưới đây nhé!

1. Dork là gì?

Ứng dụng nâng cao của các nhà khai thác tìm kiếm Google là Google Dorking – sử dụng các nhà khai thác tìm kiếm để săn lùng các thiết bị dễ bị tấn công cụ thể thông qua các chuỗi tìm kiếm được nhắm mục tiêu. Nếu chúng tôi cho rằng Google đã lập chỉ mục hầu hết các thiết bị vô tình tiếp xúc với internet, chúng tôi có thể sử dụng văn bản mà chúng tôi biết xuất hiện trong trang đăng nhập hoặc trang quản trị của họ để tìm thấy chúng.

2. Dork kết nối với Internet những loại điều gì?

Bạn sẽ ngạc nhiên. Mọi thứ từ bộ điều khiển Du thuyền trong bể bơi đại dương đến giao diện cấu hình đến các hệ thống quan trọng đều được kết nối với internet bởi những người có thiện chí với giả định rằng sẽ không có ai tìm thấy chúng.

Vì vậy, làm thế nào điều này có thể xảy ra với bạn? Hãy tưởng tượng có một camera an ninh mới cung cấp khả năng xem nó trên điện thoại của bạn bất cứ khi nào bạn muốn. Bạn thiết lập, kết nối nó với Wi-Fi và tải xuống một ứng dụng yêu cầu bạn đăng nhập. Sau đó, bạn có thể truy cập máy ảnh của mình từ mọi nơi!

Những gì đang diễn ra trong nền không đơn giản như vậy. Máy ảnh này gọi đến máy chủ Trung Quốc và phát video theo thời gian thực, cho phép bạn đăng nhập bằng cách truy cập nguồn cấp dữ liệu video được lưu trữ trên máy chủ ở Trung Quốc từ điện thoại của bạn. Máy chủ đó có thể không yêu cầu mật khẩu để truy cập nguồn cấp dữ liệu webcam của bạn, giúp máy ảnh của bạn có thể truy cập được đối với bất kỳ ai đang tìm kiếm văn bản có trong trang xem của máy ảnh.

Thật không may, Google rất hiệu quả trong việc tìm kiếm bất kỳ thiết bị nào trên internet chạy máy chủ HTTP và HTTPS. Bởi vì hầu hết các thiết bị này đều lưu trữ một máy chủ để định cấu hình chúng, điều đó có nghĩa là có nhiều thứ không được cho là có trên Google.

3. Dork nào mạnh nhất?

Cho đến nay, loại tệp bị lộ nghiêm trọng nhất mà chúng tôi có thể tìm thấy là loại làm rò rỉ thông tin đăng nhập vào tài khoản người dùng hoặc toàn bộ dịch vụ.

Thông thường, điều này sẽ xảy ra theo một trong hai cách. Đầu tiên, một máy chủ hoặc dịch vụ khác được thiết lập không chính xác và hiển thị nhật ký quản trị của nó trên internet. Khi mật khẩu bị thay đổi hoặc người dùng đăng nhập không chính xác, các nhật ký này có thể làm rò rỉ thông tin đăng nhập được sử dụng cho internet.

Một cách khác, điều này xảy ra là khi các tệp cấu hình chứa thông tin tương tự bị lộ. Đây là những tệp được cho là nội bộ nhưng thường để ngỏ thông tin quan trọng. Một trong những sai lầm này có thể khiến toàn bộ dịch vụ bị tấn công bởi kẻ tấn công, kẻ tình cờ có cơ hội cung cấp thông tin.

Chúng tôi sẽ sử dụng Google dorks để tìm không chỉ những tệp này mà còn cả những thứ như máy chủ truyền tệp có thể chứa thông tin thú vị, danh sách email và webcam cá nhân của tôi.

4. Những gì bạn cần

Google Dork là gì
Google Dork là gì

Để làm theo, bạn sẽ cần một trình duyệt có truy cập internet. Điều tuyệt vời khi sử dụng Google dork là chúng ta có thể sử dụng các công cụ mà hầu hết mọi người đều có thể truy cập được để tìm ra các hệ thống dễ bị tấn công.

Khi bạn đã mở trình duyệt của mình, hãy điều hướng đến Google.com và chúng tôi sẵn sàng truy cập.

Bước 1: Tìm kiếm Máy chủ & Trang web FTP bằng HTTP

Để bắt đầu, chúng tôi sẽ sử dụng các nút sau để tìm kiếm các máy chủ truyền tệp được xuất bản trong năm nay. Việc tìm kiếm các máy chủ này có thể cho phép chúng tôi tìm thấy các tệp được cho là nội bộ nhưng lại vô tình được công khai.

intitle: “index of” inurl: ftp after: 2018

Các máy chủ này được công khai vì tệp chỉ mục của máy chủ FTP của chúng là loại dữ liệu mà Google thích quét – một sự thật mà mọi người thường quên. Quá trình quét của Google dẫn đến một danh sách đầy đủ tất cả các tệp có trên máy chủ có thể tìm kiếm được trên Google.

Nếu chúng tôi muốn tìm các trang web không an toàn vẫn sử dụng HTTP để dò tìm, chúng tôi có thể sửa đổi một chút lệnh để làm như vậy bằng cách thay đổi “ftp” thành “http” và chạy lại tìm kiếm.

intitle: “index of” inurl: http after: 2018

Tìm kiếm chuỗi đó sẽ tạo ra danh sách rất nhiều trang web HTTP, sẵn sàng bị tấn công. Nhưng nếu chúng ta đang tìm kiếm một loại trang web cụ thể, chúng ta có thể tiến xa hơn nữa.

Nếu chúng ta muốn bắt đầu đạt được một số mục tiêu dễ dàng, chúng ta có thể cụ thể hơn và tìm kiếm các biểu mẫu trực tuyến vẫn sử dụng HTTP bằng cách thay đổi văn bản trong tiêu đề tìm kiếm.

intitle: “forum” inurl: http after: 2018

Chúng tôi có thể tiếp tục thêm các toán tử tìm kiếm như AND inurl: “subscribe” để cụ thể hơn và tìm kiếm các trang đăng ký của các trang mẫu không an toàn.

Ở đây bạn có thể thấy chúng tôi đã tìm thấy danh sách các diễn đàn trực tuyến dễ bị tấn công bằng HTTP.

Bước 2: Tìm tệp nhật ký bằng mật khẩu

Bước tiếp theo sẽ là tìm kiếm các tệp kiểu .LOG. Tìm kiếm tệp LOG sẽ cho phép chúng tôi tìm kiếm manh mối về thông tin đăng nhập vào hệ thống hoặc tài khoản người dùng hoặc quản trị viên khác nhau có thể là gì.

Dork chúng ta sẽ sử dụng để làm điều này như sau.

allintext: password filetype: log after: 2018

Khi tìm kiếm các tệp nhật ký hiện tại được tiếp xúc với internet, chúng tôi tìm thấy điều này gần như ngay lập tức.

Nhật ký này nói rằng mật khẩu là mật khẩu mặc định, bạn chỉ cần tìm kiếm Google đơn giản trên trang web của Dự án OpenCast để khám phá nó. Với một tìm kiếm, chúng tôi có thể tìm thấy thông tin đăng nhập vào hệ thống này mà không cần hack bất cứ thứ gì.

Bước 3: Tìm tập tin cấu hình bằng mật khẩu

Các tệp cấu hình không được công khai và tệp .ENV là một ví dụ tuyệt vời về điều này. Nếu chúng tôi tìm kiếm các tệp .ENV có chứa một chuỗi cho mật khẩu cơ sở dữ liệu, chúng tôi sẽ ngay lập tức tìm thấy mật khẩu cho cơ sở dữ liệu này mà chúng tôi đã phát hiện ra.

filetype: env “DB_PASSWORD” sau: 2018

Nếu xóa sau: 2018, chúng tôi có thể thấy các tệp nhật ký cũ hơn cũng hiển thị các dịch vụ trên internet.

Bước 4: Tìm danh sách email

Danh sách email là một cách tuyệt vời để loại bỏ địa chỉ email và cố gắng tìm kiếm thông tin về các mục tiêu của công ty hoặc trường học. Những danh sách này thường được sử dụng bởi các công ty hoặc trường học đang cố gắng sắp xếp danh sách email cho các thành viên của họ.

Để tìm chúng, chúng tôi sẽ tìm loại tệp .XLS của bảng tính với chuỗi “email.xls” trong URL.

Mặc dù những kết quả này hữu ích, nhưng hãy cẩn thận không tải xuống bất kỳ tệp nào mà không xem xét trước xem đó có phải là honeypot hay không. Nhiều người sẽ sử dụng các dorks phổ biến và sau đó để máy chủ lưu trữ một tệp có vẻ dễ bị tấn công nhưng thay vào đó có thể chứa phần mềm độc hại.

Bước 5: Tìm máy ảnh mở

Cuối cùng, nếu bạn nghĩ Shodan là dịch vụ duy nhất có thể tìm thấy những chiếc máy ảnh mở kỳ lạ thì bạn đã nhầm. Các trang đăng nhập và xem máy ảnh thường là HTTP, có nghĩa là Google sẵn lòng lập chỉ mục chúng và cung cấp chúng để xem bạn có biết chuỗi tìm kiếm phù hợp hay không.

Định dạng phổ biến cho chuỗi webcam là tìm kiếm “top.htm” trong URL có bao gồm ngày và giờ hiện tại. Bạn sẽ tìm thấy rất nhiều kết quả theo cách này.

inurl: top.htm inurl: currenttime

Kết quả đầu tiên là một webcam dựa trên Windows XP từ một góc độ khác ở BelmONS, Ireland.

Một camera dork khác tạo điểm nổi bật tìm kiếm cho một trang xem trực tiếp chung được lưu trữ trên bộ định tuyến.

inurl: “lvappl.htm”

Bằng cách sử dụng dork này, tôi đã có thể xác định vị trí máy ảnh tốt nhất trên tất cả, birdcam1.

Nhiều camera cũng giám sát bên trong nhà máy hoặc khu công nghiệp.

Trong khi bạn có thể xem các camera mà tôi đã trình diễn mà không cần mật khẩu; nhiều dorks tìm kiếm các trang đăng nhập webcam mật khẩu mặc định nổi tiếng. Chiến thuật này, trong khi bất hợp pháp, cho phép dễ dàng truy cập vào nhiều webcam không dành cho công chúng xem.

5. Google Dork cho phép dễ dàng hack các dịch vụ tiếp xúc

Google Dork với Python
Google Dork với Python

Nhờ cách Google lập chỉ mục gần như bất kỳ thứ gì được kết nối với internet cung cấp giao diện web, không thiếu các dịch vụ được định cấu hình sai làm lộ các yếu tố quan trọng trên internet. Đảm bảo rằng bạn không đăng nhập vào bất kỳ dịch vụ nào trong số này ngay cả khi mật khẩu của bạn bị lộ, vì điều này có thể khiến bạn gặp rắc rối vì bạn không có quyền.

Nếu bạn có một dịch vụ trực tuyến, thật thông minh khi chạy một vài nút thông thường trên miền của bạn để xem những gì xuất hiện, đề phòng trường hợp bạn vô tình để lộ thông tin gì đó mà tin tặc có thể thấy hữu ích.

6. Google Dork với Python

Phương pháp tìm kiếm này rất hiệu quả trong việc tìm kiếm thông tin chúng ta cần. Nó làm tăng độ chính xác của từ khóa tìm kiếm, giảm thời gian tìm kiếm, v.v.

Nhưng có một vấn đề nếu kết quả là nhiều lần xem xét thủ công từng trang một là không hiệu quả. Nếu có cách lấy tự động tất cả các liên kết trên sẽ giảm thời gian của chúng ta rất nhiều.

Vì vậy, tôi đã tìm kiếm cách giải quyết vấn đề của mình trên Google. Và đã khám phá ra hướng dẫn Cách cạo Google bằng Python. Hướng dẫn này rất cơ bản và dễ hiểu cho người mới.

Hãy bắt đầu viết mã !!!

6.1. Chuẩn bị môi trường

  • Hệ điều hành: Chọn hệ điều hành nào tùy thích, tôi dùng subsystem Ubuntu 18.04
  • Python: Cài đặt python2 hoặc python3, tôi dùng python3
  • Cài đặt pip: Windows, Ubuntu sudo apt install python3-pip -y. Nếu sử dụng Python2 sudo apt install python-pip -y
  • IDE: Chọn IDE hoặc trình soạn thảo ưa thích, tôi dùng vim

Note: python2 đã không còn được hỗ trợ sửa lỗi từ nhà phát triển nữa.

6.2. Bắt đầu code

Cài đặt thư viện cần thiết

Đầu tiên cần cài đặt các thư viện cần thiết cho chương trình. Tạo một tệp tin request.txt và chèn nội dung sau:

requests
bs4

Sau đó chạy lệnh

# Python3
pip3 install -r requirements.txt

# Python2
pip install -r requirements.txt –user

Thêm thư viện

Để chương trình sử dụng các hàm từ thư viện, chúng ta cần nhập chúng vào chương trình.

import urllib
import requests
from bs4 import BeautifulSoup

Chuẩn bị câu truy vấn

Google sử dụng phương pháp GET để lấy dữ liệu từ người dùng nhập vào hộp tìm kiếm. Vì vậy, chúng tôi cần tạo một địa chỉ URL (URI) tương tự khi chúng tôi tìm kiếm trong trình duyệt. Nội dung của từ khóa tìm kiếm được chuyển cho tham số q.

query = ‘site:viblo.asia cach tim kiem voi google’
query = urllib.parse.quote(query)
URL = f”https://google.com/search?q={query}”

Google trả về các kết quả khác nhau khi chúng tôi sử dụng PC / Máy tính xách tay hoặc thiết bị di động. Làm sao Google biết được điều này, nhờ vào Tác nhân người dùng. Do đó, chúng tôi cần chỉ định Tác nhân người dùng cho mỗi yêu cầu tìm kiếm.

# desktop user-agent
USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:65.0) Gecko/20100101 Firefox/65.0’
# mobile user-agent
MOBILE_USER_AGENT = ‘Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36

Sau khi User-Agent được cài đặt, việc tiếp theo cần làm là chèn HTTP Header. Tại sao cần phải chèn HTTP Header? Đó là bởi vì nếu chúng tôi không chèn nó, chúng tôi sẽ không có thông tin đó khi chúng tôi gửi nó.

headers = {‘User-Agent’: USER_AGENT}

Thực thi

Tại thời điểm này, chúng tôi có đủ thông tin để gửi một yêu cầu GET HTTP và nhận lại kết quả tương ứng từ Google.

resp = requests.get(URL, headers=headers)
print(resp.text)

Khi chạy lên ta thu được kết quả như ảnh dưới.

Kết quả
Kết quả

Không phải lúc nào chúng tôi cũng nhận được kết quả như mong muốn (tức là máy chủ phải phản hồi bằng mã trạng thái HTTP 200). Do đó, chúng ta cần kiểm tra kết quả trước khi thực hiện phân tích mã nguồn HTML. Kiểm tra xem nếu máy chủ trả về 200 thì nó sẽ phân tích cú pháp HTML thông qua Beautiful Soup.

if resp.status_code == 200:
soup = BeautifulSoup(resp.content, “html.parser”)

Sau khi nhận được phản hồi từ Google, chúng tôi tiến hành tìm kiếm các liên kết dẫn đến kết quả mong muốn. Công việc phân tích HTML để đưa ra kết quả với sự hỗ trợ của Beautiful Soup sẽ giảm bớt gánh nặng cho chúng ta. Khi lặp qua toàn bộ mã HTML, hãy trích xuất kết quả và lưu trữ nó trong một mảng.

results = [] for g in soup.find_all(‘div’, class_=’r’):
anchors = g.find_all(‘a’)
if anchors:
link = anchors[0][‘href’] title = g.find(‘h3’).text
item = {
‘title’: title,
‘link’: link}
results.append(item)

for result in results:
print(result[‘link’])

Vậy là xong phần phân tích và lưu kết quả. Bây giờ cùng chạy thử nghiệm.

Kết quả
Kết quả

Trên đây là Google Dork là gì? Hướng dẫn chi tiết cách dùng [2021]. Hy vọng compamarketing đã mang đến bạn những thông tin hữu ích. Nếu có bất kì thắc mắc gì, hãy để lại comment bên dưới cho compamarketing nhé! Chúc các bạn thành công và đừng quên theo dõi các bài viết chia sẻ về thủ thuật của compamarketing.

0 0 votes
Article Rating
Xem thêm bài viết thuộc chuyên mục: Blog
Subscribe
Notify of
guest

This site uses Akismet to reduce spam. Learn how your comment data is processed.

0 Comments
Inline Feedbacks
View all comments