Google Dork là gì? Hướng dẫn chi tiết cách dùng [2024]

Google Dork là ứng dụng thường được dùng để tìm lỗ hỏng bảo mật trong cấu hình và mã máy tính mà các trang web đang sử dụng. Trong bài viết hôm nay, compamarketing sẽ giới thiệu cụ thể hơn về Google Dork là gì? Hướng dẫn chi tiết cách dùng [2021]. Cùng theo dõi và làm theo các bước hướng dẫn dưới đây nhé!

1. Dork là gì?

Ứng dụng nâng cao của các nhà khai thác tìm kiếm Google là Google Dorking – Ứng dụng Nâng cao của Google cho phép chúng tôi nhắm mục tiêu và tìm hiểu về các thiết bị dễ bị tấn công cụ thể thông qua các chuỗi tìm kiếm cụ thể.

Google Dork là gì? Hướng dẫn chi tiết cách dùng [2024]

2. Dork kết nối với Internet những loại điều gì?

Bạn sẽ ngạc nhiên. Từ điều khiển du thuyền trong hồ bơi đại dương đến giao diện cấu hình đến các hệ thống quan trọng, mọi thứ đều được kết nối với internet ngày nay. Ai đó có thể dễ dàng tìm thấy bạn nếu họ muốn.

Bạn đã bao giờ muốn biết chính xác điều gì đang diễn ra trong nhà khi bạn vắng nhà? Bây giờ bạn có thể. Máy ảnh mới của bạn cung cấp một máy chủ web tích hợp cho phép bạn theo dõi máy ảnh của mình từ mọi nơi trên thế giới. Bạn không cần tải xuống bất kỳ thứ gì hoặc đăng nhập vào bất kỳ thứ gì.

Có nhiều thứ hơn là nhìn thấy nó. Máy ảnh đang gọi đến một máy chủ Trung Quốc và phát một nguồn cấp dữ liệu video trực tiếp từ máy chủ đó trực tiếp trên điện thoại thông minh của bạn, cho phép bạn truy cập đầy đủ vào tất cả các ứng dụng video của mình, nhưng thực tế nó đang sử dụng một máy chủ ở Trung Quốc để làm điều đó. Có thể máy chủ của bạn không cần mật khẩu để truy cập vào nguồn cấp dữ liệu webcam của bạn, điều này giúp cho bất kỳ ai tình cờ xem được trang chế độ xem đều có thể truy cập vào webcam của bạn.

Các công cụ tìm kiếm như Google thực sự giỏi trong việc tìm kiếm các thiết bị chạy máy chủ HTTP hoặc HTTPS, vì vậy có thể an toàn khi giả định rằng hầu hết các thiết bị có trang cấu hình đều được lưu trữ bởi một máy chủ web. Điều đó có nghĩa là rất nhiều thứ không nên dùng của Google thực sự được lưu trữ bởi chính thiết bị, đây là điều mà bạn có thể không muốn.

3. Dork nào mạnh nhất?

Các loại rò rỉ dữ liệu phổ biến nhất là những loại rò rỉ thông tin đăng nhập tài khoản người dùng hoặc toàn bộ dịch vụ lên internet.

Có hai loại tấn công mạng mà chúng tôi đã thấy, mà bạn sẽ thấy được mô tả trên trang này: đánh cắp thông tin xác thực và vi phạm dữ liệu. Thông thường, hành vi trộm cắp thông tin xác thực xảy ra theo một trong hai cách. Đầu tiên là nếu ai đó thiết lập dịch vụ của riêng họ không đúng cách và để lộ nhật ký quản trị trên Internet. Khi mật khẩu được thay đổi hoặc người dùng đăng nhập vào một trang web không chính xác, những nhật ký này có thể làm rò rỉ thông tin đăng nhập của người dùng. Những thông tin đăng nhập này sau đó có thể được sử dụng cho Internet.

Một cách phổ biến khác, điều này có thể xảy ra là khi các tệp cấu hình chứa cùng một thông tin bị lộ ra ngoài. Đây là những tập tin được cho là nội bộ nhưng thường để ngỏ những thông tin quan trọng. Một trong những sai lầm này có thể khiến toàn bộ dịch vụ bị tấn công bởi kẻ tấn công có cơ hội cung cấp thông tin.

Chúng tôi sẽ sử dụng Google dorks để tìm tệp, dữ liệu và tài liệu trực tuyến cũng như những thứ như máy chủ truyền tệp có thể chứa thông tin thú vị, danh sách email và webcam cá nhân của tôi.

4. Những gì bạn cần

Để làm theo, bạn cần có trình duyệt web và truy cập internet. Điều tuyệt vời khi sử dụng Google Dork là chúng ta có thể sử dụng các công cụ sẵn có cho mọi người để tìm ra các hệ thống dễ bị tấn công.

Sau khi trình duyệt của bạn được mở, hãy truy cập Google.com.

Bước 1: Tìm kiếm Máy chủ & Trang web FTP bằng HTTP

Đầu tiên, chúng tôi sẽ sử dụng các nút sau để tìm kiếm các máy chủ truyền tệp được xuất bản trong năm nay. Các máy chủ này có thể cho phép chúng tôi tìm các tệp được cho là nội bộ, nhưng có thể vô tình được công khai.

intitle: “index of” inurl: ftp after: 2018

Máy chủ này là công khai vì nó có tệp chỉ mục, đây là loại dữ liệu mà Google thích quét, một sự thật mà mọi người thường quên. Quá trình quét máy chủ của Google tạo ra danh sách đầy đủ tất cả các tệp trên máy chủ, Google có thể lập chỉ mục các tệp này.

Dưới đây là một số cách để tìm các trang web không an toàn vẫn sử dụng HTTP để phát hiện chúng. Bạn có thể sửa đổi lệnh để thay đổi phương pháp phát hiện từ FTP sang HTTP.

intitle: “index of” inurl: http after: 2018

Nếu tôi muốn tìm địa chỉ IP của một trang web cụ thể, tôi có thể tìm kiếm các trang web HTTP theo địa chỉ IP. Tuy nhiên, nếu tôi đặc biệt quan tâm đến các trang web được sử dụng để tấn công máy tính, thì tôi có thể tìm kiếm các trang web đó theo URL của chúng.

Khi chúng tôi muốn đạt được một số mục tiêu dễ dàng, chúng tôi có thể cụ thể hơn và tìm kiếm các biểu mẫu trực tuyến vẫn sử dụng HTTP bằng cách thay đổi văn bản trong tiêu đề tìm kiếm.

intitle: “forum” inurl: http after: 2018

Chúng tôi có thể thêm một số toán tử tìm kiếm mới như AND inurl: “subscribe” để cụ thể hơn và tìm kiếm các trang đăng ký của các trang web mẫu không an toàn.

Ở đây bạn có thể thấy chúng tôi đã tìm thấy danh sách các diễn đàn trực tuyến dễ bị tấn công HTTP.

Bước 2: Tìm tệp nhật ký bằng mật khẩu

Bước tiếp theo sẽ là tìm kiếm các tệp nhật ký. Các tệp nhật ký có thể cung cấp cho chúng tôi một số manh mối về thông tin đăng nhập là gì, hoặc tài khoản người dùng hoặc quản trị viên khác nhau có thể là gì.

Dork chúng ta sẽ sử dụng để làm điều này như sau.

allintext: password filetype: log after: 2018

Khi chúng tôi lần đầu tiên tìm kiếm các tệp nhật ký hiện tại được tiếp xúc với internet, chúng tôi đã tìm thấy điều này gần như ngay lập tức.

Nhật ký này cho chúng ta biết mật khẩu là mật khẩu mặc định, bạn chỉ cần tìm kiếm Google đơn giản trên trang web Dự án OpenCast để khám phá nó. Với một tìm kiếm, chúng tôi có thể tìm thấy thông tin đăng nhập vào hệ thống này mà không cần hack bất cứ thứ gì.

Bước 3: Tìm tập tin cấu hình bằng mật khẩu

Các tệp cấu hình không được công khai và tệp.ENV là một ví dụ tuyệt vời về điều này. Nếu chúng tôi tìm kiếm các tệp.ENV có chứa một chuỗi cho mật khẩu cơ sở dữ liệu, chúng tôi sẽ ngay lập tức tìm thấy mật khẩu cho cơ sở dữ liệu này mà chúng tôi đã phát hiện ra.

filetype: env “DB_PASSWORD” sau: 2018

Nếu xóa sau: 2018, chúng tôi có thể thấy các tệp nhật ký cũ hơn cũng hiển thị các dịch vụ trên internet.

Bước 4: Tìm danh sách email

Email là một cách tuyệt vời để giữ cho danh sách liên hệ của bạn được cập nhật. Chúng thường được sử dụng bởi các công ty hoặc trường học đang cố gắng giữ cho các thành viên hoặc sinh viên của họ liên lạc với những gì họ đang làm gần đây.

Để tìm chúng, chúng tôi sẽ sử dụng Google để tìm kiếm các trang có chuỗi “filetype: xls” trong URL.

Mặc dù những kết quả này hữu ích, nhưng hãy cẩn thận không tải xuống bất kỳ tệp nào mà không kiểm tra trước xem đó có phải là honeypot hay không.

Bước 5: Tìm máy ảnh mở

Cuối cùng, nếu bạn nghĩ Shodan là dịch vụ duy nhất có thể tìm thấy những chiếc máy ảnh mở kỳ lạ thì bạn đã nhầm. Các trang đăng nhập và xem máy ảnh thường là HTTP, có nghĩa là Google sẵn lòng lập chỉ mục chúng và cung cấp chúng để xem bạn có biết chuỗi tìm kiếm phù hợp hay không.

Một định dạng webcam phổ biến là tìm kiếm “top.htm” trên URL bao gồm ngày và giờ hiện tại. Bạn sẽ tìm thấy rất nhiều kết quả theo cách này.

inurl: top.htm inurl: currenttime

Kết quả đầu tiên đó là một webcam dựa trên Windows XP từ một góc độ khác ở BelmONS, Ireland.

Đó là một webcam dork tạo điểm nhấn tìm kiếm cho một trang xem trực tiếp chung được lưu trữ trên bộ định tuyến.

inurl: “lvappl.htm”

Bằng cách sử dụng dork này, tôi đã có thể xác định vị trí máy ảnh tốt nhất trên tất cả, birdcam1.

Nhiều camera cũng giám sát bên trong nhà máy hoặc khu công nghiệp.

Trong khi bạn có thể dễ dàng xem camera mà tôi đã trình diễn mà không cần mật khẩu; nhiều loại dorky sẽ tìm kiếm một trang đăng nhập webcam phổ biến để xem nó. Chiến thuật này cho phép dễ dàng truy cập vào nhiều webcam không dành cho người xem.

5. Google Dork cho phép dễ dàng hack các dịch vụ tiếp xúc

Nhờ cách Google lập chỉ mục hầu hết mọi thứ được kết nối với internet cung cấp giao diện web, không thiếu các dịch vụ được định cấu hình sai làm lộ các yếu tố quan trọng của internet. Đảm bảo rằng bạn không đăng nhập vào bất kỳ dịch vụ nào trong số này ngay cả khi mật khẩu của bạn bị lộ, vì điều này có thể khiến bạn gặp rắc rối vì bạn không có quyền.

Nếu bạn có một dịch vụ trực tuyến, thật thông minh khi chạy một vài nút thông thường trên miền của bạn để xem những gì bật lên, trong trường hợp bạn vô tình làm rò rỉ thứ gì đó mà tin tặc có thể thấy hữu ích. có ích.

6. Google Dork với Python

Đây là một phương pháp tìm kiếm tuyệt vời để tìm kiếm thông tin chúng ta cần. Nó làm tăng độ chính xác của từ khóa tìm kiếm, giảm thời gian tìm kiếm và hơn thế nữa.

Nhưng có một vấn đề nếu kết quả là nhiều đánh giá thủ công trên mỗi trang không hiệu quả. Nếu có cách lấy tự động tất cả các liên kết trên sẽ giảm thời gian của chúng ta rất nhiều

Vì vậy, tôi đã tìm kiếm cách giải quyết vấn đề của mình trên Google. Và khám phá hướng dẫn Cách cạo Google bằng Python. Hướng dẫn này rất cơ bản và dễ hiểu cho người mới.

Hãy bắt đầu viết mã !!!

6.1. Chuẩn bị môi trường

Hệ điều hành: Chọn hệ điều hành nào tùy thích, tôi dùng subsystem Ubuntu 18.04
Python: Cài đặt python2 hoặc python3, tôi dùng python3
Cài đặt pip: Windows, Ubuntu sudo apt install python3-pip -y. Nếu sử dụng Python2 sudo apt install python-pip -y
IDE: Chọn IDE hoặc trình soạn thảo ưa thích, tôi dùng vim

Note: python2 đã không còn được hỗ trợ sửa lỗi từ nhà phát triển nữa.

6.2. Bắt đầu code

Cài đặt thư viện cần thiết

Đầu tiên cần cài đặt các thư viện cần thiết cho chương trình. Tạo một tệp tin request.txt và chèn nội dung sau:

requests
bs4

Sau đó chạy lệnh

# Python3
pip3 install -r requirements.txt

# Python2
pip install -r requirements.txt –user

Thêm thư viện

Để chương trình sử dụng các hàm từ thư viện, chúng ta cần nhập chúng vào chương trình.

import urllib
import requests
from bs4 import BeautifulSoup

Chuẩn bị câu truy vấn

Google sử dụng phương pháp GET để lấy dữ liệu từ người dùng nhập vào hộp tìm kiếm. Vì vậy, chúng tôi cần tạo một địa chỉ URL (URI) tương tự khi chúng tôi tìm kiếm trong trình duyệt. Nội dung của từ khóa tìm kiếm được chuyển cho tham số q.

query = ‘site:viblo.asia cach tim kiem voi google’
query = urllib.parse.quote(query)
URL = f”https://google.com/search?q={query}”

Google trả về các kết quả khác nhau khi chúng tôi sử dụng PC / Máy tính xách tay hoặc thiết bị di động. Làm sao Google biết được điều này, nhờ vào Tác nhân người dùng. Do đó, chúng tôi cần chỉ định Tác nhân người dùng cho mỗi yêu cầu tìm kiếm.

# desktop user-agent
USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:65.0) Gecko/20100101 Firefox/65.0’
# mobile user-agent
MOBILE_USER_AGENT = ‘Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36

Sau khi User-Agent được cài đặt, việc tiếp theo cần làm là chèn HTTP Header. Tại sao cần phải chèn HTTP Header? Đó là bởi vì nếu chúng tôi không chèn nó, chúng tôi sẽ không có thông tin đó khi chúng tôi gửi nó.

headers = {‘User-Agent’: USER_AGENT}

Thực thi

Tại thời điểm này, chúng tôi có đủ thông tin để gửi một yêu cầu GET HTTP và nhận lại kết quả tương ứng từ Google.

resp = requests.get(URL, headers=headers)
print(resp.text)

Khi chạy lên ta thu được kết quả như ảnh dưới.

Không phải lúc nào chúng tôi cũng nhận được kết quả như mong muốn (tức là máy chủ phải phản hồi bằng mã trạng thái HTTP 200). Do đó, chúng ta cần kiểm tra kết quả trước khi thực hiện phân tích mã nguồn HTML. Kiểm tra xem nếu máy chủ trả về 200 thì nó sẽ phân tích cú pháp HTML thông qua Beautiful Soup.

if resp.status_code == 200:
soup = BeautifulSoup(resp.content, “html.parser”)

Sau khi nhận được phản hồi từ Google, chúng tôi tiến hành tìm kiếm các liên kết dẫn đến kết quả mong muốn. Công việc phân tích HTML để đưa ra kết quả với sự hỗ trợ của Beautiful Soup sẽ giảm bớt gánh nặng cho chúng ta. Khi lặp qua toàn bộ mã HTML, hãy trích xuất kết quả và lưu trữ nó trong một mảng.

results = [] for g in soup.find_all(‘div’, class_=’r’):
anchors = g.find_all(‘a’)
if anchors:
link = anchors[0][‘href’] title = g.find(‘h3’).text
item = {
‘title’: title,
‘link’: link}
results.append(item)

for result in results:
print(result[‘link’])

Vậy là xong phần phân tích và lưu kết quả. Bây giờ cùng chạy thử nghiệm.

Trên đây là Google Dork là gì? Hướng dẫn chi tiết cách dùng [2021]. Hy vọng compamarketing đã mang đến bạn những thông tin hữu ích. Nếu có bất kì thắc mắc gì, hãy để lại comment bên dưới cho Compamarketing nhé! Chúc các bạn thành công và đừng quên theo dõi các bài viết chia sẻ về thủ thuật của compamarketing.

Blog