The Harvester Descomplicado: Guia Prático para Coleta de Informações
A linguagem de programação Python se tornou uma referência para a criação de ferramentas de automação, ao oferecer um conjunto de bibliotecas, estruturas e funcionalidades que simplificam a automatização de configurações e implantações em larga escala. Além disso, bibliotecas especializadas, como o Selenium ou a requests para automação de testes web e BeautifulSoup para web scraping (Extração de dados da web), têm sido amplamente utilizadas (AWS, 2024).
Seguindo as propriedades citadas anteriormente, o TheHarvester é uma ferramenta de código aberto, escrita em Python, utilizada para coletar informações públicas sobre alvos específicos na internet. Foi projetada para ajudar os profissionais de segurança da informação, pentesters e pesquisadores a obter informações relevantes sobre um alvo durante a fase de coleta de informações (MARTORELLA, 2024).
Conforme a documentação elaborada por seus desenvolvedores, a ferramenta atua executando coleta de informações em fontes abertas para auxiliar na visualização de ameaças no cenário externo de um domínio, coletando endereços de e-mail, nomes, IPs, subdomínios e URLs. Para reunir dados o TheHarvester usufrui recursos públicos e privados de outras entidades que também atuam na área da segurança da informação, realizando consultas em motores de busca, servidores DNS, páginas de redes sociais e outras fontes públicas para extrair dados disponíveis (AWS, 2024).
A ferramenta não percorre ativamente a web, porém, efetua interações com APIs de terceiros ou realiza extração de dados da web em resultados de busca, podendo consumir módulos passivos e ativos para captura das informações solicitadas. As propriedades da ferramenta que atuam ativamente são:
- Força Bruta DNS: efetua a enumeração de subdomínios de acordo com uma lista de nomes comuns;
- Captura de tela: atua fazendo a captura de tela de subdomínios encontrados.
Os módulos passivos consistem em consumir as API’s dos seguintes provedores:
- Anubis: Anubis-DB;
- Baidu: Baidu Mecanismo de Busca;
- Binaryedge: Lista de subdomínios conhecidos (Requer uma chave API.);
- Bing: Mecanismo de Busca da Microsoft;
- Bingapi: Acesso ao bing através da API (Requer uma chave API.);
- Brave: Mecanismo de Busca;
- Censys: O mecanismo de pesquisa Censys usará pesquisas de certificados para enumerar subdomínios e coletar e-mails (Requer uma chave API);
- Certspotter: Cert Spotter monitora registros de transparência de certificados;
- Criminalip: Mecanismo de pesquisa especializado em Inteligência de Ameaças Cibernéticas (CTI) (Requer uma chave API);
- Crt.sh: Mecanismo de busca de certificados associados a um domínio, a partir de informações de transparência de dados;
- Dnsdumpster: Mecanismo de Busca de dados de domínios;
- Duckduckgo: Mecanismo de Busca;
- Fullhunt: Plataforma de segurança de superfície de ataque de última geração (Requer uma chave AP);
- Github-code: Busca de informações na plataforma Github;
- Hackertarget: Scanners de vulnerabilidade online e inteligência de rede para ajudar as organizações;
- Hunter: Mecanismo de busca de e-mails de empresas (Requer uma chave API.);
- Hunterhow: Mecanismos de busca na Internet para pesquisadores de segurança (Requer uma chave API);
- Intelx: Mecanismo de busca de vazamentos de dados e de coleta de inteligência (Requer uma chave API.);
- PentestTools: Kit de ferramentas baseado em nuvem para testes de segurança ofensiva, focado em aplicações web e testes de intrusão em redes (Requer uma chave API.);
- ProjectDiscovery: Plataforma cloud que coleta e mantem ativamente dados de ativos em toda a Internet, para aprimorar a pesquisa e analisar mudanças em torno;
- Rapiddns: Ferramenta de consulta DNS que facilita a consulta de subdomínios ou sites de um mesmo IP;
- Rocketreach: Permite o acesso a e-mails pessoais/profissionais verificados em tempo real, números de telefone e links de mídia social (Requer uma chave API);
- SecurityTrails: Mecanismo de pesquisa Security Trails, o maior repositório mundial de dados históricos de DNS (Requer uma chave API);
- Shodan: O mecanismo de pesquisa Shodan procurará portas e banners de hosts descobertos (Requer uma chave API);
- Urlscan: Um sandbox para a web que é um scanner de URL e site;
- Virustotal: Pesquisa de domínio (Requer uma chave API);
- Yahoo: Yahoo Mecanismo de Busca.
Para execução prática, instalamos a ferramenta no laboratório localmente, em um sistema Kali Linux, efetuando uma clonagem do repositório disponibilizado pelos desenvolvedores no GitHub (https://github.com/laramies/theHarvester):

Após o download, um diretório é disponibilizado com todas as dependências para a execução da ferramenta. Para aplicar os conceitos citados acima, fizemos uma busca pelo domínio da UFRA:

Para aplicação prática da ferramenta, fizemos o teste utilizando as interfaces de dados para coletar informações de maneira passiva. A obrigatoriedade de chaves de API para usufruir determinadas bases dentro do TheHarvester foi um ponto que dificultou a busca em todas as fontes disponibilizadas. Como parâmetros inserimos o domínio ufra.edu.br e selecionamos todas as bases de dados existentes na solução com “-b all”. Entretanto, devido a ausência de chaves de API, nem todas foram usadas.


Dentro do escopo dos resultados foram encontrados endereços IP (19), e-mails (9), subdomínios (418) e URLs (7), conforme exibido na tabela abaixo:


Portanto, podemos observar o impacto do TheHarvester como ferramenta de coleta de informações, agilizando bastante a coleta de informações de ativos públicos em um Pentest, já executando levantamento de subdomínios, endereço IP e emails.
Leia mais sobre o mundo da tecnologia e segurança da informação em https://kalibrasecurity.com!