采用词法分析提取域名和IP-安全-PHP中文网

首页

运维

安全

采用词法分析提取域名和IP

王林

Dec 25, 2019 pm 01:08 PM

ip域名提取词法分析

采用词法分析提取域名和IP

背景

在分析日志的时候发现有些日志中参数中包含其他的URL，例如：

提取请求参数中的URL(xss.ha.ckers.org)，再对比威胁情报数据库，如果命中黑名单直接标黑。如果不在黑名单，也不在公司的白名单里可以先做个标记，后续着重分析。

提取URL

关于URL的提取网上有很多文章，大部分都是是使用正则表达式，方法简单但是不太准确。我这里提供一种方法：采用词法分析，提取域名和IP。思路借鉴了这篇文章：https://blog.csdn.net/breaksoftware/article/details/7009209，有兴趣的可以去看看，事实证明跟着大神确实涨姿势。

原文是用C++版本，这里我用Python写了一个类似的，供大家参考。

常见的URL分类

观察可以见得：IP形式的URL结构最为简单：4个小于255的数字被.分割；domain形式比较复杂，但是它们有共性：都具有顶级域名.com。

定义合法字符：

顶级域名列表：

域名形式提取：如www.baidu.com。

IP形式提取：如192.168.1.1。

while (i < len(z) and z[i].isdigit()):
                i = i + 1
                ip_v1 = True
                reti = i            if i < len(z) and z[i] == &#39;.&#39;:
                i = i + 1
                reti = i            else:
                tokenType = TK_OTHER
                reti = 1while (i < len(z) and z[i].isdigit()):
                i = i + 1
                ip_v2 = True
            if i < len(z) and z[i] == &#39;.&#39;:
                i = i + 1
            else:                if tokenType != TK_DOMAIN:
                    tokenType = TK_OTHER
                    reti = 1while (i < len(z) and z[i].isdigit()):
                i = i + 1
                ip_v3 = True
            if i < len(z) and z[i] == &#39;.&#39;:
                i = i + 1
            else:                if tokenType != TK_DOMAIN:
                    tokenType = TK_OTHER
                    reti = 1while (i < len(z) and z[i].isdigit()):
                i = i + 1
                ip_v4 = True

            if i < len(z) and z[i] == &#39;:&#39;:
                i = i + 1
            while (i < len(z) and z[i].isdigit()):
                i = i + 1

            if ip_v1 and ip_v2 and ip_v3 and ip_v4:                
                self.urls.append(z[0:i])                
                return reti, tokenType            
            else:                
                if tokenType != TK_DOMAIN:
                    tokenType = TK_OTHER
                    reti = 1

混合形式提取：如1234.com。
扫描前半部分1234，符合IP形式的特征，但是发现代码会报异常，所以需要IP处理代码段添加判断:判断后缀是否是顶级域名：

结果测试

测试数据：

运行结果：

这只是个初步的版本，如果有BUG欢迎大家指正。

结束语

以前只顾着闷着头的写代码，忽略了事后的思考和总结。现在尝试着改变一下，一边工作，一边提炼和总结，遇到感觉不错的，尝试写成工具开源出来，与大家共勉。

代码传送门：

https://github.com/skskevin/UrlDetect/blob/master/tool/domainExtract/domainExtract.py

相关文章教程推荐：web服务器安全

以上是采用词法分析提取域名和IP的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：FreeBuf.COM。如有侵权，请联系admin@php.cn删除

请求的控件无效 NET HELPMSG 2191：2 个简单修复Apr 15, 2023 am 09:13 AM

在TCP/IP协议套件中，域名系统是提供计算机名称到IP地址映射名称解析服务的协议之一。但是，有时它会出现故障，从而导致错误，例如请求的控制对此服务NETHELPMSG2191无效。DNS客户端和服务器协同工作，为计算机和用户提供计算机名称到IP地址映射名称解析服务。安装Windows后，客户端和服务器版本的操作系统默认启用客户端服务。一旦您在TCP/IP网络配置中指定了服务器的IP地址，DNS客户端就会查询服务器以发现域控制器并将计算机名称解析为IP地址。只有在服务

主机的域名和主机的ip地址两者之间的关系是什么Jan 14, 2021 pm 06:02 PM

主机的域名和主机的ip地址两者之间的关系是：一个IP地址对应多个域名。IP地址用数字化形式来对计算机网络中的主机进行网络标识，域名用字符化形式来对计算机网络中的主机进行网络标识。在Internet中，一个域名之内能够对应一个IP地址，但是一个IP地址可以被多个域名所对应。

如何在iPhone上提取RAR文件Jul 12, 2023 pm 07:53 PM

很多时候，非常大的文件很难在设备之间共享，尤其是智能手机等。因此，这些文件首先被存档/压缩成RAR文件，然后发送到另一个设备进行共享。但问题是RAR文件不容易在iPhone上提取。要提取zip文件，只需轻点一下即可。没有多少人知道在iPhone上提取RAR文件的过程，对于初学者来说，这些步骤可能会令人困惑。可以使用iPhone上称为快捷方式的默认应用程序来完成此操作。我们在这里逐步解释了如何使用快捷方式应用程序在iPhone上提取任何RAR文件。如何在iPhone上提取RAR文件步骤1：首先，您

国内永久免费域名申请方法是什么Jan 19, 2024 pm 04:01 PM

申请方法：1、通过工信部网站申请免费域名，等待审核通过后即可获得免费域名；2、通过DNSPod免费申请域名，用户可以在DNSPod上注册账号并申请免费的二级域名；3、选择一个可靠的免费域名服务提供商，通过对比和了解，选择一个可靠的提供商；4、注册账号，点击注册按钮，按照要求填写相关个人信息并创建账号；5、搜索并选择域名即可。

如何使用Python提取图片中的特定区域Aug 19, 2023 pm 06:54 PM

如何使用Python提取图片中的特定区域引言：在数字图像处理中，提取特定区域是一项常见的任务。Python作为一种功能强大的编程语言，提供了多种库和工具来处理图像数据。本文将介绍如何使用Python和OpenCV库来提取图片中的特定区域，并附带代码示例。安装所需库在开始之前，我们需要安装OpenCV库。可以使用以下命令来安装：pipinstallopen

在 Windows 11 上如何解压缩文件Oct 11, 2023 pm 09:09 PM

如果您不知道如何在Windows11上解压缩文件，则可能无法安装某些软件或查看其他人以存档格式发送给您的文件。此过程执行起来非常简单，在今天的指南中，我们将向您展示在Windows11上执行此操作的最佳方法。如何在Windows11中解压缩文件？1.使用上下文菜单在您的PC上找到zip文件并右键单击它。接下来，选择“全部提取”。选择提取位置，然后单击“提取”按钮。等待Windows提取文件。2.使用第三方工具下载WinZip并安装它。双击要提取的zip文件。现在单击解压缩到并选择目标文件夹。3.

使用域名访问网站是啥意思Mar 10, 2023 pm 02:18 PM

使用域名访问网站是指使用域名来进入一个网站，就是在浏览器里直接输入网站的网址来访问网站。网站都是存放在服务器上的，服务器有一个地址，也就是网站的ip地址，是一串数字，但是数字很难记，域名和DNS应用而生，DNS就是将网址和网站的ip地址对应起来；这样用户可以输入网址（域名），就相当于输入了网站的ip地址，就可以访问网站了。