从100万篇文档中找出相似度较高的文档对-MySQL 튜토리얼-php.cn

집

데이터 베이스

MySQL 튜토리얼

从100万篇文档中找出相似度较高的文档对

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:56 PM

우리를알아내다문서유사높은

当我们想从100万篇文档中找出相项较高的文档对，就需要两两相互比较，一共是5千亿次，如果每次比较花费1微秒，那一共需要6天才能计算完，这肯定是不行的。问题应用： 1、论文查重，读过大学的就都听过这个词，让无数人崩溃的查重，就是本题的一种应用，只是

当我们想从100万篇文档中找出相似项较高的文档对，就需要两两相互比较，一共是5千亿次，如果每次比较花费1微秒，那一共需要6天才能计算完，这肯定是不行的。

问题应用：

1、论文查重，读过大学的就都听过这个词，让无数人崩溃的查重，就是本题的一种应用，只是将一篇和上千万篇比较，但原理是一样的。

2、同源文档。我们再网站百度一些东西时，点开几个页面，可能发现很多页面及其相似，内容甚至重复，比如CSDN上的博客就有很多是从别的地方复制过来的，各个网站上的新闻等也有时候会相同或相似。如果一个网站汇总每天的新闻，那肯定是要能识别内容相似的两篇文章，选一个即可。

相似度定义：

Jaccard相似度：集合S和T的交集与集合并集大小的比率。加入S文档有三个字母A，B，C，T文档有5个字母B,C,D,E，F，那么S和T的相似度就是2除以6，三分之一。

问题处理

1、单个文档处理

步骤1——Shingling

文档一般都很长，总不能一个字符一个字符的比较，最有效的解决方法就是把整个文档拆分成短字符集合（长度为k），这样处理后如果集合中相同元素越多，那么相似度也就越高，同时还能忽略句子顺序（很多人抄论文时就经常改句子顺序）。

例：文档为abcdabd，选择k=2，那字符集合就是{ab，bc，cd，da，bd}。

当然k=2肯定是不行的，这样集合最大才是26^2，估计任何两个长文档都会认为相似。

具体k应该为多少呢？如果文档是邮件，那么k=5就够了，如果像论文这样大文档，一般k=9.

此外，文档中有很多次被称作停用词，像the，and，to等，一般是忽略这些词，因为对文章主题无作用。

步骤2——哈希

如果k=9，那么集合最大为26^9，每个元素需要9个字节来表示，而实际的集合大小是文档长度*9，现在我想把这多么元素哈希到2^32个桶中，这样每个元素就可以用4个字节来表示，这种做法的效果要比直接另k=4要好。原因是k=4时，实际集合中的元素最多为26^4，而且通常是20^4，因为像字母z，j的频率出现的次数是很低的。而9个字节的集合大小最大能达到26^9

感谢哈希算法一次。

步骤3——最小哈希

即使用4个字节的shingle，那么每篇文档难道要保存4倍的文档大小的信息？本步骤的目标就是将大集合替换成小很多的“签名”，通过计算签名集合的相似度来估计原始集合的相似的，当用50Kb的文档shingle到200Kb，而最后的签名集合只有1Kb时，最终差异值可能在几个百分点之内。

假设有M个文档集合，一共有N元素（所有集合中元素的并集，N很大），那么集合可以用一个N行M列来表示，当这个集合含这个元素时，对应位置为1，否则为0.

我们随机选择n（通常为几百）为签名大小，可以构建集合S的最小哈希签名向量[h1(r)，h2(r)...hn(r)]。

步骤如下：

初始矩阵SIG（大小n*M）都为正无穷，对每行r如下处理：

（1）随机选择n个哈希函数，计算出h1(r)...hn(r).

（2）如果原N*M矩阵对应位置为0，什么都不做，如果为1，那么将SIG中新的值变为hi(r)和SIG中原值的最小值。

也就是通过N步迭代，把原来的N*M大小矩阵，变成n*M大小的矩阵（对于一个文档来说，就是N变成了n）。

这种方法能估计准确有一定的理论依据，概括为：两个集合的两个最小哈希值相等的概率等于这连个几个的相似度。

再次感谢哈希算法。

2、整体文档处理

现在文档本身不是很大，但是需要比较的文档对的数目太大。实际中我们关注的是相似度大于某个值的文档对，这样很多相似度较低的文档对是不需要比较的。 处理方法：局部敏感哈希（LSH） 我们对目标项进行多次哈希处理，使得相似项会比不相似项更可能到同一个桶中，然后只要比较同一个桶中的文档对。哈希到同一个桶的非相似文档对成为伪正例，而真正相似的分到两个桶的为伪反例，我们希望这两个越少越好。一种有效的方法是将上面的n*M矩阵再分为b块，每块是r行*M列，（n=br）。将每个r长的序列哈希到一个大数目范围的桶。这样矩阵缩小为b*M，对于两列来说，只要有一行在一个桶中，就是相似候选对，这种方法的准确也是很高的，关于LSH技术详细理论分析可以查看其他文献。这种LSH技术由于在过滤阶段非相似的数据对象大部分被过滤掉，因而极大地缩短了查询计算时间，提高了效率。再次感谢哈希。总结最后总结这种问题常用思路: 1、先选择k，构建shingle集合，可以再通过哈希映射成更短的桶编号。 2、计算出最小哈希签名。 3、应用LSH技术构建候选对。每一步都用了哈希算法，复杂度一再缩小。

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

MySQL : 초보자가 마스터하는 필수 기술Apr 18, 2025 am 12:24 AM

MySQL은 초보자가 데이터베이스 기술을 배우는 데 적합합니다. 1. MySQL 서버 및 클라이언트 도구를 설치하십시오. 2. SELECT와 같은 기본 SQL 쿼리를 이해하십시오. 3. 마스터 데이터 작업 : 데이터를 만들고, 삽입, 업데이트 및 삭제합니다. 4. 고급 기술 배우기 : 하위 쿼리 및 창 함수. 5. 디버깅 및 최적화 : 구문 확인, 인덱스 사용, 선택*을 피하고 제한을 사용하십시오.

MySQL : 구조화 된 데이터 및 관계형 데이터베이스Apr 18, 2025 am 12:22 AM

MySQL은 테이블 구조 및 SQL 쿼리를 통해 구조화 된 데이터를 효율적으로 관리하고 외래 키를 통해 테이블 간 관계를 구현합니다. 1. 테이블을 만들 때 데이터 형식을 정의하고 입력하십시오. 2. 외래 키를 사용하여 테이블 간의 관계를 설정하십시오. 3. 인덱싱 및 쿼리 최적화를 통해 성능을 향상시킵니다. 4. 데이터 보안 및 성능 최적화를 보장하기 위해 데이터베이스를 정기적으로 백업 및 모니터링합니다.

MySQL : 주요 기능 및 기능이 설명되었습니다Apr 18, 2025 am 12:17 AM

MySQL은 웹 개발에 널리 사용되는 오픈 소스 관계형 데이터베이스 관리 시스템입니다. 주요 기능에는 다음이 포함됩니다. 1. 다른 시나리오에 적합한 InnoDB 및 MyISAM과 같은 여러 스토리지 엔진을 지원합니다. 2.로드 밸런싱 및 데이터 백업을 용이하게하기 위해 마스터 슬레이브 복제 기능을 제공합니다. 3. 쿼리 최적화 및 색인 사용을 통해 쿼리 효율성을 향상시킵니다.

SQL의 목적 : MySQL 데이터베이스와 상호 작용합니다Apr 18, 2025 am 12:12 AM

SQL은 MySQL 데이터베이스와 상호 작용하여 데이터 첨가, 삭제, 수정, 검사 및 데이터베이스 설계를 실현하는 데 사용됩니다. 1) SQL은 Select, Insert, Update, Delete 문을 통해 데이터 작업을 수행합니다. 2) 데이터베이스 설계 및 관리에 대한 생성, 변경, 삭제 문을 사용하십시오. 3) 복잡한 쿼리 및 데이터 분석은 SQL을 통해 구현되어 비즈니스 의사 결정 효율성을 향상시킵니다.

초보자를위한 MySQL : 데이터베이스 관리를 시작합니다Apr 18, 2025 am 12:10 AM

MySQL의 기본 작업에는 데이터베이스, 테이블 작성 및 SQL을 사용하여 데이터에서 CRUD 작업을 수행하는 것이 포함됩니다. 1. 데이터베이스 생성 : createAbasemy_first_db; 2. 테이블 만들기 : CreateTableBooks (idintauto_incrementprimarykey, titlevarchar (100) notnull, authorvarchar (100) notnull, published_yearint); 3. 데이터 삽입 : InsertIntobooks (Title, Author, Published_year) VA

MySQL의 역할 : 웹 응용 프로그램의 데이터베이스Apr 17, 2025 am 12:23 AM

웹 응용 프로그램에서 MySQL의 주요 역할은 데이터를 저장하고 관리하는 것입니다. 1. MySQL은 사용자 정보, 제품 카탈로그, 트랜잭션 레코드 및 기타 데이터를 효율적으로 처리합니다. 2. SQL 쿼리를 통해 개발자는 데이터베이스에서 정보를 추출하여 동적 컨텐츠를 생성 할 수 있습니다. 3.mysql은 클라이언트-서버 모델을 기반으로 작동하여 허용 가능한 쿼리 속도를 보장합니다.

MySQL : 첫 번째 데이터베이스 구축Apr 17, 2025 am 12:22 AM

MySQL 데이터베이스를 구축하는 단계에는 다음이 포함됩니다. 1. 데이터베이스 및 테이블 작성, 2. 데이터 삽입 및 3. 쿼리를 수행하십시오. 먼저 CreateAbase 및 CreateTable 문을 사용하여 데이터베이스 및 테이블을 작성한 다음 InsertInto 문을 사용하여 데이터를 삽입 한 다음 최종적으로 SELECT 문을 사용하여 데이터를 쿼리하십시오.

MySQL : 데이터 저장에 대한 초보자 친화적 인 접근 방식Apr 17, 2025 am 12:21 AM

MySQL은 사용하기 쉽고 강력하기 때문에 초보자에게 적합합니다. 1.MySQL은 관계형 데이터베이스이며 CRUD 작업에 SQL을 사용합니다. 2. 설치가 간단하고 루트 사용자 비밀번호를 구성해야합니다. 3. 삽입, 업데이트, 삭제 및 선택하여 데이터 작업을 수행하십시오. 4. Orderby, Where and Join은 복잡한 쿼리에 사용될 수 있습니다. 5. 디버깅은 구문을 확인하고 쿼리를 분석하기 위해 설명을 사용해야합니다. 6. 최적화 제안에는 인덱스 사용, 올바른 데이터 유형 선택 및 우수한 프로그래밍 습관이 포함됩니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.