가장 긴 공통 부분 문자열(longest common substring)과 가장 긴 공통 부분 문자열(longest common substring)은 같은 것이 아닙니다. 다음 글은 JavaScript에서 가장 긴 공통 부분 순서의 구현에 대한 관련 정보를 주로 소개합니다. 참고할 수 있습니다.
소개
가장 긴 공통 부분 시퀀스 LCS는 주어진 두 시퀀스 X와 Y에서 가능한 한 많은 문자를 가져와 원래 시퀀스에 배열된 순서대로 배열하여 얻습니다. LCS 문제에 대한 알고리즘은 다양한 용도로 사용됩니다. 예를 들어, 다양한 버전의 소프트웨어를 관리할 때 LCS 알고리즘은 소프트웨어 테스트에서 이전 버전과 새 버전 간의 유사점과 차이점을 찾는 데 사용됩니다. 기록된 서열과 재생된 서열을 비교하는 데 사용되며, 유전 공학 분야에서는 LCS 알고리즘이 사용됩니다. 이 알고리즘은 표절 방지 시스템에서 환자의 DNA 가닥과 본드의 DNA 가닥 사이의 유사점과 차이점을 확인합니다. 논문의 표절률을 확인하는데 사용됩니다. LCS 알고리즘은 프로그램 코드 유사성 측정, 인간의 실행 시퀀스 검색, 비디오 세그먼트 매칭 등에 사용될 수 있으므로 LCS 알고리즘에 대한 연구는 응용 가치가 높습니다.
기본 개념
하위 시퀀스: 특정 시퀀스의 하위 시퀀스는 주어진 시퀀스에서 0개 이상의 요소를 제거한 결과입니다(요소 간의 상대적 순서를 변경하지 않고). 예를 들어, 시퀀스 23195a5eab8013c21303d3d24e81fe27의 하위 시퀀스는 4e2154b1242725e74a11c55ea3967ed3, 2cf3a2d5a55d4ffa7aceebabd439c436, 99080602b5459d7a05dfb3b86d5155dc잠깐만요.
공통 부분 수열: 수열 X와 Y가 주어지면 수열 Z는 X의 부분 수열이자 Y의 부분 수열이며, Z는 X와 Y의 공통 부분 수열입니다. 예를 들어 X=[A,B,C,B,D,A,B], Y=[B,D,C,A,B,A[인 경우 시퀀스 Z=[B,C,A]는 다음과 같습니다. X와 Y 의 공통 부분 수열은 길이가 3입니다. 그러나 Z는 X와 Y의 가장 긴 공통 부분 수열이 아니며, 수열 [B, C, B, A]와 [B, D, A, B]도 X와 Y의 가장 긴 공통 부분 수열입니다. 4 이고 X와 Y에는 길이가 5보다 크거나 같은 공통 부분 수열이 없습니다. 수열 [A, B, C]와 수열 [E, F, G]의 공통 부분 수열에는 빈 수열 []만 있습니다.
가장 긴 공통 부분 수열: X와 Y 수열이 주어지면 모든 공통 부분 수열 중에서 길이가 가장 긴 하나 또는 여러 개를 선택하세요.
하위 문자열: 시퀀스의 앞, 마지막 또는 둘 다에서 0개 또는 여러 문자를 삭제하여 형성된 새로운 시리즈입니다. 차이점은 하위 시퀀스의 문자가 중간에서 잘려질 수 있다는 것입니다. cnblogs 문자열에는 몇 개의 하위 시퀀스가 있습니까? 확실히 cb, cgs 등 27개가 하위 시퀀스입니다.
설명할 수 있는 그림을 보여주세요.
하위 시퀀스가 반드시 연속적인 것은 아니며, 연속적인 것은 문자열이라는 것을 알 수 있습니다.
Problem Analysis
우리는 여전히 행렬에서 분석을 시작하고 상태 전이 방정식을 직접 도출합니다.
먼저 문제를 프론트 엔드에 충분히 친숙한 개념으로 변환합니다. 순차적으로 호출하는 대신 배열이나 문자열로 생각하면 됩니다. 일을 단순하게 유지하기 위해 두 문자열이 비교되고 있다고 가정해 보겠습니다.
여러 개, 0개 또는 모두를 삭제할 수 있는 "서브 시퀀스" 개념에 중점을 둡니다. 현재 첫 번째 하위 시퀀스는 빈 문자열입니다(시퀀스가 문자열이 아닌 경우에도 여전히 가능합니다)! 정말 주목하셔야 할 부분이에요! 많은 사람들이 "알고리즘 입문"의 차트를 이해하지 못하고, 이해하는 척하지 않는 블로거들도 많습니다. 우리는 항상 왼쪽에서 오른쪽으로 비교하며, 물론 첫 번째 문자열은 행렬의 높이이므로 수직으로 배치됩니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
D | A | B | Fake X="ABCDAB", Y="BDCABA", 각각은 가장 짧은 시퀀스를 꺼냅니다. 즉, 빈 문자열과 빈 문자열을 비교합니다. LCS 방정식의 해는 숫자이기 때문에 이 표는 숫자로만 채워질 수 있습니다. 두 개의 빈 문자열의 공통 영역의 길이는 0. | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"" | 0 | ||||||||||||
그런 다음 X를 이동하지 않고 계속해서 빈 문자열이 배열에서 나오도록 하고 Y에서는 "B"가 배열에서 나오도록 합니다. 분명히 공통 영역의 길이는 0입니다. Y는 다른 문자로 대체됩니다. , D, C 또는 연속성 DC와 DDC를 결합하면 상황은 변경되지 않았으며 여전히 0입니다. 따라서 첫 번째 행은 모두 0입니다. 그런 다음 Y를 이동하지 않고 Y는 빈 문자열만 생성합니다. 위 분석과 동일하며 둘 다 0이고 첫 번째 열은 모두 0입니다. 는 0.
" " | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 0 | B | 0 | C | 0 | D | |||||||
A | |||||||||||||
B | |||||||||||||
LCS 문제는 Backpack 문제와 조금 다르며, Backpack 문제는 괜찮습니다. -1 줄로 설정하고 가장 긴 공통 하위 시퀀스입니다. 빈 하위 시퀀스가 발생하기 때문에 처음부터 왼쪽과 위쪽이 고정되어 있습니다. | |||||||||||||
A는 "X"이고 Y는 "BDCA" | |||||||||||||
x | "" | ||||||||||||
D | C |
"" | 0 | 0 | 0 | 0 | 0 | 0 | |||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A | 0 | 0 | 0 | 0 | 1 | B | |||||||
C | 0 | D | 0 | A | 0 | ||||||||
0 | |||||||||||||
계속해서 오른쪽 빈칸을 채워가는데, 빈칸은 어떻게 채워야하나요? 분명히 LCS는 X의 길이보다 클 수 없습니다. 어떻게 A 문자열에서 시작하는 Y의 하위 시퀀스가 B의 A 시퀀스와 비교하여 1과 같을 수 있습니까? ㅋㅋㅋ | D | ||||||||||||
A | |||||||||||||
B | |||||||||||||
1
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ |
---|
ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ | C | 0 | D | 0 | A | 0 | |||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
이 시점에서는 몇 가지 규칙을 요약한 다음 계산을 통해 아이디어를 검증하고 이를 개선하기 위한 새로운 규칙이나 제약 조건을 추가할 수 있습니다. | Y는 모든 문자를 위로 보냅니다. 더 크면 Y의 B 하위 시퀀스 집합이 더 커집니다. 비록 크지 않더라도 원본보다 작을 수는 없습니다. 분명히 새로 추가된 C는 전투력이 될 수 없고 둘 사이의 공통 문자가 아니므로 그 값은 AB의 하위 시퀀스 집합과 동일해야 합니다. ㅋㅋㅋ | 11 | B | ||||||||||
1 | 1 | 1 | 1 | 2 | 2 | C | 0 | ||||||
D | 0 | A | 0 | B | 0 |
위 내용은 자바스크립트에서 가장 긴 공통 하위 시퀀스를 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!