SQL Server 문자열 캡 처 및 중국어 처리 방법

환경 소개
SQL  Server

PRINT @@VERSION
MicrosoftSQLServer2012-11.0.2100.60(X64)
Feb10201219:39:15
Copyright(c)MicrosoftCorporation
EnterpriseEdition:Core-basedLicensing(64-bit)onWindowsNT6.1(Build7601:ServicePack1)

    
------------------
System Information
------------------
Operating System: Windows 7 Ultimate 64-bit (6.1, Build 7601) Service Pack 1 (7601.win7sp1_gdr.130828-1532)
System Model: Aspire E1-471G
Processor: Intel(R) Core(TM) i5-3230M CPU @ 2.60GHz (4 CPUs), ~2.6GHz
Memory: 4096MB RAM


2 실현 기능
중국어 문자 와 번 호 를 포함 하 는 문자열 에서 번 호 를 걸 러 냅 니 다.
삼 실현 시 뮬 레이 션
우선, 우 리 는 테스트 데 이 터 를 준비 하고 있 습 니 다. 여기 의 데 이 터 는 모두 아 날로 그 데이터 로 실제 적 인 의미 가 없습니다.문장 은 다음 과 같다.
CREATE TABLE #temp
(
   name VARCHAR(80)
);

INSERT INTO #temp
VALUES     ('    3059');

INSERT INTO #temp
VALUES     ('    3060');

INSERT INTO #temp
VALUES     ('    3061');

INSERT INTO #temp
VALUES     ('    3062');

INSERT INTO #temp
VALUES     ('    3063');

INSERT INTO #temp
VALUES     ('   3064');

INSERT INTO #temp
VALUES     ('   3065');

INSERT INTO #temp
VALUES     ('   3066');

INSERT INTO #temp
VALUES     ('   3067');

INSERT INTO #temp
VALUES     ('   3068');

INSERT INTO #temp
VALUES     ('     3069');

INSERT INTO #temp
VALUES     ('    3070');

INSERT INTO #temp
VALUES     ('   3071');

INSERT INTO #temp
VALUES     ('  3072');

INSERT INTO #temp
VALUES     ('  3073');

INSERT INTO #temp
VALUES     ('  3074');

INSERT INTO #temp
VALUES     ('  3075');

INSERT INTO #temp
VALUES     ('   3076'); 

그 다음 에 우 리 는 데 이 터 를 관찰 한 결과 이 데이터 들 이 모두 규칙 적 이 고 번 호 는 숫자 로 4 자 를 차지 하 는 것 을 발견 했다.숫자 앞 에는 가게, 장, 심, 시, 도, 월, 구, 성, 구 등 모두 9 개의 문자 가 포함 되 어 있다.SQL Server 에 내 장 된 함수 Substring, Charindex, Rtrim, Ltrim 을 사용 하여 가장 많이 나타 난 문자열 을 걸 러 냅 니 다.문장 은 다음 과 같다.
SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t1
FROM   #temp 

다음은 이 몇 가지 함수 의 사용 설명 입 니 다.
Substring
Returns the part of a character expression that starts at the specified position and has the specified length. The position parameter and the length parameter must evaluate to integers.
Syntax
SUBSTRING(character_expression, position, length)
Arguments
character_expression
Is a character expression from which to extract characters.
position
Is an integer that specifies where the substring begins.
length
Is an integer that specifies the length of the substring as number of characters.
Result Types
DT_WSTR
CharindexSearches an expression for another expression and returns its starting position if found.Syntax
CHARINDEX ( expressionToFind ,expressionToSearch [ , start_location ] ) 
ArgumentsexpressionToFindIs a character expression that contains the sequence to be found. expressionToFind is limited to 8000 characters.expressionToSearchIs a character expression to be searched.start_locationIs an integer or bigint expression at which the search starts. If start_location is not specified, is a negative number, or is 0, the search starts at the beginning of expressionToSearch.Return Typesbigint if expressionToSearch is of the varchar(max), nvarchar(max), or varbinary(max) data types; otherwise, int.RtrimReturns a character expression after removing trailing spaces.RTRIM does not remove white space characters such as the tab or line feed characters. Unicode provides code points for many different types of spaces, but this function recognizes only the Unicode code point 0x0020. When double-byte character set (DBCS) strings are converted to Unicode they may include space characters other than 0x0020 and the function cannot remove such spaces. To remove all kinds of spaces, you can use the Microsoft Visual Basic .NET RTrim method in a script run from the Script component.SyntaxRTRIM(character expression)              Argumentscharacter_expressionIs a character expression from which to remove spaces.Result TypesDT_WSTRLtrimReturns a character expression after removing leading spaces.LTRIM does not remove white-space characters such as the tab or line feed characters. Unicode provides code points for many different types of spaces, but this function recognizes only the Unicode code point 0x0020. When double-byte character set (DBCS) strings are converted to Unicode they may include space characters other than 0x0020 and the function cannot remove such spaces. To remove all kinds of spaces, you can use the Microsoft Visual Basic .NET LTrim method in a script run from the Script component.SyntaxLTRIM(character expression)              Argumentscharacter_expressionIs a character expression from which to remove spaces.Result TypesDT_WSTR
자, 처리 한 결 과 를 살 펴 보면 가게 가 포 함 된 문자열 이 모두 번 호 를 걸 러 낸 것 을 볼 수 있 습 니 다.
SELECT * FROM #t1


3059
3060
3061
3062
3063
3064
3065
3066
3067
3068
     3069
    3070
   3071
  3072
  3073
  3074
  3075
   3076

이어서 우 리 는 장, 심, 시, 도, 월, 구, 성, 구 를 포함 하 는 문자열 을 순서대로 처리 했다. 문장 과 처리 결 과 는 다음 과 같다.
SELECT *
FROM   #t1
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 


     3069
    3070
   3071
  3072
  3073
  3074
  3075
   3076


SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t2
FROM   #t1


SELECT *
FROM   #t2
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 


    3070
   3071
  3072
  3073
  3074
  3075
   3076


SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t3
FROM   #t2


SELECT *
FROM   #t3
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 


   3071
  3072
  3073
  3074
  3075
   3076


SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t4
FROM   #t3


SELECT *
FROM   #t4
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 


  3072
  3073
  3074
  3075
   3076


SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t5
FROM   #t4


SELECT *
FROM   #t5
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 


  3073
  3074
  3075
   3076


SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t6
FROM   #t5


SELECT *
FROM   #t6
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 


  3074
  3075
   3076


SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t7
FROM   #t6


SELECT *
FROM   #t7
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 


  3075
   3076


SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t8
FROM   #t7


SELECT *
FROM   #t8
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 


   3076


SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t9
FROM   #t8


SELECT *
FROM   #t9
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 


--   

이것 은 최종 처리 결과 입 니 다. 번 호 를 걸 러 낸 후에 저 는 이 번호 와 데이터 베 이 스 를 연결 하여 원 하 는 데 이 터 를 얻 을 수 있 습 니 다.
SELECT *
INTO   #result
FROM   #t9


SELECT *
FROM   #result 


name
3059
3060
3061
3062
3063
3064
3065
3066
3067
3068
3069
3070
3071
3072
3073
3074
3075
3076


SELECT s.xxx,
       s.xxx
FROM   xx s
       JOIN #result r
         ON s.xxx = r.name
WHERE  s.xxx = 0; 

사총 결
본 논문 의 필터 번 호 는 실제 핵심 코드 가 두 개 입 니 다. 첫 번 째 는 SQL Server 의 내장 함 수 를 이용 하여 지정 한 번 호 를 걸 러 내 는 것 입 니 다. 문 구 는 다음 과 같 습 니 다.
SELECT Rtrim(Ltrim(Substring(name, Charindex(' ', name) + 1, Len(name)))) AS name
INTO   #t1
FROM   #temp 

두 번 째 는 중국어 포함 여 부 를 판단 하 는 것 입 니 다. 문 구 는 다음 과 같 습 니 다.
SELECT *
FROM   #t1
WHERE  name LIKE N'%[ - ]%' COLLATE Chinese_PRC_BIN 

일 을 하면 서 이런 작은 기 교 를 발견 하고 정리 하 는 것 은 당신 의 일 을 적은 노력 으로 배가 시 킬 것 입 니 다.
Good Luck!

좋은 웹페이지 즐겨찾기