feel free to

Contact us

The IMC의 사업과 솔루션, 기술지원, 채용정보에
관련한 여러분의 문의사항을 알려주세요.

Tell 053-744-0707
E-mail theimc@theimc.co.kr

성함/직함

연락처

회사명

이메일

방문경로

문의유형

문의내용

개인정보보호정책에 동의합니다. (필수)

프로필 정보

프로필 이미지

by kimyh

AI 혁신팀 선임연구원

AI 모델링 & 데이터 엔지니어

기타

총 00 건

범용 텍스트 전처리 패키지 textbasic

2025-12-08

Install

pip&nbsp;install&nbsp;textbasic

개요

이 패키지는 텍스트 데이터에 대한 고품질화 전용 보편적 전처리 기능을 담은 함수들과 유사도 검증 기능을 제공하여 비정형 텍스트 데이터에 대한 빠른 정형화를 통해 효율적인 데이터 제어를 지원합니다.

Features

- basic

함수명	목적
word_replace	confusion matrix 생성
blank_adjust	과한(2개 이상) 공백 제거
remove_line	특정 키워드가 포함된 줄 제거
remove_re	정규식 기반 텍스트 제거
remove_string	일치여부 기반 텍스트 제거
remove_emoji	이모티콘 제거
remove_enter	줄바꿈 제거
remove_kor	한글 제거
remove_eng	영어 제거
remove_num	숫자 제거
len_filter	길이 기준 데이터 배제
normal	오타수정, 공백제거, 특수 정규식 제거, 이모티콘 제거를 적용
morpheme	형태소 분석

- compare

함수명	목적
extract_sim	유사도 검증 및 그룹화
compare_sim	두 문장 간의 유사도 퍼센티지 계산

Release Notes

2025-11-26 — ver 0.2.0

README.md
- 내용 docs화 진행
basic
- morpheme 함수 출력값을 (원본, 형태소 분석 결과) → (형태소 분석 결과) 단일 출력으로 변경
- 형태소 구성이 하나인 문장(예: 안녕하십니까) 분석 오류 수정
compare
- extract_sim 내부 연산 알고리즘 전체 변경
- compare_sim 활용
- 유사도 그룹 결과 dataframe에 기준문장 대비 유사도 컬럼 sim_p 추가

ver 0.1.7

두 입력 문장의 유사도 퍼센티지 계산 함수 compare_sim 추가

ver 0.1.6

리스트 형태 입력 시 비유사도 데이터 없을 경우 string 컬럼 에러 수정
동일 문장 유사도 기준값을 높일 때 오히려 비유사로 계산되는 문제 수정
유사도 결과 컬럼명을 group_{p} 로 변경

ver 0.1.5

유사도 검증 extract_sim 함수 수정