Install
pip install textbasic
개요
이 패키지는 텍스트 데이터에 대한 고품질화 전용 보편적 전처리 기능을 담은 함수들과 유사도 검증 기능을 제공하여 비정형 텍스트 데이터에 대한 빠른 정형화를 통해 효율적인 데이터 제어를 지원합니다.
Features
- basic
| 함수명 | 목적 |
|---|---|
| word_replace | confusion matrix 생성 |
| blank_adjust | 과한(2개 이상) 공백 제거 |
| remove_line | 특정 키워드가 포함된 줄 제거 |
| remove_re | 정규식 기반 텍스트 제거 |
| remove_string | 일치여부 기반 텍스트 제거 |
| remove_emoji | 이모티콘 제거 |
| remove_enter | 줄바꿈 제거 |
| remove_kor | 한글 제거 |
| remove_eng | 영어 제거 |
| remove_num | 숫자 제거 |
| len_filter | 길이 기준 데이터 배제 |
| normal | 오타수정, 공백제거, 특수 정규식 제거, 이모티콘 제거를 적용 |
| morpheme | 형태소 분석 |
- compare
| 함수명 | 목적 |
|---|---|
| extract_sim | 유사도 검증 및 그룹화 |
| compare_sim | 두 문장 간의 유사도 퍼센티지 계산 |
Release Notes
2025-11-26 — ver 0.2.0
- README.md
- 내용 docs화 진행
- basic
- morpheme 함수 출력값을 (원본, 형태소 분석 결과) → (형태소 분석 결과) 단일 출력으로 변경
- 형태소 구성이 하나인 문장(예: 안녕하십니까) 분석 오류 수정
- compare
- extract_sim 내부 연산 알고리즘 전체 변경
- compare_sim 활용
- 유사도 그룹 결과 dataframe에 기준문장 대비 유사도 컬럼
sim_p추가
ver 0.1.7
- 두 입력 문장의 유사도 퍼센티지 계산 함수 compare_sim 추가
ver 0.1.6
- 리스트 형태 입력 시 비유사도 데이터 없을 경우 string 컬럼 에러 수정
- 동일 문장 유사도 기준값을 높일 때 오히려 비유사로 계산되는 문제 수정
- 유사도 결과 컬럼명을
group_{p}로 변경
ver 0.1.5
- 유사도 검증 extract_sim 함수 수정
