feel free to

Contact us

The IMC의 사업과 솔루션, 기술지원, 채용정보에
관련한 여러분의 문의사항을 알려주세요.

  • Tell 053-744-0707
  • E-mail theimc@theimc.co.kr
프로필 정보
프로필 이미지

by kimyh

AI 혁신팀 선임연구원

AI 모델링 & 데이터 엔지니어

기타

00
리스트가 없습니다.

범용 텍스트 전처리 패키지 textbasic

2025-12-08

Install

pip install textbasic

개요

이 패키지는 텍스트 데이터에 대한 고품질화 전용 보편적 전처리 기능을 담은 함수들과 유사도 검증 기능을 제공하여 비정형 텍스트 데이터에 대한 빠른 정형화를 통해 효율적인 데이터 제어를 지원합니다.

Features

- basic

함수명목적
word_replaceconfusion matrix 생성
blank_adjust과한(2개 이상) 공백 제거
remove_line특정 키워드가 포함된 줄 제거
remove_re정규식 기반 텍스트 제거
remove_string일치여부 기반 텍스트 제거
remove_emoji이모티콘 제거
remove_enter줄바꿈 제거
remove_kor한글 제거
remove_eng영어 제거
remove_num숫자 제거
len_filter길이 기준 데이터 배제
normal오타수정, 공백제거, 특수 정규식 제거, 이모티콘 제거를 적용
morpheme형태소 분석

- compare

함수명목적
extract_sim유사도 검증 및 그룹화
compare_sim두 문장 간의 유사도 퍼센티지 계산

Release Notes

2025-11-26 — ver 0.2.0

  • README.md
    • 내용 docs화 진행
  • basic
    • morpheme 함수 출력값을 (원본, 형태소 분석 결과) → (형태소 분석 결과) 단일 출력으로 변경
    • 형태소 구성이 하나인 문장(예: 안녕하십니까) 분석 오류 수정
  • compare
    • extract_sim 내부 연산 알고리즘 전체 변경
    • compare_sim 활용
    • 유사도 그룹 결과 dataframe에 기준문장 대비 유사도 컬럼 sim_p 추가

ver 0.1.7

  • 두 입력 문장의 유사도 퍼센티지 계산 함수 compare_sim 추가

ver 0.1.6

  • 리스트 형태 입력 시 비유사도 데이터 없을 경우 string 컬럼 에러 수정
  • 동일 문장 유사도 기준값을 높일 때 오히려 비유사로 계산되는 문제 수정
  • 유사도 결과 컬럼명을 group_{p} 로 변경

ver 0.1.5

  • 유사도 검증 extract_sim 함수 수정

대구본부 : (42250) 대구광역시 수성구 알파시티1로 35길 17(텍스톰 베이스, 1층)| 서울본부 : (04534) 서울특별시 중구 을지로 50(을지한국빌딩, 20층)|상주 스마트팜 연구소 : 경상북도 상주시 사벌국면상풍로 604-61(빅데이터센터, 2층)|대표이사 : 전채남|Tel(개발문의) : 053-744-0707|Email : theimc@theimc.co.kr

©COPYRIGHT 2018 The IMC Inc. ALL RIGHTS RESERVED.