Natural Language Processing

6 Teknik Dasar Text Preprocessing Pada NLP

Pinterest LinkedIn Tumblr

AkuNgeblog.com – Dalam pemrosesan bahasa di komputer dikenal dengan bidang NLP atau Natural Language Processing begitu juga termasuk kedalam data mining tepatnya Text Mining. Dalam prosesnya dikenal ada beberapa metode salah satunya adalah Text Preprocessing.

Apa itu Text Preprocessing?

Text Preprocessing adalah metode yang dilakukan untuk membuat komputer jadi lebih mudah mengolah bahasa yang ingin diolah.

Proses text preprocessing dilakukan untuk membuat data jadi lebih terstruktur dengan melakukan seleksi terhadap text. Inti tujuannya agar lebih mudah dalam proses selanjutnya seperti melakukan traning dalam machine learning.

Teknik dalam Preprocessing

Saya sendiri belum menemukan aturan dasar atau sota (state of the art) dalam prosesnya tapi secara umum ada beberapa teknik yang umum digunakan, diantarnya

Transformation

  • Lowercase
  • Remove Accents
  • Parse HTML
  • Remove URLs

Tokenization

  • Word & Punctuation
  • whitespace
  • sentence
  • Regexp Pattern
  • Tweet

Normalization

  • Porter Stemmer
  • Snowball Stemmer
  • WordNet Lemmatizer
  • UDPipe Lematizer
    • UDPipe Tokenizer

Filtering

  • Stopwords
  • Lexicon
  • Regexp
  • Document Frequency
  • Most Frequency Token

N-Gram Range

Post Tagger

  • Average Perceptron Tagger
  • Trenbank post tagger (MaxEnt)
  • Standart post tagger

Penutup

jadi tahap pre processing ini sangat penting untuk meminimalisir underfitting ataupun overfitting pada model yang akan dibuat.

Baca juga :   Topic Modelling Pada NLP

Founder & author di AkuNgeblog.com, Seorang penikmat coklat panas.

Tinggalkan Balasan

Pin It