케이스윔의 개발 블로그

[Lec01] 기본적인 머신러닝의 용어와 개념설명 본문

모두를 위한 딥러닝

[Lec01] 기본적인 머신러닝의 용어와 개념설명

kswim 2018. 4. 25. 16:01
첫 강의는 기본적인 머신러닝의 용어와 개념설명이다. 아래와 같이 머신러닝에 대한 내용들을 정리할 수 있다.

머신러닝(ML)이란 무엇인가?
  • 일종의 소프트웨어(프로그램)이다.
  • Limitations of explicit programming이다. 즉 프로그램을 개발자가 하나하나 어떻게 할지를 정하지 않고, '프로그램이 어떤 현상에서 자동으로 배우면 어떨까? ' 라는 생각을 통해 머신러닝이라는 것이 생겨났다.


머신러닝의 종류는 학습하는 방법에 따라서 두가지로 나눌 수 있다.

1. Supervised learning: 하나의 정해져 있는 데이터(이미 라벨화된) training set을 가지고 학습하는 것이다.

ex) 이미지들을 주어서 cat, dog, mug 인지 자동으로 카테고리를 알아내는 것-> cat이라는 라벨이 달린 데이터를 주어서 학습을 한 것이다. 

  • Image labeling
  • Email spam filter
  • Predicting exam score(시험성적예측):그 사람이 시험을 얼마나 준비했는데 성적이 얼마다 이런 데이터로 학습

2. Unsupervised learning: label을 줄 수 없는 경우에 라벨화 되어있지 않는 데이터를 통해 학습하는 것이다.

ex ) 자동으로 유사한 뉴스를 그룹-> label을 주기 어려움 

word clustering -> 유사한 단어들을 label로 하기 어려움



  • training data set 이란 무엇인가?

label이 정해진 data(=training data set)-> ML -> Label로 학습시킨 모델이 ML에서 생겨나고 이를 통해 Test값이 들어오면 답을 한다.


Supervised learning의 종류-> 주어지는 training data set에 따라 정해진다.

  1.  시험의 성적을 예측하는 시스템을 만든다고 했을 때 성적은 0~100 에서 결정되므로 이걸 예측하는 걸 regression 이라 한다.
  2. 단순화 시켜서 이 사람이 pass했느냐 unpass했느냐 두 가지로 나눈다면, 두 개 중에 하나를 고르는 것이므로 binary classification이다.
  3. 공부한 시간에 따라 예측한 성적을 주고자 한다면, A, B, C, D, F 여기 중에 어디인지를 고르는 multi-label classification이다. 


TensroFlow란 무엇인가? 데이터 플로우 그래프를 사용해서 numerical 계산을 할 수 있는 라이브러리이다. 

데이터 플로우 그래프는 하나의 연산(operation)인 노드와 data(=tensor)인 엣지로 구성된 있는 그래프이다. 텐서가 그래프를 돌아다닌다는 의미에서 텐서플로다!!!!!! 이 말 너무 귀엽다. 



<Lab1 예제 따라하기>


1. 노드를 만들어서 실행시키기

hell = tf.constant("Hello, TensorFlow!"

#그래프 속 노드를 하나 만드는 것이다.

sess = tf.Session() 

#세션을 만드는 것이다.

print(sess.run(hello)) 

#run함수를 통해서 노드를 실행시킨다.

#위의 과정을 통해서 노드를 만들고, 세션을 만들고, 실행시킨다.

->'b'Hello, TensorFlow!'라고 나오는 이유는 바이트스트림임을 표현하는 것이다.


2. 3과 4인 노드와 (+)인 노드를 통해 7을 계산하고자 한다.

node1 = tf.constant(3.0, tf.float32)

node2 = tf.constant(4.0)

node3 = tf.add(node1, node2) 

#node3 = node1+node2 

-> 이 상태로 node3을 출력하면 값이 아니라 각 tensor들이 뭔지를 출력해준다.

sess = tf.Session()

print(sess.run(node3))


노드를 만들어서 실행시키는 과정

1) 그래프를 build한다. 

2) 세션을 만들어서 실행한다.

3) 1, 2번과정에 의해서 결과가 업데이트된다.(return)


Placeholder

그래프를 실행시키는 단계에서 값들을 던져주고 싶을 때 사용하는 것이다!

a=tf.placeholder(tf.float32)

b=tf.placeholder(tf.float32)

adder_node = a + b

#미리 값을 정해서 노드를 만들어놓는 게 아니라 실행할 때 값을 주려고 사용한다.

print(sess.run(adder_node, feed_dict={a:3,b:4.5})

print(sess.run(adder_node, feed_dict={a:[3,4],b:[4.5,5]}))


Tensor라는 것은? Array 형태이다.


첫 강의와 실습을 정리한 내용은 위와 같다. 첫 강의라서 그런지 아직 재밌고 신기하다. 총 50개의 강의인데 다 듣고 나면 진짜 머신러닝이 무엇인지 텐서플로를 통해서 직접 내가 원하는 코드 한 줄 정도는 작성할 수 있지 않을까 생각한다.



Comments