Deneyap Translation October

Decision Tree (CART) - Machine Learning Fun and Easy
https://www.youtube.com/watch?v=DCZ3tsQIoGU


00:02
And Welcome to another fun and easy Machine learning tutorial on Decision Trees.
Türkçe:
Ve  Karar Ağaçları hakkında başka bir eğlenceli ve kolay Makine Öğrenmesi öğreticisine hoş geldiniz.
00:10
A Decision tree is a type of supervised learning algorithm that is mostly used in classification problems. 
 Türkçe:
 Karar ağacı, çoğunlukla sınıflandırma probleminde kullanılan bir tür denetimli öğrenme algoritmasıdır.
00:18
A tree has many analogies in life and turns out it is influenced in wide area of machine learning covering both classification and regression trees, otherwise known as CART.
Türkçe:
Bir ağaç yaşamda birçok çıkarıma sahiptir ve CART olarak da bilinen hem sınıflandırma hem de regresyon ağaçlarını kapsayan geniş makine öğrenim alanından etkilenmiştir.
00:30
Please join our notification brigade by subscribing and clicking that bell icon.
Türkçe:  
Lütfen bu zil simgesine abone olun ve bu simgeyi tıklayarak bildirimlerimize katılın.
00:35
So a decision tree is a flowchart like structure where each internal node Denotes a test on an attribute.
Türkçe:  
Bir karar ağacı, her bir iç düğümün bir öznitelik üzerinde bir testi ifade ettiği bir akış şeması gibidir.
00:43
Each branch represents an outcome of a test and each leaf or terminal node holds a class label.
Türkçe:  
Her dal bir testin sonucunu temsil eder ve her yaprak veya terminal düğümü bir sınıf etiketi içerir.
00:50
The topmost node in a tree is the root node.
Türkçe:  
Bir ağaçtaki en üstteki düğüm kök düğümüdür.
00:54
In decision analysis a decision tree can be used to visually and explicitly represent decisions and decision-making.
Türkçe: 
Karar analizinde, karar ağaçlarını görsel olarak ve açıkça göstermek için bir karar ağacı kullanılabilir.
01:03
As the name goes it uses a tree like model of decisions.
Türkçe:
Adına benzer şekilde karar ağacı gibi bir ağaç kullanılır. 
01:07
So the advantages of CART, it is simple to understand interpret and visualize.
Türkçe:  
Dolayısıyla, CART'ın avantajları, yorumlama ve görselleştirme işlemlerinin kolay olmasıdır.
01:15
Decision trees implicitly perform variable screening or feature selection.
Türkçe:  
Karar ağaçları genel olarak değişken tarama veya özellik seçimi yapar.
01:19
It can handle both numerical as well as categorical data.
Türkçe:  
Hem sayısal hem de kategorik verilerin üstesinden gelebilir.
01:25
It can also handle multi output problems. Decision trees require relatively little effort from the user for data preparation.
Türkçe:  
Ayrıca çoklu çıkış sorunlarını da çözebilir. Karar ağaçları, veri hazırlığı için kullanıcının nispeten az çabasını gerektirir.
01:34
And Non-linear relationships between parameters do not affect the performance.
Türkçe:  
Parametreler arasındaki doğrusal olmayan ilişkiler performansı etkilemez.
01:39
The disadvantages of CART however, is that decision tree learners can create over complex trees that do not generalize the data well.
Türkçe:  
Bununla birlikte, CART'ın dezavantajları, karar ağacı öğrenenlerin, verileri iyi genelleştirmeyen karmaşık ağaçlar üzerinde oluşturabilmesidir.
01:47
This is also known as overfitting.
Türkçe:  
Bu aynı zamanda ezber olarak da bilinir.
01:51
Decision trees can become unstable because small variations in the data might result in a completely different generator.
Türkçe:  
Karar ağaçları dengesiz olabilir, çünkü verilerdeki küçük farklılıklar tamamen farklı bir dallanmaya neden olabilir.
01:57
 This is called Variance which needs to be lowered by methods of bagging and posting.
Türkçe:  
Buna Varyans adı verilir ve; bazı yöntemlerle azaltılması gerekir.
02:06
Greedy algorithms cannot guarantee to return the globally optimal decision Tree. This can be mitigated by training multiple trees.
Türkçe:  
Açgözlü algoritmalar küresel olarak en uygun Karar Ağacı'nı geri getirmeyi garanti edemez. Bu, birden fazla ağaç eğitimi ile hafifletilebilir.
02:14
Where features and samples are randomly sampled with replacement.
Türkçe:  
Özelliklerin ve numunelerin rastgele değiştirildiği yerde örneklendiği ağaç eğitimleriyle.
02:18
Decision tree learners also create bias trees if some classes dominate. It is therefore recommended to balance dataset.
Türkçe:  
Karar ağacı modelleri bazı sınıfların baskın olması durumunda önyargı ağaçları da oluşturur. Bu nedenle veri setini dengelemek tavsiye edilir.
02:25
Priority fitting what the decision tree. If you look at some applications of the decision tree,
Türkçe:  
Karar ağacı için öncelik ayarlamak lazım. Karar ağacının bazı uygulamalarına bakarsanız,
02:30
We can predict whether a customer will pay his renewal premium was an insurance company.
Türkçe:  
Bir müşterinin yenileme primini ödeyip ödeyemeyeceğini tahmin edebiliriz.
02:35
So you can predict yes if he will or no if he wont. You can need to predict Titanic survival statistics.
Türkçe:  
Yani yenileyecekse "evet", yenilemeyecekse "hayır" olacağını tahmin edebilirsiniz. Titanik hayatta kalma istatistiklerini tahmin etmeniz gerekebilir.
02:42
So if male or female as well as age, what are the chances of survival?
Türkçe: 
Öyleyse hem erkek yaşına, hem de kadın yaşına bakarsak, hayatta kalma şansı nedir?
02:48
Can you determine if a person is male or female based on the height and weight?
Türkçe:  
Bir kişinin boy ve kilosuna göre kadın mı erkek mi olduğunu tespit edebilir misiniz?
02:53
Also, you can use it to determine a price of a home based on how many rooms as well as the floor size.
Türkçe:  
Ayrıca, oda sayısına ve kat büyüklüğüne göre bir evin fiyatını belirlemek için de kullanabilirsiniz.
03:00
A decision tree is drawn upside down while its root at the top.
Türkçe: 
Bir karar ağacı, kökü tepesindeyken baş aşağı çizilir.
03:03
So in image let's look at the primary differences and similarities between classification and regression trees.
Türkçe:
Görüntüde yer alan sınıflandırma ve regresyon ağaçları arasındaki temel farklılıklara ve benzerliklere bakalım. 
03:08
Regression trees are used when the dependent variable is continuous.
Türkçe:  
Regresyon ağaçları, bağımlı değişken sürekli olduğunda kullanılır.
03:14
Classification trees are used when the dependent variable is categorical.
Türkçe:  
Sınıflandırma ağaçları, bağımlı değişken kategorik olduğunda kullanılır.
03:19
In the case of regression Trees the value obtained by terminal nodes in the training Data is the mean or average response of the observation falling in that region.
Türkçe:  
Regresyon Ağaçları durumunda, eğitim verilerinde terminal düğümlerin elde ettiği değer, o bölgeye düşen gözlemin ortası veya ortalama cevabıdır.
03:26
Thus if an unseen data observation falls in that region will make its prediction with a mean value.
Türkçe:  
Böylece, görülmeyen bir veri gözlemi bu bölgeye düşerse, tahminini ortalama bir değerle yapacaktır.
03:32
In case of classification tree the value or class obtained by the terminal node in the training Data is the mode of Observation falling in that region.
Türkçe: 
Sınıflandırma ağacı olması durumunda, eğitim verilerindeki terminal düğümü tarafından elde edilen değer veya sınıf, o bölgeye düşen Gözlem şeklidir.
03:44
Thus if an unseen observation falls in that region will make its prediction with a mode value.
Türkçe:  
Böylece, o bölgede görülmeyen bir gözlem düşerse, tahminini bir mod değeriyle yapacaktır.
03:53
So the splitting process is continued until a user-defined stopping Criteria is reached.
Türkçe:  
Böylelikle, kullanıcı tanımlı bir durdurma kriterine ulaşılana kadar bölme işlemine devam edilir.
03:59
For example, we can tell the algorithm to stop once the number of observations per node becomes less than 50.
Türkçe:  
Örneğin, algoritmaya, düğüm başına gözlem sayısı 50'nin altına düştüğünde durmasını söyleyebiliriz.
04:07
So in both cases, the splitting process results in Fully Grown Trees until the stopping Criteria is reached.
Türkçe:  
Bu nedenle, her iki durumda da, bölme işlemi durma Kriterleri'ne ulaşana kadar Tamamen Büyümüş Ağaçlar ile sonuçlanır.
04:09
But fully grown trees is likely to overfit data leading to poor accuracy on unseen data.
Türkçe:  
Ancak, tamamen büyümüş ağaçların görünmeyen veriler üzerinde düşük doğrulukla sonuçlanan verileri ezberlemesi olasıdır.
04:16
And this brings pruning. Pruning is one of the techniques used to tackle overfitting we'll learn more about it in Future lectures.
Türkçe:  
Ve bu da budama getiriyor. Budama, öğrenmemize yardımcı olacak tekniklerden biridir. Gelecekteki derslerde daha fazla üzerinde duracağız.
04:22
So how can an algorithm be represented as a tree? for this let's consider a basic example,
Türkçe:  
Peki bir algoritma nasıl bir ağaç olarak gösterilebilir? Bunun için temel bir örneği ele alalım,
04:28
That used the titanic data set for predicting whether a passenger that survived or not.
Türkçe:  
Titanic veri setini bir yolcunun hayatta kalıp kalmadığını tahmin etmek için kullanalım.
04:33
This model over here uses three features from the data set: namely; sex, age and number of spouses or children along.
Türkçe: 
Buradaki model bu veri setinden üç özellik kullanır: yani; Cinsiyet, yaş ve yanındaki eş veya çocukların sayısı.
04:40
We can abbreviate this to SIBSP. In this case whether the passenger died or survived is Represented as red and green text respectively.
Türkçe:  
Bunu SIBSP olarak kısaltabiliriz. Bu durumda yolcunun ölmesi veya hayatta kalması, sırasıyla kırmızı ve yeşil metin olarak temsil edilir.
04:47
Although a real data set will have a lot more features and this will just be a branch in a much bigger tree,
Türkçe:  
Her ne kadar gerçek bir veri seti çok daha fazla özelliğe sahip olsa da, bu sadece çok daha büyük bir ağacın dalı olabilir.
04:53
 but you can't ignore the simplicity of the algorithm.
Türkçe:  
ancak algoritmanın basitliğini görmezden gelemezsiniz.
04:59
So what's actually going on in the background?
Türkçe:  
Peki arka planda gerçekte neler oluyor?
05:02
Going a tree involves deciding on which features to choose and what conditions to use for splitting and knowing when to stop.
Türkçe: 
Bir ağaç oluşturma süreci, hangi özellikleri seçeceğinize ve bölmek için hangi koşulları kullanacağınıza karar vermeyi ve ne zaman duracağınızı bilmeyi içerir.
05:10
As a tree generally grows arbitrarily, you need to trim it down for it to look beautiful.
Türkçe:  
Bir ağaç genellikle keyfi olarak büyüdüğünden dolayı, güzel görünmesi için onu kısaltmanız gerekir.
05:15
So let's start with calming techniques used for splitting.
Türkçe:  
Öyleyse bölmek için kullanılan kısaltıcı tekniklerle başlayalım.
05:18
So how does a tree decide to a split? So the decision for making strategic splits heavily affects a tree's accuracy.
Türkçe:  
Peki bir ağaç ayrılmaya nasıl karar verir? Dolayısıyla, stratejik bölünmeler yapma kararı, bir ağacın doğruluğunu büyük ölçüde etkiler.
05:25
The Decision Criteria is different for classification and regression trees.
Türkçe: 
Karar Kriterleri, sınıflandırma ve regresyon ağaçları için farklıdır.
05:31
Decision trees use multiple algorithms.
Türkçe:  
Karar ağaçları birden fazla algoritma kullanır.
05:33
they decide to split a node in two or more sub nodes. The creation of sub nodes increases homogeneity of result in sub nodes.
Türkçe:  
Bir düğümü iki veya daha fazla alt düğüme bölmeye karar verirler. Alt düğümlerin oluşturulması, sonuçların alt düğümlerde homojenliğini arttırır.
05:41
In other words we can group our data in regions based on Data that have similar traits.
Türkçe:  
Başka bir deyişle, verilerimizi benzer özelliklerine göre bölgelerde gruplayabiliriz.
05:47
Decision Tree splits the nodes on all available variables and then selects the split which results in the most homogeneous subnodes.
Türkçe:  
Karar Ağacı, düğümleri mevcut tüm değişkenlere böler ve sonra en homojen alt düğümleri sağlayan bölmeyi seçer.
05:53 
Let's look at an example shown in this lecture.
Türkçe:  
Bu derste gösterilen örneğe bakalım.
05:58
The Algorithm selection is also based on the type of Target variables, so let's look at the four most commonly used algorithms in Decision tree.
Türkçe:  
Algoritma seçimi aynı zamanda Hedef değişkenlerin türüne de dayanmaktadır, bu nedenle Karar ağacında en sık kullanılan dört algoritmaya bakalım.
06:06
One Giri Index,
Türkçe:  
Birincisi Giri Index(Giri Dizini),
06:09
Two Chi-Square, three Information Gain for reduction invariance.
Türkçe:  
İki, Chi-Square(Chi-Kare), Üç, azaltma değişmezliği için Bilgi Kazancı.
06:16
So we will not go into detail on these algorithms as some involves quite a lot of math.
Türkçe:  
Burada bazıları oldukça fazla matematik gerektirdiğinden, bu algoritmaların ayrıntılarına girmeyeceğiz.
06:19
And most of the hard work is done within Scikit-learn libraries.
Türkçe:  
Zor işlerin çoğu Scikit-learn kütüphanelerinde yapılır.
06:24
Let's gain an intuition of our splitting the data would work if we treat, manually.
Türkçe:  
Elimizle yapmaya çalışırsak, verileri bölmemize dair bir sezgiye sahip olabiliriz.
06:30
So via we have arbitrarily.
Türkçe:  
Rastgele verilerimiz var.
06:32
We have x1 and x2 which are our independent variables. if you look at this data,
Türkçe:  
Bağımsız değişkenlerimiz olan x1 ve x2 var. bu verilere bakarsanız,
06:38
We can split it into five regions
Türkçe:  
Onu beş bölgeye ayırabiliriz.
06:41
So we can draw a line here at x1 equals 20
Türkçe:  
Yani burada x1 eşittir 20 olan yere bir çizgi çizebiliriz
06:45
as well as x2 equals 50. and then another one over here at x1 equals 25
Türkçe:  
yanı sıra, x2, 50'ye eşittir çizgisi. Ve sonra burada bir x1 de 25'e eşittir.
06:54
And then a last split over here between by x2 equals 30.
Türkçe: 
Ve sonra x2'nin 30'a eşit olduğu son bölünme de burada.
06:59
So we have regions R1 R2 R3 R4 and R5.
Türkçe: 
Yani R1 R2 R3 R4 ve R5 bölgelerine sahibiz.
07:02
And we do this empirically the elements I mentioned earlier will do this for you
Türkçe:  
Ve bunu deneyerek yapıyoruz, daha önce bahsettiğim unsurlar bunu sizin için yapacak.
07:07
Now, remember you can split it a bit further into more regions.
Türkçe:  
Şimdi, biraz daha fazla bölgeye ayırabileceğinizi unutmayın.
07:13
So say for example We can split R4 over here, and that will result in more sub nodes in our tree. But for now Let's just have 5 regions.
Türkçe: 
Öyleyse, örneğin R4'ü burada bölebiliriz ve bu ağacımızda daha fazla alt düğümle sonuçlanacaktır. Ama şimdilik sadece 5 bölgemiz olsun.
07:18
 So we start off over here at our root node. So it also solves, is X1 less than 20?
Türkçe:
Böylece buradan yani kök düğümümüzden başlıyoruz. Bu kısım şunu çözer, X1 20'den az mı?
07:26
So we go either yes or no.
Türkçe:  
Sonra ya "evet"e ya da "hayır"a gideriz.
07:28
So if yes is x2 less than 50?
Türkçe:  
Eğer cevap evetse, x2 50'den az mıdır, sorusu gelir.
07:31
So if you look at our graph over there and then we separate that into R1. So if yes we have R1,
Türkçe:  
Eğer şuradaki grafiğimize bakarsanız ve sonra bunu R1'e ayırırsak. Eğer "evet" ise R1,
07:37
If No, we have R2.
Türkçe:  
"hayır" ise, R2 olur.
07:39
Then you go to our other branch and we ask is X1 less than 25?
Türkçe:  
Sonra diğer dala gideriz ve soruyoruz, X1, 25'ten az mıdır?
07:44
So we look at x1 less than 25 if yes then it's R3,
Türkçe:  
Evet, eğer ki x1, 25’in altında ise R3.
07:48
If no then we ask ourselves is X2 less than 30?
Türkçe:  
"Hayır" ise kendimize X2'nin 30'dan az olup olmadığını sorarız.
07:53
And If yes we get R5 and if no, we get R4. so as you can see that is really simple.
Türkçe:  
Ve eğer "evet" ise R5 ve "hayır" ise R4 alırız. Gördüğünüz gibi bu gerçekten basit.
07:59
So this is all the basics to get you on near with Decision tree learning.
Türkçe:  
Seni Karar Ağacı Öğrenmesi'ne yaklaştırmak için temel bilgiler bunlar.
08:03
Decision Trees are also very useful when you use it with other advanced machine learning algorithms like random forest
Türkçe:  
Karar Ağaçları, Rastgele Ormanlar gibi diğer gelişmiş makine öğrenme algoritmaları ile birlikte kullandığınızda da çok kullanışlıdır.
08:09
And boosting which we shall cover in Future lectures.
Türkçe:  
Ve dersi kavramak için yapabileceklerimiz var.
08:12
A popular library for implementing the algorithm is Scikit-learn.
Türkçe:  
Algoritmayı uygulamak için popüler bir kütüphane Scikit-learn'dir.
08:15
It is a wonderful api that can get your model up and running in just a few lines of code in Python.
Türkçe:  
Python'da sadece birkaç kod satırı yazıp modelinizi çalıştırabilmeniz için harika bir "api".
08:20
So thank you for watching please don't forget to smash that like button and click the bell icon to become a part of our notification Brigade.
Türkçe:  
Bu nedenle, izlediğiniz için teşekkür ederiz, lütfen bu düğmeye vurmayı unutma ve bildirimin bir parçası olmak için çan simgesini tıklayın.
08:28
And Also support us on Patreon. See you in the next lecture
Türkçe: 
Ayrıca Patreon'da bizi destekleyin. Bir sonraki derste görüşmek üzere

Yorumlar