0% encontró este documento útil (0 votos)
93 vistas21 páginas

Teoría y Proceso de Toma de Decisiones

Este documento presenta una introducción a la teoría de la toma de decisiones. Explica las fases del proceso de toma de decisiones, los tipos de ambientes de decisión (certeza, riesgo e incertidumbre), y los modelos MaxiMax, MaxiMin y el criterio de Hurwicz para la toma de decisiones bajo incertidumbre. Finalmente, da un ejemplo numérico para ilustrar cómo aplicar estos modelos para seleccionar el mejor medio de comunicación para una campaña publicitaria.

Cargado por

Osvaldo Chacin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
93 vistas21 páginas

Teoría y Proceso de Toma de Decisiones

Este documento presenta una introducción a la teoría de la toma de decisiones. Explica las fases del proceso de toma de decisiones, los tipos de ambientes de decisión (certeza, riesgo e incertidumbre), y los modelos MaxiMax, MaxiMin y el criterio de Hurwicz para la toma de decisiones bajo incertidumbre. Finalmente, da un ejemplo numérico para ilustrar cómo aplicar estos modelos para seleccionar el mejor medio de comunicación para una campaña publicitaria.

Cargado por

Osvaldo Chacin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

REPÚBLICA BOLIVARIANA DE VENEZUELA

UNIVERSIDAD ALONSO DE OJEDA

VICERRECTORADO ACADÉMICO

FACULTAD DE INGENIERÍA

ESCUELA INDUSTRIAL

INVESTIGACION DE OPERACIONES 2

Evaluación Actividad Unidad III

ESTUDIANTE:

Osvaldo Chacín

27.260.659

Sección: II0712

Ciudad Ojeda, Mayo 2022


Introducción.

En la vida cotidiana regularmente nos enfrentamos a situaciones conflictivas o


dilemas que exigen tomar decisiones, esta necesidad ocurre cuando se tienen dos
o más alternativas que presentan condiciones de incertidumbre para dar solución
a una situación que se presenta.

Con el fin de conocer este proceso se propone recurrir a la teoría de decisiones la


cual se ocupa de analizar cómo elige una persona aquella acción que, de entre un
conjunto de acciones posibles, lo conduce al mejor resultado dadas sus
preferencias.

Conforme aumenta la complejidad del ser vivo, aumenta también la complejidad


de sus decisiones y la forma en que éstas se toman. Así, pasamos de una toma
de decisiones guiada instintivamente, a procesos de toma de decisiones que
deben estar guiados por un pensamiento racional en el ser humano. La Teoría de
la Decisión tratará, por tanto, el estudio de los procesos de toma de decisiones
desde una perspectiva racional.
Teoría de decisión.

La teoría de la decisión se ocupa de analizar cómo elige una persona aquella


acción que, de entre un conjunto de acciones posibles, le conduce al mejor
resultado dadas sus preferencias. La teoría de la decisión es un método para la
toma de decisiones que se caracteriza por hacer elecciones de forma coherente
cuando se presentan varias opciones.

Fases del proceso de toma de decisiones.

Existe una serie de fases o etapas del proceso de toma de decisiones que son
vitales para lograr mayor efectividad. Sobre todo cuando lo que se desea es
encontrar soluciones eficientes a determinadas condiciones. Para ello, nada mejor
que el desarrollo de estas y su posterior comprensión. Facilitando dicho proceso.

1. Identificar el problema: En primer lugar, para gestionar como es debido el


proceso de toma de decisiones, lo más importante es detectar el problema.
Conocer la problemática y las distintas opciones para solucionarla será el
punto de inflexión para analizar el motivo que se nos presenta y conocer su
naturaleza. Solo de este modo se sabrá si la situación se puede considerar
un problema y plantearte cómo resolverlo.

2. Identificación de los criterios para llevar a cabo el proceso de toma de


decisiones: Señala la pauta que te ayudará a resolver el problema.
Siempre existen diversos métodos que favorecen la toma de decisiones en
una empresa, sólo hay que identificarlos. Los responsables de tomar
decisiones en una empresa saben que tienen un amplio abanico de
posibilidades para afrontar esa problemática. De entre todas ellas, deben
saber identificar cuáles serán las mejores y las que aportarán un beneficio
mayor para la compañía.

3. Ponderación de criterios: Los criterios seleccionados para gestionar el


proceso de toma de decisiones deben ser ponderados para conocer cuáles
son los más eficientes para la toma de decisiones final. Sabrás cual es el
mejor porque se postulará como el preferente.

4. Detección y análisis de alternativas: En algunos casos, en el proceso de


toma de decisiones, se puede dar el caso de que la ponderación de las
opciones posibles no sean las más adecuadas. En este caso, se puede
abrir la veda a alternativas factibles que sean capaces de ofrecer una
solución. La persona responsable de adoptar la resolución debe estudiar las
posibles alternativas. Hay que estar en conocimiento de los puntos fuertes y
los débiles de cada una de ellas. Se deben analizar y comparar para poder
esclarecer si verdaderamente pueden ser una alternativa viable.

5. Selección de una alternativa: Una vez conocidas y evaluadas las


alternativas, llega el momento de decidir cuál opción escoger. Se escogerá
la mejor opción para el buen funcionamiento y el rendimiento de la
empresa.

6. Implantación de la decisión: El primer paso es comunicarla a las


personas afectas y conseguir que la acepten. Esto será más sencillo si las
personas encargadas de llevarla a cabo o de acotarla forman parte del
proceso de toma de decisiones. Pero hay que recordar que la decisión final
también debe responder y respetar la planificación empresarial, la
organización y la dirección organizativa.

7. Evaluación de esta: Una vez seleccionada e implantada la solución, llega


el momento de evaluarla. Conocer cómo ha sido adoptada y, lo más
importante, si ha corregido el problema. Por último, es conveniente realizar
un estudio que analice y documente cómo se ha procedido a la toma de
esta decisión. Para determinar una correcta evaluación, se pueden seguir
estos pasos.
 Objetivos resueltos. El proceso de toma de decisiones se habrá
terminado satisfactoriamente si este cumple con las expectativas
esperadas. También es importante saber si las partes implicadas han
aceptado positivamente el reto.

 Analítica e informe de seguimiento. Es conveniente realizar un


informa final donde se determinen los factores que han intervenido
en el proceso de toma de decisiones y como han influido.

 Otros apuntes. Añade a tus estadísticas empresariales los métodos


utilizados, así como introducir los datos recopilados y estudiados
para futuros procedimientos. Resulta muy útil tener catalogado
cualquier paso para el futuro.
Tipos de ambientes en el proceso de toma de decisiones.

El nivel de información determina el tipo de ambiente de la decisión. Según Perez


Gorostegui los ambientes de decisión son los siguientes:

1. Certeza: El ambiente de certeza es aquél en el que el decisor conoce con


absoluta seguridad los estados de la naturaleza que van a presentarse.
Conocido el estado de la naturaleza que se va a presentar, el problema se
reduce a valorar en términos económicos los diferentes desenlaces y elegir
aquella estrategia que conduce al resultado más favorable.

2. Riesgo: Es aquél en el que el decisor sabe qué estados de la naturaleza se


pueden presentar y la probabilidad que tiene cada uno de ellos de
presentarse.

3. Incertidumbre: En este ambiente existe escasa información y para tomar la


decisión se basará en la mera intuición. Se dividen en:

 Incertidumbre estructurada: Es aquél en el que se conocen los


estados de la naturaleza, pero no la probabilidad de cada uno de
ellos.

 Incertidumbre no estructurada: Aquél en el que ni siquiera se


conocen los posibles estados de la naturaleza.

Proceso de toma de decisiones bajo incertidumbre.

Todos los modelos en condiciones de incertidumbre resultan adecuados en


situaciones en las cuales el decisor tiene poca confianza en su capacidad para
juzgar las probabilidades de los diversos estados de la naturaleza o no existe un
experto que realice esta tarea, también sirven en situaciones en las que es
deseable considerar el análisis del peor caso o del mejor, independientemente de
su probabilidad de ocurrencia.

Su análisis también se basa en el planteamiento de una matriz de pagos, pero a


diferencia del Valor Esperado, las probabilidades de ocurrencia de los estados de
la naturaleza, son desconocidas.

MaxiMax y MaxiMin.

Estos modelos matemáticos se basan en la personalidad del decisor, ya sea que


éste adopte una posición optimista o pesimista a la hora de decidir.
 Desde un punto de vista optimista, se elige la opción que mejores
resultados brinde. En el caso de beneficios, se utiliza el MaxiMax, que
representa el máximo de los máximos y para costos, se utiliza el MiniMin,
que significa el mínimo de los mínimos.
 Desde un punto de vista pesimista, se elige la mejor opción de entre las
peores que podrían suceder. Para un problema de utilidades, el modelo
adecuado es el MaxiMin, es decir se elige el valor máximo de entre los
mínimos y en el caso de los costos es el MiniMax, que sugiere elegir el
valor mínimo de entre los máximos.

Ejemplo.

Supongamos que una empresa quiere realizar una campaña publicitaria. Se le


presentan 3 posibilidades: radio (15 minutos de lunes a jueves en un espacio), TV
(1 spot cada semana sobre las 12h) y prensa (1 anuncio 2 días a la semana los
lunes y los jueves). Como han hecho campañas anteriormente se han podido
valorar los beneficios de las diferentes posibilidades del siguiente modo:

¿Qué medio de comunicación se debería elegir?

Resolución:

Como la matriz de pagos es de utilidades, entonces se utilizarán los modelos


MaxiMax y MaxiMin.

 Optimista: MaxiMax. De cada una de las alternativas de la matriz de


decisión (filas) se escoge el mayor valor, y de estos nuevamente se escoge
el valor más alto:

 Pesimista: MaxiMin. De cada una de las alternativas de la matriz de


decisión (filas) se escoge el menor valor, y de estos se escoge el valor más
alto:
Conclusión: Tomando en cuenta una actitud positiva, el medio más adecuado para
realizar la campaña publicitaria sería la radio. En el caso de los pesimistas, la
prensa sería el medio más seguro.

Criterio de realismo o Hurwicz.

Es un criterio intermedio entre el criterio maximax y el maximín. Para evitar el


conservadurismo del maximín y el optimismo del maximax, Hurwicz propuso un
criterio que equivale a la suma ponderada de los resultados extremos de ambas
líneas de acción. Puesto que nadie es siempre optimista o siempre pesimista, el
criterio de Hurwicz establece una vía intermedia entre el maximín y el maximax.
Así, por ejemplo, si alguien otorga a los peores resultados de A y B un valor a =
3/4, y de 1/4 (es decir, 1-a) a los mejores resultados, el criterio de Hurwicz valorará
las distintas líneas de acción de la siguiente manera:

Igualdad de probabilidades o Laplace.

Este método supone que todos los diversos estados de la naturaleza tienen igual
probabilidad de ocurrencia, o sea que es probable que ocurran todos los estados
de la naturaleza.

El criterio de Laplace sí considera, en cambio, todos los valores. Puesto que no


tenemos información sobre la probabilidad de que ocurra C, D o E, lo más racional
sería, según este criterio, asignarle a cada valor la misma probabilidad y elegir el
que nos dé el mayor valor esperado (la mayor utilidad esperada). De esta forma
obtendríamos los siguientes resultados para A y B:

Proceso de toma de decisiones bajo riesgo.

La toma de decisión bajo condición de riesgo se da cuando existe conocimiento de


la probabilidad que un estado de la naturaleza ocurra; es decir el decidor debe
prever la probabilidad de ocurrencia de cada uno de estos estados.
Normalmente, las probabilidades de ocurrencia de los estados de la naturaleza se
conoce mediante la determinación de la frecuencia con que dichos estados
ocurrieron en el pasado; o mediante criterios personales o subjetivos.

Valor monetario esperado.

El valor monetario esperado es un valor basado en la probabilidad que tiene en


cuenta todos los resultados monetarios posibles de una situación dada. El valor se
alcanza multiplicando el porcentaje de cada posibilidad que ocurre por la pérdida o
ganancia monetaria asociada con ese resultado. En ese punto, todos esos
valores, positivos y negativos, se combinan para alcanzar el valor monetario
esperado. Este cálculo es una herramienta valiosa para quienes tienen la tarea de
tomar una decisión que implique varios resultados posibles, ya que representa la
estimación estadísticamente más precisa del resultado final.

Ejemplo: Si un proyecto de negocio tiene 80% de probabilidad de generar


ganancias de $50,000 y un 15% de probabilidad de generar pérdidas de $25,000,
¿Cuál es el EMV del proyecto?

$50,000*80%= $40,000

$25,000*15%= -$3,750

EMV= $ 36,250

Valor esperado de la información.

El valor esperado con la información perfecta (VECIP) es el rendimiento esperado


o promedio, a largo plazo, si es que se tiene información perfecta antes de que se
deba de tomar la decisión. Para calcular este valor se elige la mejor alternativa de
cada estado de la naturaleza y se multiplica su ganancia por la probabilidad de
que ocurra ese estado de la naturaleza.

Donde  = probabilidad y  =Mejor pago del estado de la naturaleza

Se escoge la mejor opción de cada columna para encontrar el VECIP tal como se
muestra a continuación:
El valor esperado de la información perfecta (), es el valor esperado con
información perfecta menos el valor esperado sin la información perfecta
(VMEmax).

De los cálculos anteriores se tiene que Valor Monetario Esperado 𝑉𝑀𝐸𝑚𝑎𝑥 es


40000 y el cálculo de VECIP fue 100000 así el cálculo del valor esperado de la
información perfecta se obtiene como sigue:

Así, lo máximo que se estaría dispuesto a pagar por información perfecta es


60000.

Perdida de oportunidad esperada.

La pérdida de oportunidad esperada (POE) es un cálculo estadístico usado


principalmente en el campo de los negocios para ayudar a determinar el curso de
acción óptimo.

Es el valor de una pérdida como consecuencia de que una compañía genere un


impago. En otras palabras, el valor que representa un impago en un horizonte
temporal determinado, una probabilidad de incumplimiento específica, así como un
nivel de exposición precisado.

Paran un mejor entendimiento, debemos saber que: primeramente, se toman lo


peor del mercado favorable, así como lo de mercado desfavorable, de las
opciones dadas; enseguida lo peor de lo restante, y, por último, lo peor de lo
restante; tal como se muestra en la tabla. La decisión a tomar es la alternativa 2.
Construir una “fábrica grande”.

Arboles de decisión.

Un árbol de decisión es un mapa de los posibles resultados de una serie de


decisiones relacionadas. Permite que un individuo o una organización comparen
posibles acciones entre sí según sus costos, probabilidades y beneficios. Se
pueden usar para dirigir un intercambio de ideas informal o trazar un algoritmo que
anticipe matemáticamente la mejor opción.

1. Comienza con la decisión principal. Dibuja un pequeño recuadro para


representar este punto, luego dibuja una línea desde el recuadro hacia la
derecha para cada posible solución o acción. Etiquétalas correctamente.

2. Agrega nodos de decisión y probabilidad para expandir el árbol del


siguiente modo:

 Si otra decisión es necesaria, dibuja otro recuadro.

 Si el resultado es incierto, dibuja un círculo (los círculos representan nodos


de probabilidad).

 Si el problema está resuelto, déjalo en blanco (por ahora).


Desde cada nodo de decisión, dibuja soluciones posibles. Desde cada nodo de
probabilidad, dibuja líneas que representen los resultados posibles. Si deseas
analizar tus opciones de forma numérica, incluye la probabilidad de cada resultado
y el costo de cada acción.

3. Continúa con la expansión hasta que cada línea alcance un extremo, lo


que significa que no hay más decisiones que tomar o resultados probables
que considerar. Luego, asigna un valor a cada resultado posible. Puede ser
una puntuación abstracta o un valor financiero. Agrega triángulos para
indicar los extremos.

Con un árbol de decisión completo, ya estás listo para comenzar a analizar la


decisión que enfrentas.

Teoría de la utilidad.

La teoría de la utilidad trata de explicar el comportamiento del consumidor. Desde


esta perspectiva se dice que la utilidad es la aptitud de un bien para satisfacer las
necesidades. Así un bien es más útil en la medida que satisfaga mejor una
necesidad. Esta utilidad es cualitativa (las cualidades reales o aparentes de los
bienes), es espacial (el objeto debe encontrarse al alcance del individuo) y
temporal (se refiere al momento en que se satisface la necesidad).

Esta teoría parte de varios supuestos:

 El ingreso del consumidor por unidad de tiempo es limitado.


 Las características del bien determinan su utilidad y por tanto afectan las
decisiones del consumidor.

 El consumidor busca maximizar su satisfacción total (utilidad total), y por


tanto gasta todo su ingreso.

 El consumidor posee información perfecta, es decir, conoce los bienes (sus


características y precios).

 El consumidor es racional, esto quiere decir que busca lograr sus objetivos,
en este caso trata de alcanzar la mayor satisfacción posible. Esto quiere
decir que el consumidor es capaz de determinar sus preferencias y ser
consistente en relación con sus preferencias. Así, si el consumidor prefiere
el bien A sobre el bien B y prefiere el bien B sobre el bien C, entonces
preferirá el bien A sobre el bien C (transitividad).

La teoría económica del comportamiento del consumidor se topa con un problema


importante (llamado el problema central de la teoría del consumidor), el cual es la
imposibilidad de cuantificar el grado de satisfacción o utilidad que el consumidor
obtiene de los bienes. No existe una unidad de medida objetiva de la satisfacción.
Este problema se ha enfrentado a través de dos enfoques distintos:

 Enfoque cardinal: Supone que si es posible medir la utilidad, o sea que si se


dispone de una unidad de medida de la satisfacción.

 Enfoque ordinal: En este enfoque el consumidor no mide la utilidad, sólo


establece combinaciones de bienes que prefiere o le son indiferentes con
respecto a otras combinaciones de bienes.

Enfoque cardinal:

A partir de los supuestos y conceptos mencionados se definen dos conceptos de


utilidad o satisfacción:

 Utilidad Total: es la satisfacción total de consumir una cierta cantidad de un


bien.

 Utilidad Marginal: es la satisfacción extra de una unidad de consumo


adicional.

Ejemplo: Suponga que un consumidor percibe los siguientes niveles de utilidad


total y marginal por el consumo de chocolates:
Graficando ambos conceptos:
En los datos anteriores se observa que se satisface la LEY DE LA UTILIDAD
MARGINAL DECRECIENTE, es decir, la satisfacción adicional del consumidor
disminuye a medida que se consume una mayor cantidad del bien. Observe que
hay un punto de inflexión, a partir del cual la utilidad marginal (UM) se vuelve
decreciente:

¿Cuánto debe comprar el consumidor?

Para responder a esa pregunta es

necesaria más información:

 El ingreso del consumidor.

 La utilidad que obtiene por los demás bienes alternativos.

Supóngase que el consumidor puede comprar dos bienes A y B. Entonces deben


cumplirse dos condiciones para maximizar la satisfacción total:

1. El consumidor gasto todo su ingreso: restricción presupuestaria:

I = Pa· Qa + Pb · Qb

2. El consumidor maximiza su utilidad total: condición de equimarginalidad:


Proceso de decisión de Markov.

Un proceso de decisión de Markov (en inglés Markov decision process , CDM) es


un modelo estocástico donde un agente toma decisiones y donde los resultados
de sus acciones son aleatorios. Los MDP se utilizan para estudiar problemas de
optimización mediante algoritmos de programación dinámica o aprendizaje por
refuerzo.

Para entender qué es un MDP, supongamos que tenemos un sistema que


evoluciona con el tiempo como un autómata probabilístico. En cada instante, el
sistema está en un estado dado y existe una cierta probabilidad de que el sistema
evolucione hacia tal o cual otro estado en el siguiente instante haciendo una
transición.

Ahora suponga que necesitamos controlar este sistema de caja negra de la mejor
manera posible. El objetivo es llevarlo a un estado considerado beneficioso,
evitando que pase por estados dañinos. Para ello, disponemos de un conjunto de
posibles acciones en el sistema. Para complicar las cosas, asumiremos que el
efecto de estas acciones en el sistema es probabilístico: la acción tomada puede
tener el efecto deseado o algún otro efecto. La eficacia del control se mide en
relación con la ganancia o la penalización recibida a lo largo del experimento.

Así, el razonamiento basado en MDP se puede reducir al siguiente


discurso: estando en tal caso y eligiendo tal o cual acción, hay tantas posibilidades
de que me encuentre en un caso tan nuevo con tal ganancia.

Propiedad de Markov.

La propiedad de Markov nos muestra que el futuro es independiente del pasado,


dado el presente, lo cual se expresa en la siguiente formula:

La cual significa que el estado actual (representado por Sₜ) contiene toda la
información relevante de los estados pasados (S₁,….. Sₜ), por lo tanto ya no nos
serviría tener mayor información de los estados pasados.

Matriz de transición de estados.


Ahora pasaremos a ver la llamada matriz de transición de estados, la cual nos
muestra cual sería la probabilidad de transición desde un estado S a un estado S’
y en donde cada fila sumaría uno, se vería de la siguiente manera, estos
conceptos serán mostrados en un ejemplo más adelante.

Simplificando, un proceso de Markov es un proceso sin memoria y aleatorio; en


otras palabras es una secuencia de estados aleatorios que posee la propiedad de
Markov.

Se podría definir el proceso de Markov como una tupla <S, P>

 S es una lista de estados a los cuales puede pertenecer.


 P es una matriz de transición de estado.

Modelos de programación dinámica de etapa finita e infinita.

La programación dinámica, es una técnica que permite la resolución de problemas


que tratan de alcanzar determinados fines, a través, de una serie de etapas o
fases compuestas de diversos estados, de estos es necesario hacer una elección,
de tal manera que se alcance la máxima efectividad global, también podemos
decir, que es una técnica matemática que trata con la optimización de procesos de
decisión. La optimización es por fases en vez de simultánea.

Horizonte finito: el agente trata de optimizar su recompensa esperada en los


siguientes h pasos, sin preocuparse de lo que ocurra después:

donde rt significa la recompensa recibida t pasos en el futuro. Este modelo se


puede usar de dos formas: (i) política no estacionaria: donde en el primer paso se
toman los siguientes h pasos, en el siguiente los h − 1, etc., hasta terminar. El
problema principal es que no siempre se conoce cuántos pasos considerar.
Horizonte infinito: las recompensas que recibe un agente son reducidas
geométricamente de acuerdo a un factor de descuento γ (0 ≤ γ < 1) considerando
un número infinito de pasos:

Modelo de etapa infinita: método de enumeración exhaustiva.

Consiste en enumerar todas las soluciones posibles, a partir de los valores


tomados para las variables enteras y realizar todas las combinaciones posibles
hasta encontrar una combinación que nos proporcione el valor óptimo de la
función objetivo y que cumpla con todas las restricciones del problema. Una de las
objeciones principales que presenta este método es el número de variables, ya
que se presentan demasiadas combinaciones antes de encontrar la solución
óptima. Ejemplo: MAX Z = 3 X1+ 5 X2 Sujeta a:

Solución: Posibles valores enteros de X1, según la restricción X1+X2

8: X1 = 0, 1, 2, 3, 4, 5, 6, 7, 8

Posibles valores enteros de X1, según la restricción3 X1 + 2 X2

7: X1= 0, 1, 2

Entonces X1= 0, 1, 2 Posibles valores enteros de X2, según la restricción X1 + X2

8:

Posibles valores enteros de X2, según la restricción 3 X1 + 2 X2

X2 =

0, 1, 2, 3, 4, 5, 6, 7, 8

7: X2= 0, 1, 2, 3

Método de iteración de política con descuento.

El algoritmo de iteración de política se puede ampliar para abarcar descuentos.


Dado el factor de descuento α (< 1), la ecuación recursiva de etapas finitas se
puede plantear como sigue:
(Nótese que η representa la cantidad de etapas que faltan.) Se puede demostrar
que cuando η→∞ (modelo infinito), fη(i) =f (i), siendo f (i) el ingreso a valor
presente (descontado), si el sistema está en el estado i y funciona durante un
horizonte infinito. Así, el comportamiento de fη(i) a largo plazo, cuando η→∞ es
independiente del valor de η. Esto contrasta con el caso donde no hay
descuentos, en el que fη(i)=ηE +f (i). Cabría esperar este resultado, porque al
descontar, el efecto de los ingresos futuros disminuye a cero, en forma asintótica.
En realidad, el valor presente f (i) debe tender a un valor constante cuando η→∞.
Con base en esta información, se modifican como sigue los pasos de iteración de
política. Paso de determinación de valor. Para una política arbitraria s con matrices
Ps y Rs, resolver las m ecuaciones

Método de iteración política sin descuento.

El método de enumeración exhaustiva no es práctico para problemas grandes. El


método de iteración de política, que está basado en la ecuación recursiva de PD
es, según se demuestra, más eficiente en términos de cálelo que el método de
enumeración exhaustiva, ya que normalmente converge en un número de
iteraciones pequeño. El método de iteración de política está basado
principalmente en el desarrollo siguiente. Para cualquier política específica, el
rendimiento total esperado en la etapa n se expresa a través de la ecuación
recursiva

Esta ecuación recursiva es la base para el desarrollo del método de iteración de


política. Sin embargo, la forma presente se debe modificar ligeramente de manera
que nos permita estudiar la conducta asintótica del proceso.

Problemas de decisión de Márkov

Son la forma idealizada matemáticamente del problema de aprendizaje por


refuerzo, para el cual se podría encontrar un enunciado teórico preciso que pueda
describirla, en otras palabras, los MDP describen formalmente el medio ambiente
en el cual se desarrolla el RL, donde el medio ambiente es completamente
observable, esto da como consecuencia que la mayoría de problemas dentro del
RL se pueden formalizar como MDPs. Con los MDP se introducen varios
elementos clave para la descripción matemática del problema, como el retorno,
funciones de valor y las ecuaciones de Bellman.

Un ejemplo de este es el siguiente:


Una empresa está considerando utilizar Cadenas de Markov para analizar los
cambios en las preferencias de los usuarios por tres marcas distintas de un
determinado producto. El estudio ha arrojado la siguiente estimación de la matriz
de probabilidades de cambiarse de una marca a otra cada mes:

Si en la actualidad la participación de mercado es de 45%, 25% y 30%,


respectivamente. ¿Cuáles serán las participaciones de mercado de cada marca en
dos meses más?

En primer lugar definimos la variable aleatoria X_{n} que representa la marca que
adquiere un cliente cualquiera en el mes n. Dicha variable aleatoria puede adoptar
los valores 1,2,3 en el mes n=0,1,2,3,..

Adicionalmente conocemos cuál es la distribución inicial y la matriz de


probabilidades de transición en una etapa tal como se observa a continuación:

Luego para conocer la distribución de las participaciones de mercado al cabo de 2


meses (2 etapas) podemos utilizar la fórmula
Se concluye que las cuotas de mercado (participaciones de mercado) en dos
meses ha cambiado de un 45% a un 40.59%; de un 25% a un 33.91% y de un
30% a un 25.50%, para las marcas 1,2 y 3 respectivamente.
Conclusión.

Un ingeniero industrial tiene que familiarizarse con el circuito básico de toma de


las decisiones y sus ingredientes. Una vez reconocidos estos ingredientes
básicos, debe prestarse atención al carácter de quien toma la decisión, tanto
individualmente como en grupo. Debido a que la mayoría de las decisiones tienen
efecto sobre la gente, el Gerente no puede ignorar la influencia de las relaciones
humanas en una decisión, especialmente cuando se selecciona una técnica para
tomarla.

La representación en diagrama de un problema dado puede tomar diferentes


formas y puede ser una ayuda invaluable para reunir y mostrar el problema en
particular o los parámetros de la decisión. Un conocimiento básico de las teorías
de las probabilidades y de la estadística ayudará en la presentación gráfica de
esta información.

Sin embargo, una vez que se haya procesado toda la información y al mismo
tiempo comprendido cuáles son los ladrillos básicos para la construcción de la
toma de decisiones, aún se requiere un ingrediente más para que un Gerente
tome las decisiones acertadas.

La persona que no desee correr riesgos nunca tendrá éxito como ingeniero y más
aún si desea convertirse en un gerente. Un Gerente debe tener el buen juicio para
saber qué tanta información debe recoger, la inteligencia para dirigir la información
y, lo más importante de todo, el valor para tomar la decisión que se requiere
cuando ésta conlleva un riesgo. La cualidad personal del valor para aceptar la
responsabilidad de una decisión (sea ésta buena o mala) separa a las personas
ordinarias de quienes toman decisiones excelentes.

También podría gustarte